Python語法速覽與機器學習開發環境搭建

Python語法速覽與機器學習開發環境搭建從屬於筆者的程序猿的數據科學與機器學習實戰手冊,如果希望了解更多關於數據科學與機器學習知識體系結構,推薦閱讀2016:我的技術體系結構圖:Web/ServerSideApplication/MachineLearning、面向程序猿的數據科學與機器學習知識體系及資料合集。

Python

Python 是一門高階、動態類型的多範式編程語言。人生苦短,請用Python,大量功能強大的語法糖的同時讓很多時候Python代碼看上去有點像偽代碼。譬如我們用Python實現的簡易的快排相較於Java會顯得很短小精悍:

def quicksort(arr): if len(arr) <= 1: return arr pivot = arr[len(arr) / 2] left = [x for x in arr if x < pivot] middle = [x for x in arr if x == pivot] right = [x for x in arr if x > pivot] return quicksort(left) + middle + quicksort(right) print quicksort([3,6,8,10,1,2,1])# Prints "[1, 1, 2, 3, 6, 8, 10]"

Python 版本

Python社區存在的最大的問題就是版本分裂,這也是筆者一直覺得有點雞肋般的感覺,畢竟對於處女座而言實在是難受。目前Python社區中存在兩個不同的主要版本:2.7與3.4。Python 3.0引入了很多不向後兼容的變化,因此很多遵循2.7版本的代碼並不能適用於3.4版本。我們可以使用python --version命令來查看當前使用的版本。

常用習慣

模塊注意點換行反斜杠()繼續上一行,Python文件以模塊形式組織。Python程序語句不以分號結尾,而以換行符結尾。Python 使用硬回車來分割語句, 冒號和縮進來分割代碼塊。C++ 和 Java 使用分號來分割語句, 花括弧來分割代碼塊。注釋a. 使用#符號標示注釋; b. 在模塊、類或者函數起始添加一個字元串起文檔作用; c. 使用三引號標示注釋。 print """ Usage: thingy [OPTIONS] -h Display this usage message -H hostname Hostname to connect to """主流程Python 中沒有子程序,只有函數, 所有的函數都有返回值,並且所有的函數都以 def 開始。字元串Python中單引號與雙引號的區別類似於PHP中,雙引號中可以包括單引號。數組Python中數組下標可以為負數,即從右端開始計量,-1即為最後一個數。Python不可以修改數組中值,字元串下標索引方式類似於MATLAB。函數Python的函數可以嵌套定義

Installation:環境搭建

Conda

筆者推薦使用Anaconda作為環境搭建工具,並且推薦使用Python 3.5版本,可以在這裡下載。如果是習慣使用Docker的小夥伴可以參考anaconda-notebook

docker pull rothnic/anaconda-notebookdocker run -p 8888:8888 -i -t rothnic/anaconda-notebook

安裝完畢之後可以使用如下命令驗證安裝是否完畢:

conda --version

安裝完畢之後我們就可以創建具體的開發環境了,主要是通過create命令來創建新的獨立環境:

conda create --name snowflakes biopython

該命令會創建一個名為snowflakes並且安裝了Biopython的環境,如果你需要切換到該開發環境,可以使用activate命令:

  • Linux, OS X: source activate snowflakes

  • Windows: activate snowflakes

我們也可以在創建環境的時候指明是用python2還是python3:

conda create --name bunnies python=3 astroid babel

環境創建完畢之後,我們可以使用info命令查看所有環境:

conda info --envsconda environments: snowflakes * /home/username/miniconda/envs/snowflakes bunnies /home/username/miniconda/envs/bunnies root /home/username/miniconda

當我們切換到某個具體的環境後,可以安裝依賴包了:

conda list # 列舉當前環境中的所有依賴包conda install nltk # 安裝某個新的依賴

Jupyter Notebook

在Conda安裝之後,Jupyter Notebook是默認安裝好的,直接在工作目錄下打開即可:

jupyter notebook

你可以參閱Running the Notebook獲取更多命令細節。

基礎數據類型

和其他主流語言一樣,Python為我們提供了包括integer、float、boolean、strings等在內的很多基礎類型。

數值類型

x = 3print type(x) # Prints "<type "int">"print x # Prints "3"print x + 1 # Addition; prints "4"print x - 1 # Subtraction; prints "2"print x * 2 # Multiplication; prints "6"print x ** 2 # Exponentiation; prints "9"x += 1print x # Prints "4"x *= 2print x # Prints "8"y = 2.5print type(y) # Prints "<type "float">"print y, y + 1, y * 2, y ** 2 # Prints "2.5 3.5 5.0 6.25"

不過需要注意的是,Python並沒有x++或者x--這樣的自增或者自減操作符。另外,Python內置的也提供了長整型與其他複雜數值類型的整合,可以參考這裡。

布爾類型

Python提供了常見的邏輯操作符,不過需要注意的是Python中並沒有使用&&、||等,而是直接使用了英文單詞。

t = Truef = Falseprint type(t) # Prints "<type "bool">"print t and f # Logical AND; prints "False"print t or f # Logical OR; prints "True"print not t # Logical NOT; prints "False"print t != f # Logical XOR; prints "True"

字元串

Python對於字元串的支持還是很好的,不過需要注意到utf-8編碼問題。

hello = "hello" # String literals can use single quotesworld = "world" # or double quotes; it does not matter.print hello # Prints "hello"print len(hello) # String length; prints "5"hw = hello + " " + world # String concatenationprint hw # prints "hello world"hw12 = "%s %s %d" % (hello, world, 12) # sprintf style string formattingprint hw12 # prints "hello world 12"

Python中的字元串對象還包含了很多有用的方法,譬如:

s = "hello"print s.capitalize() # Capitalize a string; prints "Hello"print s.upper() # Convert a string to uppercase; prints "HELLO"print s.rjust(7) # Right-justify a string, padding with spaces; prints " hello"print s.center(7) # Center a string, padding with spaces; prints " hello "print s.replace("l", "(ell)") # Replace all instances of one substring with another; # prints "he(ell)(ell)o"print " world ".strip() # Strip leading and trailing whitespace; prints "world"

可以在這裡中查看詳細的方法列表。

複雜數據類型

列表

Python中的列表等價於數組,不過其能夠動態擴展並且能夠存放不同類型的數值。

xs = [3, 1, 2] # Create a listprint xs, xs[2] # Prints "[3, 1, 2] 2"print xs[-1] # Negative indices count from the end of the list; prints "2"xs[2] = "foo" # Lists can contain elements of different typesprint xs # Prints "[3, 1, "foo"]"xs.append("bar") # Add a new element to the end of the listprint xs # Prints "[3, 1, "foo", "bar"]"x = xs.pop() # Remove and return the last element of the listprint x, xs # Prints "bar [3, 1, "foo"]"

同樣你可以在文檔中查看更多的細節。

切片

Python中對於數組的訪問也相當人性化,通過簡單的操作符即可以完成對於數組中子數組的截取。

nums = range(5) # range is a built-in function that creates a list of integersprint nums # Prints "[0, 1, 2, 3, 4]"print nums[2:4] # Get a slice from index 2 to 4 (exclusive); prints "[2, 3]"print nums[2:] # Get a slice from index 2 to the end; prints "[2, 3, 4]"print nums[:2] # Get a slice from the start to index 2 (exclusive); prints "[0, 1]"print nums[:] # Get a slice of the whole list; prints ["0, 1, 2, 3, 4]"print nums[:-1] # Slice indices can be negative; prints ["0, 1, 2, 3]"nums[2:4] = [8, 9] # Assign a new sublist to a sliceprint nums # Prints "[0, 1, 8, 9, 4]"

遍歷

你可以使用基本的for循環來遍曆數組中的元素,就像下面介個樣紙:

animals = ["cat", "dog", "monkey"]for animal in animals: print animal# Prints "cat", "dog", "monkey", each on its own line.

如果你在循環的同時也希望能夠獲取到當前元素下標,可以使用enumerate函數:

animals = ["cat", "dog", "monkey"]for idx, animal in enumerate(animals): print "#%d: %s" % (idx + 1, animal)# Prints "#1: cat", "#2: dog", "#3: monkey", each on its own line

變換

在編程中我們經常需要對數組進行變換,比較著名的我們可以使用map、reduce、filter這幾個函數,而在Python中提供了非常方便的List Comprehension操作符。譬如我們需要對數組中元素進行依次平方操作

nums = [0, 1, 2, 3, 4]squares = []for x in nums: squares.append(x ** 2)print squares # Prints [0, 1, 4, 9, 16]

我們可以簡寫為如下方式:

nums = [0, 1, 2, 3, 4]squares = [x ** 2 for x in nums]print squares # Prints [0, 1, 4, 9, 16]

List Comprehensions也支持進行條件選擇:

nums = [0, 1, 2, 3, 4]even_squares = [x ** 2 for x in nums if x % 2 == 0]print even_squares # Prints "[0, 4, 16]"

字典

Python中的字典類型即類似於Java中的Map或者JavaScript中的Object,也就是所謂的鍵值對類型,基本的使用方式為:

d = {"cat": "cute", "dog": "furry"} # Create a new dictionary with some dataprint d["cat"] # Get an entry from a dictionary; prints "cute"print "cat" in d # Check if a dictionary has a given key; prints "True"d["fish"] = "wet" # Set an entry in a dictionaryprint d["fish"] # Prints "wet"# print d["monkey"] # KeyError: "monkey" not a key of dprint d.get("monkey", "N/A") # Get an element with a default; prints "N/A"print d.get("fish", "N/A") # Get an element with a default; prints "wet"del d["fish"] # Remove an element from a dictionaryprint d.get("fish", "N/A") # "fish" is no longer a key; prints "N/A"

更多的語法細節可以參考這裡。

遍歷

對於字典的遍歷也非常簡單:

d = {"person": 2, "cat": 4, "spider": 8}for animal in d: legs = d[animal] print "A %s has %d legs" % (animal, legs)# Prints "A person has 2 legs", "A spider has 8 legs", "A cat has 4 legs"

如果你希望同時訪問鍵和其對應的值,可以使用iteritems方法:

d = {"person": 2, "cat": 4, "spider": 8}for animal, legs in d.iteritems(): print "A %s has %d legs" % (animal, legs)# Prints "A person has 2 legs", "A spider has 8 legs", "A cat has 4 legs"

變換

nums = [0, 1, 2, 3, 4]even_num_to_square = {x: x ** 2 for x in nums if x % 2 == 0}print even_num_to_square # Prints "{0: 0, 2: 4, 4: 16}"

Set

Set是一系列無序且唯一的元素的集合:

animals = {"cat", "dog"}print "cat" in animals # Check if an element is in a set; prints "True"print "fish" in animals # prints "False"animals.add("fish") # Add an element to a setprint "fish" in animals # Prints "True"print len(animals) # Number of elements in a set; prints "3"animals.add("cat") # Adding an element that is already in the set does nothingprint len(animals) # Prints "3"animals.remove("cat") # Remove an element from a setprint len(animals) # Prints "2"

更多語法細節可以參考這裡。

遍歷

集合遍歷的語法和數組遍歷很類似,不過因為集合本身是無序的,因此你不能夠依賴於遍歷的順序來預測集合中元素的順序:

animals = {"cat", "dog", "fish"}for idx, animal in enumerate(animals): print "#%d: %s" % (idx + 1, animal)# Prints "#1: fish", "#2: dog", "#3: cat"

變換

from math import sqrtnums = {int(sqrt(x)) for x in range(30)}print nums # Prints "set([0, 1, 2, 3, 4, 5])"

Tuples

Python中的Tuple指不可變的有序元素集合,Tuple很類似於列表,不過區別在於Tuple可以做字典中的鍵類型,而列表則不可以。

d = {(x, x + 1): x for x in range(10)} # Create a dictionary with tuple keyst = (5, 6) # Create a tupleprint type(t) # Prints "<type "tuple">"print d[t] # Prints "5"print d[(1, 2)] # Prints "1"

Function:函數

Python中的函數使用def關鍵字進行定義,譬如:

def sign(x): if x > 0: return "positive" elif x < 0: return "negative" else: return "zero"for x in [-1, 0, 1]: print sign(x)# Prints "negative", "zero", "positive"

同時,Python中的函數還支持可選參數:

def hello(name, loud=False): if loud: print "HELLO, %s!" % name.upper() else: print "Hello, %s" % namehello("Bob") # Prints "Hello, Bob"hello("Fred", loud=True) # Prints "HELLO, FRED!"

更多的語法細節可以參考這裡。

Classes:類

Python中對於類的定義也很直接:

class Greeter(object): # Constructor def __init__(self, name): self.name = name # Create an instance variable # Instance method def greet(self, loud=False): if loud: print "HELLO, %s!" % self.name.upper() else: print "Hello, %s" % self.name g = Greeter("Fred") # Construct an instance of the Greeter classg.greet() # Call an instance method; prints "Hello, Fred"g.greet(loud=True) # Call an instance method; prints "HELLO, FRED!"

可以參考這裡獲取更多信息。

延伸閱讀

  • Python Numpy Tutorial

推薦閱讀:

如何看待將Python代碼轉換成Go代碼並進一步編譯的 Grumpy 項目?
基於ArcGIS的python編程:2.python基礎(一)
不再寫 for 循環
翻譯|Stack Overflow上關於Python的高票問答(一)
Python基礎語法知識總結與實踐(二)

TAG:Python | 机器学习 | Python入门 |