機器學習演算法

03-02

機器學習有哪些常用演算法

新手專區機器學習ai

導語：通過文章《什麼是機器學習》我們大概知曉了機器學習，那麼機器學習裡面究竟有多少經典的演算法呢？本文簡要介紹一下機器學習中的常用演算法。這部分介紹的重點是這些方法內涵的思想，數學與實踐細節不會在這討論。

1、回歸演算法

在大部分機器學習課程中，回歸演算法都是介紹的第一個演算法。原因有兩個：一.回歸演算法比較簡單，介紹它可以讓人平滑地從統計學遷移到機器學習中。二.回歸演算法是後面若干強大演算法的基石，如果不理解回歸演算法，無法學習那些強大的演算法。回歸演算法有兩個重要的子類：即線性回歸和邏輯回歸。

線性回歸就是我們前面說過的房價求解問題。如何擬合出一條直線最佳匹配我所有的數據？一般使用「最小二乘法」來求解。「最小二乘法」的思想是這樣的，假設我們擬合出的直線代表數據的真實值，而觀測到的數據代表擁有誤差的值。為了儘可能減小誤差的影響，需要求解一條直線使所有誤差的平方和最小。最小二乘法將最優問題轉化為求函數極值問題。函數極值在數學上我們一般會採用求導數為0的方法。但這種做法並不適合計算機，可能求解不出來，也可能計算量太大。

計算機科學界專門有一個學科叫「數值計算」，專門用來提升計算機進行各類計算時的準確性和效率問題。例如，著名的「梯度下降」以及「牛頓法」就是數值計算中的經典演算法，也非常適合來處理求解函數極值的問題。梯度下降法是解決回歸模型中最簡單且有效的方法之一。從嚴格意義上來說，由於後文中的神經網路和推薦演算法中都有線性回歸的因子，因此梯度下降法在後面的演算法實現中也有應用。

邏輯回歸是一種與線性回歸非常類似的演算法，但是，從本質上講，線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數值問題，也就是最後預測出的結果是數字，例如房價。而邏輯回歸屬於分類演算法，也就是說，邏輯回歸預測結果是離散的分類，例如判斷這封郵件是否是垃圾郵件，以及用戶是否會點擊此廣告等等。

實現方面的話，邏輯回歸只是對對線性回歸的計算結果加上了一個Sigmoid函數，將數值結果轉化為了0到1之間的概率(Sigmoid函數的圖像一般來說並不直觀，你只需要理解對數值越大，函數越逼近1，數值越小，函數越逼近0)，接著我們根據這個概率可以做預測，例如概率大於0.5，則這封郵件就是垃圾郵件，或者腫瘤是否是惡性的等等。從直觀上來說，邏輯回歸是畫出了一條分類線，見圖1。

[Math Processing Error]圖1 邏輯回歸的直觀解釋

假設我們有一組腫瘤患者的數據，這些患者的腫瘤中有些是良性的(圖中的藍色點)，有些是惡性的(圖中的紅色點)。這裡腫瘤的紅藍色可以被稱作數據的「標籤」。同時每個數據包括兩個「特徵」：患者的年齡與腫瘤的大小。我們將這兩個特徵與標籤映射到這個二維空間上，形成了我上圖的數據。

當我有一個綠色的點時，我該判斷這個腫瘤是惡性的還是良性的呢？根據紅藍點我們訓練出了一個邏輯回歸模型，也就是圖中的分類線。這時，根據綠點出現在分類線的右側，因此我們判斷它的標籤應該是紅色，也就是說屬於惡性腫瘤。

邏輯回歸演算法划出的分類線基本都是線性的(也有划出非線性分類線的邏輯回歸，不過那樣的模型在處理數據量較大的時候效率會很低)，這意味著當兩類之間的界線不是線性時，邏輯回歸的表達能力就不足。下面的兩個演算法是機器學習界最強大且重要的演算法，都可以擬合出非線性的分類線。

2、神經網路

神經網路(也稱之為人工神經網路，ANN)演算法是80年代機器學習界非常流行的演算法，不過在90年代中途衰落。現在，攜著「深度學習」之勢，神經網路重裝歸來，重新成為最強大的機器學習演算法之一。

神經網路的誕生起源於對大腦工作機理的研究。早期生物界學者們使用神經網路來模擬大腦。機器學習的學者們使用神經網路進行機器學習的實驗，發現在視覺與語音的識別上效果都相當好。在BP演算法(加速神經網路訓練過程的數值演算法)誕生以後，神經網路的發展進入了一個熱潮。BP演算法的發明人之一是前面介紹的機器學習大牛Geoffrey Hinton(圖1中的中間者)。

具體說來，神經網路的學習機理是什麼？簡單來說，就是 分解與整合。在著名的Hubel-Wiesel試驗中，學者們研究貓的視覺分析機理是這樣的。（如圖2）

[Math Processing Error]圖2 Hubel?Wiesel試驗與大腦視覺機理

比方說，一個正方形，分解為四個折線進入視覺處理的下一層中。四個神經元分別處理一個折線。每個折線再繼續被分解為兩條直線，每條直線再被分解為黑白兩個面。於是，一個複雜的圖像變成了大量的細節進入神經元，神經元處理以後再進行整合，最後得出了看到的是正方形的結論。這就是大腦視覺識別的機理，也是神經網路工作的機理。

讓我們看一個簡單的神經網路的邏輯架構。在這個網路中，分成輸入層，隱藏層，和輸出層。輸入層負責接收信號，隱藏層負責對數據的分解與處理，最後的結果被整合到輸出層。每層中的一個圓代表一個處理單元，可以認為是模擬了一個神經元，若干個處理單元組成了一個層，若干個層再組成了一個網路，也就是」神經網路」（圖3）。

[Math Processing Error]圖3 神經網路的邏輯架構

在神經網路中，每個處理單元事實上就是一個邏輯回歸模型，邏輯回歸模型接收上層的輸入，把模型的預測結果作為輸出傳輸到下一個層次。通過這樣的過程，神經網路可以完成非常複雜的非線性分類。

下圖會演示神經網路在圖像識別領域的一個著名應用，這個程序叫做LeNet，是一個基於多個隱層構建的神經網路。通過LeNet可以識別多種手寫數字，並且達到很高的識別精度與擁有較好的魯棒性。（見圖4）

[Math Processing Error]圖4 LeNet的效果展示

右下方的方形中顯示的是輸入計算機的圖像，方形上方的紅色字樣「answer」後面顯示的是計算機的輸出。左邊的三條豎直的圖像列顯示的是神經網路中三個隱藏層的輸出，可以看出，隨著層次的不斷深入，越深的層次處理的細節越低，例如層3基本處理的都已經是線的細節了。LeNet的發明人就是前文介紹過的機器學習的大牛Yann LeCun(圖1右者)。

進入90年代，神經網路的發展進入了一個瓶頸期。其主要原因是儘管有BP演算法的加速，神經網路的訓練過程仍然很困難。因此90年代後期支持向量機(SVM)演算法取代了神經網路的地位。

3、SVM（支持向量機）

支持向量機演算法是誕生於統計學習界，同時在機器學習界大放光彩的經典演算法。

支持向量機演算法從某種意義上來說是邏輯回歸演算法的強化：通過給予邏輯回歸演算法更嚴格的優化條件，支持向量機演算法可以獲得比邏輯回歸更好的分類界線。但是如果沒有某類函數技術，則支持向量機演算法最多算是一種更好的線性分類技術。

但是，通過跟高斯「核」的結合，支持向量機可以表達出非常複雜的分類界線，從而達成很好的的分類效果。「核」事實上就是一種特殊的函數，最典型的特徵就是可以將低維的空間映射到高維的空間。

例如圖5所示：

[Math Processing Error]圖5 支持向量機圖例

我們如何在二維平面劃分出一個圓形的分類界線？在二維平面可能會很困難，但是通過「核」可以將二維空間映射到三維空間，然後使用一個線性平面就可以達成類似效果。也就是說，二維平面劃分出的非線性分類界線可以等價於三維平面的線性分類界線。於是，我們可以通過在三維空間中進行簡單的線性劃分就可以達到在二維平面中的非線性劃分效果。（見圖6）

[Math Processing Error]圖6 三維空間的切割

支持向量機是一種數學成分很濃的機器學習演算法（相對的，神經網路則有生物科學成分）。在演算法的核心步驟中，有一步證明，即將數據從低維映射到高維不會帶來最後計算複雜性的提升。於是，通過支持向量機演算法，既可以保持計算效率，又可以獲得非常好的分類效果。因此支持向量機在90年代後期一直佔據著機器學習中最核心的地位，基本取代了神經網路演算法。直到現在神經網路借著深度學習重新興起，兩者之間才又發生了微妙的平衡轉變。

4、聚類演算法

前面的演算法中的一個顯著特徵就是我的訓練數據中包含了標籤，訓練出的模型可以對其他未知數據預測標籤。在下面的演算法中，訓練數據都是不含標籤的，而演算法的目的則是通過訓練，推測出這些數據的標籤。這類演算法有一個統稱，即無監督演算法(前面有標籤的數據的演算法則是有監督演算法)。無監督演算法中最典型的代表就是聚類演算法。

讓我們還是拿一個二維的數據來說，某一個數據包含兩個特徵。我希望通過聚類演算法，給他們中不同的種類打上標籤，我該怎麼做呢？簡單來說，聚類演算法就是計算種群中的距離，根據距離的遠近將數據劃分為多個族群。

聚類演算法中最典型的代表就是K-Means演算法。

5、降維演算法

降維演算法也是一種無監督學習演算法，其主要特徵是將數據從高維降低到低維層次。在這裡，維度其實表示的是數據的特徵量的大小，例如，房價包含房子的長、寬、面積與房間數量四個特徵，也就是維度為4維的數據。可以看出來，長與寬事實上與面積表示的信息重疊了，例如面積=長 × 寬。通過降維演算法我們就可以去除冗餘信息，將特徵減少為面積與房間數量兩個特徵，即從4維的數據壓縮到2維。於是我們將數據從高維降低到低維，不僅利於表示，同時在計算上也能帶來加速。

剛才說的降維過程中減少的維度屬於肉眼可視的層次，同時壓縮也不會帶來信息的損失(因為信息冗餘了)。如果肉眼不可視，或者沒有冗餘的特徵，降維演算法也能工作，不過這樣會帶來一些信息的損失。但是，降維演算法可以從數學上證明，從高維壓縮到的低維中最大程度地保留了數據的信息。因此，使用降維演算法仍然有很多的好處。

降維演算法的主要作用是壓縮數據與提升機器學習其他演算法的效率。通過降維演算法，可以將具有幾千個特徵的數據壓縮至若干個特徵。另外，降維演算法的另一個好處是數據的可視化，例如將5維的數據壓縮至2維，然後可以用二維平面來可視。降維演算法的主要代表是PCA演算法(即主成分分析演算法)。

6、推薦演算法

除了以上演算法之外，機器學習界還有其他的如高斯判別，樸素貝葉斯，決策樹等等演算法。但是上面列的六個演算法是使用最多，影響最廣，種類最全的典型。機器學習界的一個特色就是演算法眾多，發展百花齊放。

下面做一個總結，按照訓練的數據有無標籤，可以將上面演算法分為監督學習演算法和無監督學習演算法，但推薦演算法較為特殊，既不屬於監督學習，也不屬於非監督學習，是單獨的一類。

監督學習演算法：線性回歸，邏輯回歸，神經網路，SVM

無監督學習演算法：聚類演算法，降維演算法

特殊演算法：推薦演算法

除了這些演算法以外，有一些演算法的名字在機器學習領域中也經常出現。但他們本身並不算是一個機器學習演算法，而是為了解決某個子問題而誕生的。你可以理解他們為以上演算法的子演算法，用於大幅度提高訓練過程。其中的代表有：梯度下降法，主要運用在線型回歸，邏輯回歸，神經網路，推薦演算法中；牛頓法，主要運用在線型回歸中；BP演算法，主要運用在神經網路中；SMO演算法，主要運用在SVM中。