大數據與機器學習（2）

05-06

文中涉及的「數據目錄」和「源代碼目錄」見雲盤：https://pan.baidu.com/s/1slJntRR

4、常見機器學習方法及使用場景

總的來說，機器學習面臨的任務是從數據中學習規律，根據數據特點的不同、問題的不同，機器學習的任務也有區別。對於機器學習面對的數據問題，如果從數據的特點來分，一般可以分為離散和連續兩類；如果從問題的特點來分，一般可以分為有監督和無監督兩類。

離散和連續很容易理解，這裡解釋一下有監督和無監督的區別。如果問題是「有監督」的，那麼首先要求數據是有「標記」的，比如做圖像識別，用來學習的數據不但要有圖片，而且有每張圖片到底代表了是「貓」還是「狗」的標記，相當於一直有一個「標準答案」在「監督」學習的過程並給出反饋。反之，有些問題則是「無監督」的，比如給了一個股票的價格數據，需要學習股票價格波動的規律，這時股票價格數據並沒有額外的「標記」，因此需要全靠演算法自行發現規律。

根據數據特點的不同和問題特點的不同，可以把機器學習的任務大致分為以下四類：

針對不同的任務，都有相應的機器學習方法來處理。當然，有些方法並不是只能做某一類的任務，比如很多方法既可以用來做分類、也可以用來做回歸。下面，就來簡單介紹常見的各種機器學習的方法，以及大致適用的場景。

機器學習是一個涉及很廣的領域，下面每一種學習方法的掌握並運用都需要時間和精力的投入。這個章節的主要目的是介紹各種學習方法的大致特點，在內容上避免描述太多細節。

高斯過程方法

高斯過程（Gaussian Process）方法可用於分類或回歸，其前提假設是分析的自變數，均符合高斯分布。

這裡，我們用一個夏威夷二氧化碳歷史含量數據（數據目錄下 co2.csv）來預測未來 30 年可能的二氧化碳含量（見源代碼目錄下 gp_co2.py），結果如下，其中紅色代表歷史數據，黃色代表未來的預測值，灰色區域代表估計預測結果的標準差範圍：

決策樹

決策樹（Decision Tree）是一種結構簡單的、可以用於處理分類和回歸問題的模型。比如，下面就是一棵簡單的用於預測用戶流失的決策樹：

決策樹學習就要從數據中學習生成上面的這個模型，假設一個用戶很長時間不登陸了、或者雖然間歇性登陸，但是每次停留時間很短，那麼這樣的用戶就很有可能會馬上流失了，因此，我們要把登錄間隔、停留時長這些特徵學習出來。從模型可以看到，決策樹具有很好的可解釋性。

這裡，我們以一個收入數據為例，從這個數據我們可以了解到，一個人的收入可能和年齡、教育程度、性別、種族、每周工作時長等因素都有關係，現在，嘗試從這個數據學習生成一個決策樹模型，來提取這些因素對一個人收入的影響（見源代碼目錄下 decision_tree_income.py）：

如果設置決策樹最大深度為 3，則得到模型的 ROC-AUC 評分為 0.735，得到決策樹如下：

如果設置決策樹最大深度為 6，則得到模型的 ROC-AUC 評分為 0.857，得到決策樹如下：

可見，通過調整參數，可以找到使模型評分儘可能高的參數配置，此時，決策樹模型會擁有相對更好的泛化性能。

支持向量機（SVM）

SVM 是一類二元分類的演算法，它特點在於將所有數據視為為 N 維空間中的「向量」，這樣目標就變為尋找 N 維空間中的 N-1 維超平面將數據一分為二，並且離兩部分數據最近點離這個平面的距離儘可能地大，如下圖所示：

但現實中很多時候數據並不是直接線性可分的，這個時候就需要將數據映射到更加高維度的空間中去。但是數據維度的增加又會帶來計算量的極大增加，所以在這裡引入了核函數來簡化高維空間中的距離計算，這就是基於核函數的學習方法（核方法）。

看一個簡單的例子，我們有一個數據，將數據繪製到平面上是這個樣子的：

現在我們希望尋找 SVM 模型可以將這個數據很好地分開，顯然，無論如何畫一條直線，都不可能將數據完全分開。因此，這裡選擇 RBF 核函數對數據進行核化，然後再進行分割（見源代碼目錄下 svm.py），最終得到結果如下：

貝葉斯演算法

貝葉斯演算法是基於貝葉斯公式的一種學習演算法，最常見的貝葉斯演算法是樸素貝葉斯（Naive Bayes），「樸素」的意思是假設所有的特徵兩兩相互獨立。這種方法大量運用於文本分類，在將文本按詞切分後，再通過對詞頻等特徵進行學習來對文本進行分類，可以判斷文本內容是不是垃圾郵件、情緒是不是正面的、是不是殭屍用戶產生的內容等等。

顯然，樸素貝葉斯學習方法的效果和貝葉斯公式中的概率分布關係很大。常用的樸素貝葉斯採用的概率分布有高斯分布、二項分布、伯努利分布等。一般來說，如果數據分布比較連續，可能比較適用高斯分布；如果數據大部分是離散值，可能比較適用二項分布；如果數據是二元離散值、或者分布比較稀疏，則可能比較適用伯努利分布。

比如這個豆瓣影評數據（數據目錄下 douban_comments.csv）中，包含了用戶給一部電影的評分（Star）以及評論（Comment），我們認為評分 >3 的屬於正面評價，否則屬於負面評價。現在，我們想要從用戶的評論文字去推測這個用戶對電影的觀感如何，到底是屬於偏正面的還是偏負面的，這個時候就可以用樸素貝葉斯學習器去學習（見源代碼目錄下 naive_bayes_douban_movies.py，這個例子運行時間比較久）。

最後得到一個準確率大概為 70% 的模型，輸入一段文字「這部電影還是值得一看的，起碼打鬥場面相當不錯」，使用這個模型可以預測這是一句正面的評價；而「不行啊，看得都快睡著了」，模型預測就是一句負面的評價。

大數據與機器學習（2）

4、常見機器學習方法及使用場景

最近鄰法

高斯過程方法

決策樹

支持向量機（SVM）

貝葉斯演算法