監督學習(LDA)和無監督學習(PCA)

之前看到宏基因組學公眾號一篇文章,比PCA更好用的監督排序—LDA分析、作圖及添加置信-ggord。其中提到LDA是監督學習,PCA是無監督學習。看到這我不禁眉頭一皺:

經過資料查找、匯總和理解,將基本概念mark一下。

機器學習

以高中做題為例,高中平時我們做了大量的習題,掌握了很多解題方法。在考試時面對陌生的題也能用相同的方法進行解答。機器學習的思路也是這樣:利用一些訓練數據(已經做過的題),使機器能夠利用它們(解題方法)分析未知數據(高考的題目)[1]。

假設有兩個人A和B,他們高中時做的習題完全一樣,但是A有參考答案,B沒有參考答案。那麼A的學習方式是監督學習,B的學習方式是無監督學習。在這裡,參考答案就是標籤(lable),標籤用來描述某一個物體的屬性。簡單地說,所有訓練數據都有標籤的學習是監督學習(supervised learning),數據沒有標籤的學習是無監督學習(unsupervised learning),也即聚類(clustering)[1]。

監督學習(Supervised Learning)

分為兩大類:回歸和分類(Regression and Classification)。兩種的區別是輸出結果是連續的還是離散的[2]。

1.回歸分析(Regression Analysis):其數據集是給定一個函數和它的一些坐標點,然後通過回歸分析的演算法,來估計原函數的模型,求出一個最符合這些已知數據集的函數解析式。然後它就可以用來預估其它未知輸出的數據了,你輸入一個自變數它就會根據這個模型解析式輸出一個因變數,這些自變數就是特徵向量,因變數就是標籤。而且標籤的值是建立在連續範圍的。例:通過房地產市場的數據,預測一個給定面積的房屋的價格就是一個回歸問題。這裡我們可以把價格看成是面積的函數,它是一個連續的輸出值[3]。

2.分類(Classification):其數據集由特徵向量和它們的標籤組成,當你學習了這些數據之後,給你一個只知道特徵向量不知道標籤的數據,讓你求它的標籤是哪一個。例:當把上面的問題改為「預測一個給定面積的房屋的價格是否比一個特定的價格高或者低」的時候,這就變成了一個分類問題,因為此時的輸出是『高』或者『低』兩個離散的值[3]。

無監督學習(unsupervised Learning)

無監督學習時沒有標籤,結果未知。但是可以通過聚類從數據中提取一個特殊的結構。如給我們一個OTU表,我們就能通過PCA等聚類方法進行聚類,將OTU分成不同的簇。

無監督學習本身的特點使其難以得到如分類一樣近乎完美的結果。那既然分類如此之好,聚類如此之不靠譜,那為何我們還可以容忍聚類的存在?因為在實際應用中,標籤的獲取常常需要極大的人工工作量,有時甚至非常困難[1]。

其他常見的非監督學習還有隨機森林(Random forests)、K均值聚類(K-means clustering)等方法。

在比PCA更好用的監督排序—LDA分析、作圖及添加置信-ggord文章最後,作者說LDA降維最多降到類別數k-1的維數,而PCA沒有這個限制。我的理解是是k是指樣本的類別,特徵向量最多有k-1個,因此最多降維到k-1[4]。

參考資料

[1]知乎,王豐的回答。

https://www.zhihu.com/question/23194489

[2]知乎,porzy的回答。

https://www.zhihu.com/question/23194489

[3]我的機器學習筆記(一) - 監督學習vs 無監督學習。

https://www.jianshu.com/p/7bae1ead174e

[4]線性判別分析LDA原理總結 - 劉建平Pinard - 博客園

https://www.cnblogs.com/pinard/p/6244265.html

註:資料來源於以上網路,侵刪請告知。


一個環境工程專業卻做生信分析的深井冰博士,深受拖延症的困擾。想給自己一點壓力,爭取能夠不定期分享學到的生信小技能,亦或看文獻過程中的一些筆記與小收穫,記錄生活中的雜七雜八。


推薦閱讀:

無量壽經科注第四回學習班  (第三十九集)
掌握學習方法 提高學習效率
無量壽經科注第四回學習班  (第一三三集)
怎樣練英語口語?這是我見過最好的方法
[轉載]《易經心解》學習

TAG:學習 | 無監督學習 |