監督學習(LDA)和無監督學習(PCA)
之前看到宏基因組學公眾號一篇文章,比PCA更好用的監督排序—LDA分析、作圖及添加置信-ggord。其中提到LDA是監督學習,PCA是無監督學習。看到這我不禁眉頭一皺:
經過資料查找、匯總和理解,將基本概念mark一下。
機器學習
以高中做題為例,高中平時我們做了大量的習題,掌握了很多解題方法。在考試時面對陌生的題也能用相同的方法進行解答。機器學習的思路也是這樣:利用一些訓練數據(已經做過的題),使機器能夠利用它們(解題方法)分析未知數據(高考的題目)[1]。
假設有兩個人A和B,他們高中時做的習題完全一樣,但是A有參考答案,B沒有參考答案。那麼A的學習方式是監督學習,B的學習方式是無監督學習。在這裡,參考答案就是標籤(lable),標籤用來描述某一個物體的屬性。簡單地說,所有訓練數據都有標籤的學習是監督學習(supervised learning),數據沒有標籤的學習是無監督學習(unsupervised learning),也即聚類(clustering)[1]。
監督學習(Supervised Learning)
分為兩大類:回歸和分類(Regression and Classification)。兩種的區別是輸出結果是連續的還是離散的[2]。
1.回歸分析(Regression Analysis):其數據集是給定一個函數和它的一些坐標點,然後通過回歸分析的演算法,來估計原函數的模型,求出一個最符合這些已知數據集的函數解析式。然後它就可以用來預估其它未知輸出的數據了,你輸入一個自變數它就會根據這個模型解析式輸出一個因變數,這些自變數就是特徵向量,因變數就是標籤。而且標籤的值是建立在連續範圍的。例:通過房地產市場的數據,預測一個給定面積的房屋的價格就是一個回歸問題。這裡我們可以把價格看成是面積的函數,它是一個連續的輸出值[3]。
2.分類(Classification):其數據集由特徵向量和它們的標籤組成,當你學習了這些數據之後,給你一個只知道特徵向量不知道標籤的數據,讓你求它的標籤是哪一個。例:當把上面的問題改為「預測一個給定面積的房屋的價格是否比一個特定的價格高或者低」的時候,這就變成了一個分類問題,因為此時的輸出是『高』或者『低』兩個離散的值[3]。
無監督學習(unsupervised Learning)
無監督學習時沒有標籤,結果未知。但是可以通過聚類從數據中提取一個特殊的結構。如給我們一個OTU表,我們就能通過PCA等聚類方法進行聚類,將OTU分成不同的簇。
無監督學習本身的特點使其難以得到如分類一樣近乎完美的結果。那既然分類如此之好,聚類如此之不靠譜,那為何我們還可以容忍聚類的存在?因為在實際應用中,標籤的獲取常常需要極大的人工工作量,有時甚至非常困難[1]。
其他常見的非監督學習還有隨機森林(Random forests)、K均值聚類(K-means clustering)等方法。
在比PCA更好用的監督排序—LDA分析、作圖及添加置信-ggord文章最後,作者說LDA降維最多降到類別數k-1的維數,而PCA沒有這個限制。我的理解是是k是指樣本的類別,特徵向量最多有k-1個,因此最多降維到k-1[4]。
參考資料
[1]知乎,王豐的回答。
https://www.zhihu.com/question/23194489
[2]知乎,porzy的回答。
https://www.zhihu.com/question/23194489
[3]我的機器學習筆記(一) - 監督學習vs 無監督學習。
https://www.jianshu.com/p/7bae1ead174e
[4]線性判別分析LDA原理總結 - 劉建平Pinard - 博客園
https://www.cnblogs.com/pinard/p/6244265.html
註:資料來源於以上網路,侵刪請告知。
一個環境工程專業卻做生信分析的深井冰博士,深受拖延症的困擾。想給自己一點壓力,爭取能夠不定期分享學到的生信小技能,亦或看文獻過程中的一些筆記與小收穫,記錄生活中的雜七雜八。
推薦閱讀:
※無量壽經科注第四回學習班 (第三十九集)
※掌握學習方法 提高學習效率
※無量壽經科注第四回學習班 (第一三三集)
※怎樣練英語口語?這是我見過最好的方法
※[轉載]《易經心解》學習