監督學習（LDA）和無監督學習（PCA）

07-28

之前看到宏基因組學公眾號一篇文章，比PCA更好用的監督排序—LDA分析、作圖及添加置信-ggord。其中提到LDA是監督學習，PCA是無監督學習。看到這我不禁眉頭一皺：

經過資料查找、匯總和理解，將基本概念mark一下。

機器學習

以高中做題為例，高中平時我們做了大量的習題，掌握了很多解題方法。在考試時面對陌生的題也能用相同的方法進行解答。機器學習的思路也是這樣：利用一些訓練數據（已經做過的題），使機器能夠利用它們（解題方法）分析未知數據（高考的題目）[1]。

假設有兩個人A和B，他們高中時做的習題完全一樣，但是A有參考答案，B沒有參考答案。那麼A的學習方式是監督學習，B的學習方式是無監督學習。在這裡，參考答案就是標籤（lable）,標籤用來描述某一個物體的屬性。簡單地說，所有訓練數據都有標籤的學習是監督學習(supervised learning)，數據沒有標籤的學習是無監督學習(unsupervised learning)，也即聚類（clustering）[1]。

監督學習(Supervised Learning)

分為兩大類：回歸和分類（Regression and Classification）。兩種的區別是輸出結果是連續的還是離散的[2]。

1.回歸分析(Regression Analysis)：其數據集是給定一個函數和它的一些坐標點，然後通過回歸分析的演算法，來估計原函數的模型，求出一個最符合這些已知數據集的函數解析式。然後它就可以用來預估其它未知輸出的數據了，你輸入一個自變數它就會根據這個模型解析式輸出一個因變數，這些自變數就是特徵向量，因變數就是標籤。而且標籤的值是建立在連續範圍的。例：通過房地產市場的數據，預測一個給定面積的房屋的價格就是一個回歸問題。這裡我們可以把價格看成是面積的函數，它是一個連續的輸出值[3]。

2.分類（Classification）：其數據集由特徵向量和它們的標籤組成，當你學習了這些數據之後，給你一個只知道特徵向量不知道標籤的數據，讓你求它的標籤是哪一個。例：當把上面的問題改為「預測一個給定面積的房屋的價格是否比一個特定的價格高或者低」的時候，這就變成了一個分類問題,因為此時的輸出是『高』或者『低』兩個離散的值[3]。

無監督學習(unsupervised Learning)

無監督學習時沒有標籤，結果未知。但是可以通過聚類從數據中提取一個特殊的結構。如給我們一個OTU表，我們就能通過PCA等聚類方法進行聚類，將OTU分成不同的簇。

無監督學習本身的特點使其難以得到如分類一樣近乎完美的結果。那既然分類如此之好，聚類如此之不靠譜，那為何我們還可以容忍聚類的存在？因為在實際應用中，標籤的獲取常常需要極大的人工工作量，有時甚至非常困難[1]。

其他常見的非監督學習還有隨機森林（Random forests）、K均值聚類（K-means clustering）等方法。

在比PCA更好用的監督排序—LDA分析、作圖及添加置信-ggord文章最後，作者說LDA降維最多降到類別數k-1的維數，而PCA沒有這個限制。我的理解是是k是指樣本的類別，特徵向量最多有k-1個，因此最多降維到k-1[4]。

參考資料

[1]知乎，王豐的回答。

https://www.zhihu.com/question/23194489

[2]知乎，porzy的回答。

https://www.zhihu.com/question/23194489

[3]我的機器學習筆記(一) - 監督學習vs 無監督學習。

https://www.jianshu.com/p/7bae1ead174e

[4]線性判別分析LDA原理總結 - 劉建平Pinard - 博客園

https://www.cnblogs.com/pinard/p/6244265.html

註：資料來源於以上網路，侵刪請告知。

一個環境工程專業卻做生信分析的深井冰博士，深受拖延症的困擾。想給自己一點壓力，爭取能夠不定期分享學到的生信小技能，亦或看文獻過程中的一些筆記與小收穫，記錄生活中的雜七雜八。