一篇文章搞懂什麼是聚類和PCA
06-07
一篇文章搞懂什麼是聚類和PCA
來自專欄機器學習與圖像處理
關注公眾號【輪子工廠】,回復關鍵字【機器學習】,可獲取李宏毅教授整套機器學習視頻與課件~
文章來源於李宏毅老師的課堂筆記~
介紹
- 本節主要介紹了兩種線性降維的方法:Cluster和PCA,並從兩個角度解釋了PCA。
聚類(Cluster)
- 聚類的基本思想是將數據集中的樣本劃分為若干個通常是不相交的子集,每個子集稱為一個「簇」(cluster)。K均值演算法(K-means)
- 隨機初始化K個樣本(點),稱之為簇中心(cluster centroids);
- 簇分配: 對於所有的樣本,將其分配給離它最近的簇中心;
- 移動簇中心:對於每一個簇,計算屬於該簇的所有樣本的平均值,移動簇中心到平均值處;
- 重複步驟2和3,直到找到我們想要的簇.
- 如下圖演示了特徵量個數和簇數均為2的情況:
分層凝聚聚類(Hierarchical Agglomerative Clustering,HAC)原理
- 顧名思義就是要一層一層地進行聚類,可以從下而上地把小的cluster合併聚集,也可以從上而下地將大的cluster進行分割。似乎一般用得比較多的是從下而上地聚集,因此這裡我就只介紹這一種。
- 所謂從下而上地合併cluster,具體而言,就是每次找到距離最短的兩個cluster,然後進行合併成一個大的cluster,直到全部合併為一個cluster。整個過程就是建立一個樹結構,類似於下圖。
- 層次聚類最大的優點,就是它一次性地得到了整個聚類的過程,只要得到了上面那樣的聚類樹,想要分多少個cluster都可以直接根據樹結構來得到結果,改變cluster數目不需要再次計算數據點的歸屬。層次聚類的缺點是計算量比較大,因為要每次都要計算多個cluster內所有數據點的兩兩距離。另外,由於層次聚類使用的是貪心演算法,得到的顯然只是局域最優,不一定就是全局最優,這可以通過加入隨機效應解決,這就是另外的問題了。
主成分分析(Principle Component Analysis,PCA)
- PCA降維原理可以從兩個角度來考慮:
- 基於最大方差原理,樣本點在這個超平面上的投影儘可能分開。
- 基於最小化誤差原理,樣本點到這個超平面距離都足夠近。
基於最大方差原理
- 需要找到一個投影矩陣W,使得x在W上的投影方差儘可能大,其中W是由多個向量組成,其中W是由多個向量組成(w1,w2,w3…),希望x在w1上的投影的方差最大,w2上的投影的方差其次…..依次類推。
- 並且,W是一個單位正交矩陣,即(w1,w2,w3,…)相互正交,且都是單位向量。
- PCA達到的效果就是decorrelation(去關聯),所以最後投影之後得到z的協方差矩陣D是對角矩陣;
- 投影矩陣W是單位正交矩陣。
- W就是x協方差矩陣S的特徵向量。
基於最小化誤差原理
- 基本思想:將 近似看成由多個u組成,求解最小化他們之間的error時的係數c和分量u。
- 其中向量(u1,u2,u3…)表示一個
Basic component
,如下圖:
- 為了求解c和u(component),可以將X做奇異值分解SVD,用分解後的U代替u,ΣxV代替係數c其中U就是XXT的特徵向量
- 有時候只選取特徵值比較大的
component
。 - PCA相當於只含一層hidden layer的網路。
PCA與LDA(Linear Discriminant Analysis)的比較
- PCA是無監督的,LDA是有監督的;
- PCA基本思想是方差最大,LDA基本思想是讓不同類別分的儘可能開;
- PCA和LDA都是線性映射;
- 對於結構比較複雜的降維,只能採用非線性流行學習比如局部線性嵌入(Locally Linear Embedding,LLE)等方法.
PCA和非負矩陣分解(Non-negative Matrix Factorization,NMF)比較
- NMF分解之後的component的係數都是正的,就拿image來說,也就是說分解之後的component像是原始image的一部分;
- 而PCA的係數可正可負,涉及到component的「加加減減」 .
在我的公眾號【輪子工廠】後台回復關鍵字:
1.回復【圖書】:獲取15本新手自學編程,零基礎入門經典學習教材;
2.回復【我要造輪子】:獲取100多本我根據知乎上面關於計算機問題的高贊回答裡面的介紹整理出來的書籍;3.回復【開發工具】:獲取幾大主流編程語言的開發工具~4.回復【ps教程】:獲取ps視頻免費教程;5.回復【內推】:可幫你內推到大廠工作~希望能幫助到你~
推薦閱讀:
※在Encoder-Decoder框架中加入Attention機制
※極致的優化:智能手機是如何處理大型神經網路的
※圖像識別鑒黃之二「阿里綠網VS網易易盾VS圖普科技」
※Michael Nielsen對交叉熵的解釋(三)
TAG:深度學習DeepLearning | 神經網路 | 機器學習 |