大話凝聚式層次聚類

前言:

有朋友說這專欄的內容寫得太乾燥o(╥﹏╥)o,不過想想也是,用自己的話把東西講明白還是比較重要的。友情提示,大中午喝啤酒別聽《我們不一樣》,雖然這樣打字的速度會增長26.37%。

對了,這篇內容主要想講講啥是凝聚層次聚類(Hierarchical Agglomerative Clustering),也就是怎樣凝聚層次聚類的方式將文章分成不同的類(簇)。


層次聚類介紹:

朋友肯定會問了,啥是凝聚式層次聚類啊?

聚類嘛,就是通過分析,把相似的對象分成不同的組別,每個組別里的對象都有某些相同的屬性。(你把每個表情看成是一篇文章就好了)

聚類樣例

凝聚式層次嘛,就是你把每一個對象都看作是一個類別,然後再不斷地把相似的兩個合併在一起,直到所有的對象都成為同一個類別為止,這也是我們今天要講的:凝聚式層次聚類(自底向上)。

凝聚樹狀圖表示

聰明的朋友又會問了,那這該咋凝聚啊?

朋友,現在我們知道,每個表情一開始都被當做一個單獨類,而每次合併完之後呢,我們都可以在左邊的Y軸上,看到這個合併對應的結合相似度(Combination similarity),也就是兩個表情之間有多像。


這樣子的話,只要說個相似度的值,畫一條水平線,咱就知道能夠分成多少個類別了。

又或者,我們事先說好分幾個類,等到有這麼多類的時候,咱就取出來。

但是,要是不知道相似度要多少,也不知道該分幾個類咋辦啊?

那就拿一個演算法來截取,你想想啊,當某連續的兩次分類之間的相似度差得最大的時候,咱就截取,准差不到哪去。

相似度為0.4時的類

以上就是最基本的凝聚式聚類思想啦~~ 具體的偽代碼思路 還有 不同的凝聚式演算法就留到下一篇來寫了/(ㄒoㄒ)/~~

寫到這裡,我都不好意思放公式了,這次經驗告訴我,要做學術的話,還是老老實實地做,該枯燥的該枯燥,要抽象的要抽象,等哪天徹底研究透了,再來抖個機靈。

推薦閱讀:

利用AWS學習深度學習 For Udacity P5(第一篇:困惑)
聚焦解析:視頻用AI與圖像用AI的區別
智能互聯網代表未來,聯想如何打贏這場攻堅戰?
當你對一個聊天機器人敞開了心扉
意識的定義:以抽象的方式認知事物規律,並能夠加以運用。

TAG:數據挖掘 | 機器學習 | 人工智慧 |