大話凝聚式層次聚類
前言:
有朋友說這專欄的內容寫得太乾燥o(╥﹏╥)o,不過想想也是,用自己的話把東西講明白還是比較重要的。友情提示,大中午喝啤酒別聽《我們不一樣》,雖然這樣打字的速度會增長26.37%。
對了,這篇內容主要想講講啥是凝聚層次聚類(Hierarchical Agglomerative Clustering),也就是怎樣凝聚層次聚類的方式將文章分成不同的類(簇)。
層次聚類介紹:
朋友肯定會問了,啥是凝聚式層次聚類啊?
聚類嘛,就是通過分析,把相似的對象分成不同的組別,每個組別里的對象都有某些相同的屬性。(你把每個表情看成是一篇文章就好了)
凝聚式層次嘛,就是你把每一個對象都看作是一個類別,然後再不斷地把相似的兩個合併在一起,直到所有的對象都成為同一個類別為止,這也是我們今天要講的:凝聚式層次聚類(自底向上)。
聰明的朋友又會問了,那這該咋凝聚啊?
朋友,現在我們知道,每個表情一開始都被當做一個單獨類,而每次合併完之後呢,我們都可以在左邊的Y軸上,看到這個合併對應的結合相似度(Combination similarity),也就是兩個表情之間有多像。
這樣子的話,只要說個相似度的值,畫一條水平線,咱就知道能夠分成多少個類別了。
又或者,我們事先說好分幾個類,等到有這麼多類的時候,咱就取出來。
但是,要是不知道相似度要多少,也不知道該分幾個類咋辦啊?
那就拿一個演算法來截取,你想想啊,當某連續的兩次分類之間的相似度差得最大的時候,咱就截取,准差不到哪去。
以上就是最基本的凝聚式聚類思想啦~~ 具體的偽代碼思路 還有 不同的凝聚式演算法就留到下一篇來寫了/(ㄒoㄒ)/~~
寫到這裡,我都不好意思放公式了,這次經驗告訴我,要做學術的話,還是老老實實地做,該枯燥的該枯燥,要抽象的要抽象,等哪天徹底研究透了,再來抖個機靈。
推薦閱讀:
※利用AWS學習深度學習 For Udacity P5(第一篇:困惑)
※聚焦解析:視頻用AI與圖像用AI的區別
※智能互聯網代表未來,聯想如何打贏這場攻堅戰?
※當你對一個聊天機器人敞開了心扉
※意識的定義:以抽象的方式認知事物規律,並能夠加以運用。