如果要用聚類分析的方法給西遊記中的妖怪分類,用哪些作為指標比較好?


聚類是一個比較困難的問題,原因之一就在於這個問題本身並不是well-defined的。由於聚類本質上是一個unsupervised learning問題(這裡先不討論semi-supervised clustering),所以其輸入通常只有需要被聚的數據本身,而沒有任何其他的指導信息。這往往會導致多個同樣合理但迥然不同的聚類結果。以西遊記中的妖怪為例:

* 如果按變人之後的性別作為標準,那很明顯蠍子精,白骨精等女妖和黃風怪,黑熊怪等男妖需要分別聚在不同的類;
* 但如果按孫悟空打得過還是打不過(需要求助)作為標準,那麼蠍子精,黃風怪等戰鬥力爆表的妖怪應該就和黑熊怪之流被劃分在不同的類中。
* 如果按是山大王還是小嘍啰作為標準,那麼金角大王,銀角大王和巴山虎,伶俐蟲等自然會分屬不同類;
* 但如果按所屬國界作為標準,此時金角大王,銀角大王和手下的巴山虎,伶俐蟲就需要被聚為同一類了,因為他們都來自平頂山蓮花洞。
* 如果按想不想吃唐僧肉作為標準,那麼玉兔精,六耳獼猴就應該屬於少量對唐僧肉不感興趣的妖怪;
* 但如果按最後的下場死沒死作為標準,那麼被一棒打死的六耳獼猴肯定就會和被收走的玉兔精分屬不同的類別。

以上列舉的只是少量的例子,應該還會有許多其他的聚類標準。舉這些例子是為了說明,其實並沒有哪個指標一定會比其他指標更好更合理,很多時候用哪個標準往往是由具體的任務所決定的。為了消除或減弱聚類結果的不確定性,在機器學習中往往會使用以下一些方法:

1. 引入少量pairwise constraints或者labels去指導聚類,這就是semi-supervised clustering問題。比方說當我們被明確告知琵琶精和玉兔精需要被歸為一類,琵琶精和金角大王不能被歸為一類時,我們就知道很可能需要把性別作為聚類標準。
2. 在設計feature時,人為控制不同attribute的權重。比方說如果我在feature中加大了地域相關指標的權重,那最後的聚類結果很可能會以妖怪所在的地點作為標準。
3. 不改變feature本身,卻改變計算點間距離的函數。比方說用一些非單位矩陣的distance metric去取代傳統的歐氏距離。這本質上和2是類似的方法,都是用改變點間距離來影響聚類結果。
4. 人為介入。用不同演算法或者同一演算法的不同參數或初始值生成多個不同的聚類結果,再人為介入選擇符合任務設定的結果。
5. 使用ensemble clustering把多個不同聚類結果整合成一個更好(或者更被廣泛接受)的聚類結果。


想吃唐僧肉的,想吃唐僧豆腐的


個體戶、民營、合資、外資、國企


1 以下凡前的主人分類
佛家 道家 無主
佛家 觀音寵物鯉魚,文殊寵物獅子,如來門前蠍子老鼠
道家 老君寵物青牛,壽星寵物白鹿
無主 白骨精,蜘蛛精

1.5按照下場分類 有的妖怪沒有主人也有領導回收 比如蜘蛛精

2 動物原形分類(推薦!)
動物類(兔獅牛羊虎鹿熊蜘蛛蜈蚣蠍子龍大鵬孔雀鼠鯉魚蛇龜)

動物大類下面再按照門綱目細分子類
神獸類 ,爬行類,蟲類,鳥類

人類(金角)

其他類(白骨精這種屍魔)


3按照修鍊成妖的方式(積累法力)分類 偷吃類,聽課修鍊類,神獸逃跑類

4按性別分 男妖怪要吃 女妖怪劫色

5以前世因果分類
情緣 黃風怪和百花羞
仇緣 獅子和烏雞國國王

6以法力等級排序


法力指數(與變化數成正比);
武力指數(與同孫悟空對打回合數成正比);
政治屬性(與後台有關);
生物屬性(按照界門綱目科屬種來給分);
法寶加成;


屬性:
0.稱號 (分類型:ex」紅孩兒「)
1.性別 (分類型:"male","female","changeable「)
2.出身 (分類型:「仙界」,「人間土生土長」)
3.修為 (數值型:以年份來計[純人類的修為為0])
4.法寶威力
5.勢力 (順序分類型:」小「,」中「,」大「)
6.出場集數
7.結局 (分類型:"dead","alive")


選取其中的幾個屬性做聚類分析,估計會發現結局跟出身的相關性是最大的,然後就分成了兩類,233333

PS:好像挺多聚類演算法都是基於連續型數值的,最近多了解了下,感覺自己還是too young了……


預警!!

Kaiser已關注此問題。


瀉藥

《如何用互聯思維為十八大精神插上翅膀在中國特色的網路大環境下分析猴子的N種形態》

猴子的第一種形態--猴崽子
生性狂野,好以真性情自居,茹毛飲血,拎個猴屁股逮誰跟誰來。生得含糊,活得魯莽,卻也有份天真的情懷。不料一日被酆都大帝艹翻在地,血肉橫飛,本想反抗,奈何閻王手握一本猴崽黑歷史,跪之。猴崽自此發憤圖強,武練棍法,文習忽悠,如此循環... ...

猴子的第二種形態--毛猴
猴崽子上訪菩提炮祖學技巧,下詢衚衕大仙兒學理論,周六學撕逼,周日讀心理。一日忽覺全身經脈發脹雙手顫抖不止,猴兒知道這是內力被壓抑不得釋放的表現,乘著這股王霸之氣直奔酆都復仇。天道酬勤,猴崽子沒白瞎了自己下的功夫,此去酆都一戰成名。此戰之後猴崽子便躍升為地界大V,是春風得意好不威風。那張稚嫩的猴臉不復存在,過度分泌的荷爾蒙使那雙猴眼瞅誰都冒凶光,桀驁不馴、不可一世,此乃毛猴兒。

猴子的第三種形態--妖猴


(作為一隻米猴,我要去關注小米的發布會了,有人看再寫。)


AD AP 還有肉


有後台的,沒後台的。


是動物界還是植物界;
是胎生還是卵生;
是奇蹄目還是偶蹄目;
是頭上有犄角,還是身後有尾巴。


力量型、敏捷型、智力型。

萬能的魔獸早幫我們分好了


有後門的和沒後門的。


後台老板


有老大罩著的,直接一棒打死的


人:本體是人,如:強盜,女兒國國王
魔:造型不限,本體沒有固定,靠修鍊獲得強大的能力。如:鐵扇公主,紅孩兒,六耳獼猴,九靈元聖。
仙:在天屆或者佛屆有自身的地位,但是在西遊路上起到阻礙或者貪圖唐僧肉的,如:大鵬金翅,鎮遠大仙。


推薦閱讀:

《西遊記》是高級黑嗎?
嫦娥在西遊記中的天庭里是一種怎樣的存在?
孫悟空和二郎神是什麼關係?
為什麼孫悟空從五指山出來後每次捉妖都要依靠各路神仙?

TAG:數據挖掘 | 西遊記書籍 | 指標 | 統計 | 妖怪 |