標籤:

聚類與分類有什麼區別?

首先對經驗數據進行分析,得到特徵屬性,以此特性進行挖掘,希望得到劃分結果,這屬於聚類還是分類?例如,已購買某產品的用戶具有一些特性,得到用戶畫像,我採用某種演算法分析出大量用戶中可能購買此商品的用戶群,這是聚類還是分類?雖然我事先知道劃分的結果是可能/不可能,但這個應該屬於聚類吧?另外,如能夠傳授些聚類演算法,用於分析用戶的就更感謝了!


-----好吧-----自己的坑自己填上,以下都是自己總結和研究--我盡量以非常通俗的語言解釋

-----------------------------------------------開始-------------------------------------------------------------

聚類

有一天老闆給你一堆數據,就像是這樣的。。。。。

然後他說,你給我分類(聚類)出來,然後拍拍屁股走人了,辦公室里留下你孤獨的身影。。。

那這種純屬於數據的,一點帶標籤的影子都沒有的有什麼用呢?這就要用到聚類了,簡單說就是,物以類聚,大夥抱團行動,拿最簡單的k-means來說,以『距離』作為判斷規則,就像小時候分校區,你家這塊離哪個小學近,就去那個小學上學(現在屬於區來選小學了,但這個區也可以用無監督的聚類演算法來模擬,這個就跑題了)分完結果是這樣的。。。

誒?這個我給的數據明明是三維的,你咋給我拍成二維了,因為我用了二向箔武器啊。。。。。。

不鬧

你要三維的,給你便是;

剛才從三維到二維,就是進行了』降維打擊『,為什麼要進行降維打擊呢,這就牽扯到『維數爆炸』理論了,又跑題了,,,,反正你知道,現實中的數據,無一例外(絕大多數),特別是高維數據(這裡的維就是指特徵),都是要經過』降維打擊『後再進行處理的。記住先!

聚類先講到這---所以說題主的問題得到特徵屬性這屬於聚類

------------------------------------------------------誒?----------------------------------------------------

分類:

老闆有一天又和你說,誒?我這有一堆數據,你幫我分類(分類)一下,然後給你一堆數據,他就拍拍屁股走人了,辦公室留下你孤獨的身影。

然後數據是這樣的;

(內心活動:我X尼瑪)

這是一個200維(特徵)的數據,具體我不能截圖,涉及一些實驗室的項目,後面201維它實際是個標籤,就是說,第一組數據,它屬於第六類,這是明確給定的,同理,第二組數據,它數據第10類,那就刺激了對不對,一組數據,它擁有兩百個特徵,把它想像成這是6號小怪獸,它擁有兩百個特徵(皮膚,菱角,眼睛顏色,噴火不。。)然後把這些屬性歸一化,也就是說,最最明顯的,歸一化後比較高,最不突出的歸一化後接近0,這就好了,每頭小怪獸都有200個特徵,只是表現的突出不突出而已,,,,然後分類的目的就是,把小怪獸都輸入資料庫(分類器),然後資料庫不斷更新完善(分類器迭代),之後奧特曼打小怪獸的時候就可以直接掃一下小怪獸,然後傳給資料庫,資料庫根據已有的數據進行預判咯,你這小怪獸,皮膚0.4,菱角0.01,,,,,應該是屬於第幾類小怪獸,然後奧特曼就放絕招把,哈哈哈哈。。。。

「嚴肅點!」

「好」

分類分為有監督,無監督,半監督,分別對應有無標籤為-有-無-有一點

有監督就是樣本數據給定所有標籤,然後去訓練分類器,這是能達到最高精度的一種

無監督也就是通常意義上的聚類,只給數據,不給標籤

半監督這個厲害了,絕大多數數據不給標籤,然後給一小部分數據貼上標籤,再送分類器裡面,用有監督的方式解決偏聚類問題!給個形象的圖就是;

所以日常生活中最多的是半監督分類,比較貼近現實,因為實際生活中,我們獲取的數據很多都是未知標籤的,然而通過一些渠道我們可以得到一點數據,這就是要用到半監督了,分類演算法很多,self-training,主動學習,等等自己看需求。至於題主所說的看商品知道用戶群,我個人認為屬於分類的一種,應該是半監督分類,用戶群是標籤,而購買的商品是特徵,以上。最後的最後,題主想要聚類演算法,題主你咋不上天呢!!那麼多聚類演算法我們怎麼說的完!!!

不過可以推薦看幾本書,數據挖掘導論,數據挖掘概念與技術,這裡面的基本都是聚類演算法和思想,如果我有什麼冒犯的地方,題主你可以過來打我啊,哈哈哈


謝邀:首先你要明白一個概念,聚類和分類的最基本區別。

分類簡單來說,就是根據文本的特徵或屬性,劃分到已有的類別中。也就是說,這些類別是已知的,通過對已知分類的數據進行訓練和學習,找到這些不同類的特徵,再對未分類的數據進行分類。

而聚類的理解更簡單,就是你壓根不知道數據會分為幾類,通過聚類分析將數據或者說用戶聚合成幾個群體,那就是聚類了。聚類不需要對數據進行訓練和學習。

分類屬於監督學習,聚類屬於無監督學習。常見的分類比如決策樹分類演算法、貝葉斯分類演算法等聚類的演算法最基本的有系統聚類,K-means均值聚類,這些都很常見,網上資料一大推,不再贅述。


1一個是監督學習,另一個是非監督的學習 還有一個半監督的學習

2. 無監督的分類就是聚類


我的老師把聚類演算法統稱為 「Yes Sir!」 演算法

因為每次你用聚類演算法的時候:

「請把這些數據分成3類」

「Yes Sir!」

「請把這些數據分成30類」

「Yes Sir!」

「請把這些數據分成300類」

「Yes Sir!」

...

關鍵是你怎麼知道要分成幾類。。。攤手


推薦閱讀:

數據挖掘SPSS,Python,《機器學習實戰》先學什麼好?
LDA訓練出主題之後,怎麼再通過主題計算出一篇文檔對於所有主題的分布呢?
IBM spss modeler 是什麼?
如何從數據挖掘入門到數據挖掘高手?
數據降維和特徵選取有什麼區別?

TAG:數據挖掘 |