聚類與分類有什麼區別?
01-07
首先對經驗數據進行分析,得到特徵屬性,以此特性進行挖掘,希望得到劃分結果,這屬於聚類還是分類?例如,已購買某產品的用戶具有一些特性,得到用戶畫像,我採用某種演算法分析出大量用戶中可能購買此商品的用戶群,這是聚類還是分類?雖然我事先知道劃分的結果是可能/不可能,但這個應該屬於聚類吧?另外,如能夠傳授些聚類演算法,用於分析用戶的就更感謝了!
-----好吧-----自己的坑自己填上,以下都是自己總結和研究--我盡量以非常通俗的語言解釋
-----------------------------------------------開始-------------------------------------------------------------聚類有一天老闆給你一堆數據,就像是這樣的。。。。。然後他說,你給我分類(聚類)出來,然後拍拍屁股走人了,辦公室里留下你孤獨的身影。。。
那這種純屬於數據的,一點帶標籤的影子都沒有的有什麼用呢?這就要用到聚類了,簡單說就是,物以類聚,大夥抱團行動,拿最簡單的k-means來說,以『距離』作為判斷規則,就像小時候分校區,你家這塊離哪個小學近,就去那個小學上學(現在屬於區來選小學了,但這個區也可以用無監督的聚類演算法來模擬,這個就跑題了)分完結果是這樣的。。。誒?這個我給的數據明明是三維的,你咋給我拍成二維了,因為我用了二向箔武器啊。。。。。。
不鬧你要三維的,給你便是;剛才從三維到二維,就是進行了』降維打擊『,為什麼要進行降維打擊呢,這就牽扯到『維數爆炸』理論了,又跑題了,,,,反正你知道,現實中的數據,無一例外(絕大多數),特別是高維數據(這裡的維就是指特徵),都是要經過』降維打擊『後再進行處理的。記住先!聚類先講到這---所以說題主的問題得到特徵屬性這屬於聚類------------------------------------------------------誒?----------------------------------------------------分類:老闆有一天又和你說,誒?我這有一堆數據,你幫我分類(分類)一下,然後給你一堆數據,他就拍拍屁股走人了,辦公室留下你孤獨的身影。然後數據是這樣的;
「好」
分類分為有監督,無監督,半監督,分別對應有無標籤為-有-無-有一點有監督就是樣本數據給定所有標籤,然後去訓練分類器,這是能達到最高精度的一種無監督也就是通常意義上的聚類,只給數據,不給標籤半監督這個厲害了,絕大多數數據不給標籤,然後給一小部分數據貼上標籤,再送分類器裡面,用有監督的方式解決偏聚類問題!給個形象的圖就是;所以日常生活中最多的是半監督分類,比較貼近現實,因為實際生活中,我們獲取的數據很多都是未知標籤的,然而通過一些渠道我們可以得到一點數據,這就是要用到半監督了,分類演算法很多,self-training,主動學習,等等自己看需求。至於題主所說的看商品知道用戶群,我個人認為屬於分類的一種,應該是半監督分類,用戶群是標籤,而購買的商品是特徵,以上。最後的最後,題主想要聚類演算法,題主你咋不上天呢!!那麼多聚類演算法我們怎麼說的完!!!不過可以推薦看幾本書,數據挖掘導論,數據挖掘概念與技術,這裡面的基本都是聚類演算法和思想,如果我有什麼冒犯的地方,題主你可以過來打我啊,哈哈哈謝邀:首先你要明白一個概念,聚類和分類的最基本區別。分類簡單來說,就是根據文本的特徵或屬性,劃分到已有的類別中。也就是說,這些類別是已知的,通過對已知分類的數據進行訓練和學習,找到這些不同類的特徵,再對未分類的數據進行分類。而聚類的理解更簡單,就是你壓根不知道數據會分為幾類,通過聚類分析將數據或者說用戶聚合成幾個群體,那就是聚類了。聚類不需要對數據進行訓練和學習。分類屬於監督學習,聚類屬於無監督學習。常見的分類比如決策樹分類演算法、貝葉斯分類演算法等聚類的演算法最基本的有系統聚類,K-means均值聚類,這些都很常見,網上資料一大推,不再贅述。
1一個是監督學習,另一個是非監督的學習 還有一個半監督的學習2. 無監督的分類就是聚類
我的老師把聚類演算法統稱為 「Yes Sir!」 演算法
因為每次你用聚類演算法的時候:「請把這些數據分成3類」
「Yes Sir!」「請把這些數據分成30類」「Yes Sir!」「請把這些數據分成300類」
「Yes Sir!」...關鍵是你怎麼知道要分成幾類。。。攤手推薦閱讀:
※數據挖掘SPSS,Python,《機器學習實戰》先學什麼好?
※LDA訓練出主題之後,怎麼再通過主題計算出一篇文檔對於所有主題的分布呢?
※IBM spss modeler 是什麼?
※如何從數據挖掘入門到數據挖掘高手?
※數據降維和特徵選取有什麼區別?
TAG:數據挖掘 |