聚類與分類有什麼區別？

01-07

首先對經驗數據進行分析，得到特徵屬性，以此特性進行挖掘，希望得到劃分結果，這屬於聚類還是分類？例如，已購買某產品的用戶具有一些特性，得到用戶畫像，我採用某種演算法分析出大量用戶中可能購買此商品的用戶群，這是聚類還是分類？雖然我事先知道劃分的結果是可能/不可能，但這個應該屬於聚類吧？另外，如能夠傳授些聚類演算法，用於分析用戶的就更感謝了！

-----好吧-----自己的坑自己填上，以下都是自己總結和研究--我盡量以非常通俗的語言解釋

-----------------------------------------------開始-------------------------------------------------------------

聚類

有一天老闆給你一堆數據，就像是這樣的。。。。。

然後他說，你給我分類（聚類）出來，然後拍拍屁股走人了，辦公室里留下你孤獨的身影。。。

那這種純屬於數據的，一點帶標籤的影子都沒有的有什麼用呢？這就要用到聚類了，簡單說就是，物以類聚，大夥抱團行動，拿最簡單的k-means來說，以『距離』作為判斷規則，就像小時候分校區，你家這塊離哪個小學近，就去那個小學上學（現在屬於區來選小學了，但這個區也可以用無監督的聚類演算法來模擬，這個就跑題了）分完結果是這樣的。。。

誒？這個我給的數據明明是三維的，你咋給我拍成二維了，因為我用了二向箔武器啊。。。。。。

不鬧

你要三維的，給你便是；

剛才從三維到二維，就是進行了』降維打擊『，為什麼要進行降維打擊呢，這就牽扯到『維數爆炸』理論了，又跑題了，，，，反正你知道，現實中的數據，無一例外（絕大多數），特別是高維數據（這裡的維就是指特徵），都是要經過』降維打擊『後再進行處理的。記住先！

聚類先講到這---所以說題主的問題得到特徵屬性這屬於聚類

------------------------------------------------------誒?----------------------------------------------------

分類：

老闆有一天又和你說，誒？我這有一堆數據，你幫我分類（分類）一下，然後給你一堆數據，他就拍拍屁股走人了，辦公室留下你孤獨的身影。

然後數據是這樣的；

（內心活動：我X尼瑪）

這是一個200維（特徵）的數據，具體我不能截圖，涉及一些實驗室的項目，後面201維它實際是個標籤，就是說，第一組數據，它屬於第六類，這是明確給定的，同理，第二組數據，它數據第10類，那就刺激了對不對，一組數據，它擁有兩百個特徵，把它想像成這是6號小怪獸，它擁有兩百個特徵（皮膚，菱角，眼睛顏色，噴火不。。）然後把這些屬性歸一化，也就是說，最最明顯的，歸一化後比較高，最不突出的歸一化後接近0，這就好了，每頭小怪獸都有200個特徵，只是表現的突出不突出而已，，，，然後分類的目的就是，把小怪獸都輸入資料庫（分類器），然後資料庫不斷更新完善（分類器迭代），之後奧特曼打小怪獸的時候就可以直接掃一下小怪獸，然後傳給資料庫，資料庫根據已有的數據進行預判咯，你這小怪獸，皮膚0.4，菱角0.01，，，，，應該是屬於第幾類小怪獸，然後奧特曼就放絕招把，哈哈哈哈。。。。

「嚴肅點！」

「好」

分類分為有監督，無監督，半監督，分別對應有無標籤為-有-無-有一點

有監督就是樣本數據給定所有標籤，然後去訓練分類器，這是能達到最高精度的一種

無監督也就是通常意義上的聚類，只給數據，不給標籤

半監督這個厲害了，絕大多數數據不給標籤，然後給一小部分數據貼上標籤，再送分類器裡面，用有監督的方式解決偏聚類問題！給個形象的圖就是；

所以日常生活中最多的是半監督分類，比較貼近現實，因為實際生活中，我們獲取的數據很多都是未知標籤的，然而通過一些渠道我們可以得到一點數據，這就是要用到半監督了，分類演算法很多，self-training，主動學習，等等自己看需求。至於題主所說的看商品知道用戶群，我個人認為屬於分類的一種，應該是半監督分類，用戶群是標籤，而購買的商品是特徵，以上。最後的最後，題主想要聚類演算法，題主你咋不上天呢！！那麼多聚類演算法我們怎麼說的完！！！

不過可以推薦看幾本書，數據挖掘導論，數據挖掘概念與技術，這裡面的基本都是聚類演算法和思想，如果我有什麼冒犯的地方，題主你可以過來打我啊，哈哈哈

謝邀：首先你要明白一個概念，聚類和分類的最基本區別。

分類簡單來說，就是根據文本的特徵或屬性，劃分到已有的類別中。也就是說，這些類別是已知的，通過對已知分類的數據進行訓練和學習，找到這些不同類的特徵，再對未分類的數據進行分類。

而聚類的理解更簡單，就是你壓根不知道數據會分為幾類，通過聚類分析將數據或者說用戶聚合成幾個群體，那就是聚類了。聚類不需要對數據進行訓練和學習。

分類屬於監督學習，聚類屬於無監督學習。常見的分類比如決策樹分類演算法、貝葉斯分類演算法等聚類的演算法最基本的有系統聚類，K-means均值聚類，這些都很常見，網上資料一大推，不再贅述。

1一個是監督學習，另一個是非監督的學習還有一個半監督的學習

2. 無監督的分類就是聚類

我的老師把聚類演算法統稱為「Yes Sir!」演算法

因為每次你用聚類演算法的時候:

「請把這些數據分成3類」

「Yes Sir!」

「請把這些數據分成30類」

「Yes Sir!」

「請把這些數據分成300類」

「Yes Sir!」

...

關鍵是你怎麼知道要分成幾類。。。攤手