機器學習－聚類

05-16

一、聚類定義

聚類（clustering），是一種典型的無監督學習演算法，主要用於將相似的樣本自動歸到一個類別中。

在聚類演算法中根據樣本之間的相似性，將樣本劃分到不同的類別中，對於不同的相似度計算方法，會得到不同的聚類結果，常用的相似度計算方法有歐式距離法： $sqrt{(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}}$

二、K-Means

1、初始化常數K，選取K個初試點為聚類中心（cluster centroids)。

2、聚類分配（clustering assignment step）

計算每個點到聚類中心的距離，每個點被分到距離更近的聚類簇中。

3、聚類中心移動（Move Centroid)

中心移動到：接近該簇所有點的平均值

4、重複，直到所有點到聚類中心點的距離最短。