【聚類演算法】訂單分配策略中用到的K-means演算法

02-03

1.K-means演算法概述

K-means演算法是一種聚類演算法，核心是通過迭代過程把數據集劃分成不同的類別，使得評價聚類性能的準則函數(平均誤差準則函數E)達到最優，從而使生成的每個聚類內緊湊，類間獨立。

聚類分析屬於無監督學習。（是機器學習中的一種）和分類學習相比聚類樣本沒有標記，需要由聚類學習演算法來自動確定。聚類分析是研究如何在沒有訓練的條件下把樣本劃分為若干類。

Kuhn-Munkers演算法

╔

Kuhn-Munkers演算法是通過給每個頂點一個標號（叫做頂標）來把求最大權匹配的問題轉化為求完備匹配的問題的。設頂點Xi的頂標為A[i]，頂點Yi的頂標為B[i]，頂點Xi與Yj之間的邊權為w[i,j]。在演算法執行過程中的任一時刻，對於任一條邊(i,j)， A[i]+B[j]>=w[i,j]始終成立。

Kuhn-Munkers演算法的正確性基於以下定理：

　　若由二分圖中所有滿足A[i]+B[j]=w[i,j]的邊(i,j)構成的子圖（稱做相等子圖）有完備匹配，那麼這個完備匹配就是二分圖的最大權匹配。

　　這個定理是顯然的。因為對於二分圖的任意一個匹配，如果它包含於相等子圖，那麼它的邊權和等於所有頂點的頂標和；如果它有的邊不包含於相等子圖，那麼它的邊權和小於所有頂點的頂標和。所以相等子圖的完備匹配一定是二分圖的最大權匹配。

Kuhn-Munkers演算法的基本思路

Kuhn-Munkers演算法流程

(1)初始化可行頂標的值

(2)用匈牙利演算法尋找完備匹配

(3)若未找到完備匹配則修改可行頂標的值

(4)重複(2)(3)直到找到相等子圖的完備匹配為止

　　初始時為了使A[i]+B[j]>=w[i,j]恆成立，令A[i]為所有與頂點Xi關聯的邊的最大權，B[j]=0。如果當前的相等子圖沒有完備匹配，就按下面的方法修改頂標以使擴大相等子圖，直到相等子圖具有完備匹配為止。

　　我們求當前相等子圖的完備匹配失敗了，是因為對於某個X頂點，我們找不到一條從它出發的交錯路。這時我們獲得了一棵交錯樹，它的葉子結點全部是X頂點。現在我們把交錯樹中X頂點的頂標全都減小某個值d，Y頂點的頂標全都增加同一個值d，那麼我們會發現：

兩端都在交錯樹中的邊(i,j)，A[i]+B[j]的值沒有變化。也就是說，它原來屬於相等子圖，現在仍屬於相等子圖。

兩端都不在交錯樹中的邊(i,j)，A[i]和B[j]都沒有變化。也就是說，它原來屬於（或不屬於）相等子圖，現在仍屬於（或不屬於）相等子圖。

X端不在交錯樹中，Y端在交錯樹中的邊(i,j)，它的A[i]+B[j]的值有所增大。它原來不屬於相等子圖，現在仍不屬於相等子圖。

X端在交錯樹中，Y端不在交錯樹中的邊(i,j)，它的A[i]+B[j]的值有所減小。也就說，它原來不屬於相等子圖，現在可能進入了相等子圖，因而使相等子圖得到了擴大。

　　現在的問題就是求d值了。為了使A[i]+B[j]>=w[i,j]始終成立，且至少有一條邊進入相等子圖，d應該等於min{A[i]+B[j]-w[i,j]|Xi在交錯樹中，Yi不在交錯樹中}。

　　以上就是Kuhn-Munkers演算法的基本思路。但是樸素的實現方法，時間複雜度為O(n4)——需要找O(n)次增廣路，每次增廣最多需要修改O(n)次頂標，每次修改頂標時由於要枚舉邊來求d值，複雜度為O(n2)。實際上Kuhn-Munkers演算法的複雜度是可以做到O(n3)的。我們給每個Y頂點一個「鬆弛量」函數slack，每次開始找增廣路時初始化為無窮大。在尋找增廣路的過程中，檢查邊(i,j)時，如果它不在相等子圖中，則讓slack[j]變成原值與A[i]+B[j]-w[i,j]的較小值。這樣，在修改頂標時，取所有不在交錯樹中的Y頂點的slack值中的最小值作為d值即可。但還要注意一點：修改頂標後，要把所有的slack值都減去d。