【聚類演算法】訂單分配策略中用到的K-means演算法

1.K-means演算法概述

K-means演算法是一種聚類演算法,核心是通過迭代過程把數據集劃分成不同的類別,使得評價聚類性能的準則函數(平均誤差準則函數E)達到最優,從而使生成的每個聚類內緊湊,類間獨立。

聚類分析屬於無監督學習。(是機器學習中的一種)和分類學習相比聚類樣本沒有標記,需要由聚類學習演算法來自動確定。聚類分析是研究如何在沒有訓練的條件下把樣本劃分為若干類。

Kuhn-Munkers演算法

Kuhn-Munkers演算法是通過給每個頂點一個標號(叫做頂標)來把求最大權匹配的問題轉化為求完備匹配的問題的。設頂點Xi的頂標為A[i],頂點Yi的頂標為B[i],頂點Xi與Yj之間的邊權為w[i,j]。在演算法執行過程中的任一時刻,對於任一條邊(i,j), A[i]+B[j]>=w[i,j]始終成立。

Kuhn-Munkers演算法的正確性基於以下定理:

  若由二分圖中所有滿足A[i]+B[j]=w[i,j]的邊(i,j)構成的子圖(稱做相等子圖)有完備匹配,那麼這個完備匹配就是二分圖的最大權匹配。

  這個定理是顯然的。因為對於二分圖的任意一個匹配,如果它包含於相等子圖,那麼它的邊權和等於所有頂點的頂標和;如果它有的邊不包含於相等子圖,那麼它的邊權和小於所有頂點的頂標和。所以相等子圖的完備匹配一定是二分圖的最大權匹配。

Kuhn-Munkers演算法的基本思路

Kuhn-Munkers演算法流程

(1)初始化可行頂標的值

(2)用匈牙利演算法尋找完備匹配

(3)若未找到完備匹配則修改可行頂標的值

(4)重複(2)(3)直到找到相等子圖的完備匹配為止

  初始時為了使A[i]+B[j]>=w[i,j]恆成立,令A[i]為所有與頂點Xi關聯的邊的最大權,B[j]=0。如果當前的相等子圖沒有完備匹配,就按下面的方法修改頂標以使擴大相等子圖,直到相等子圖具有完備匹配為止。

  我們求當前相等子圖的完備匹配失敗了,是因為對於某個X頂點,我們找不到一條從它出發的交錯路。這時我們獲得了一棵交錯樹,它的葉子結點全部是X頂點。現在我們把交錯樹中X頂點的頂標全都減小某個值d,Y頂點的頂標全都增加同一個值d,那麼我們會發現:

兩端都在交錯樹中的邊(i,j),A[i]+B[j]的值沒有變化。也就是說,它原來屬於相等子圖,現在仍屬於相等子圖。

兩端都不在交錯樹中的邊(i,j),A[i]和B[j]都沒有變化。也就是說,它原來屬於(或不屬於)相等子圖,現在仍屬於(或不屬於)相等子圖。

X端不在交錯樹中,Y端在交錯樹中的邊(i,j),它的A[i]+B[j]的值有所增大。它原來不屬於相等子圖,現在仍不屬於相等子圖。

X端在交錯樹中,Y端不在交錯樹中的邊(i,j),它的A[i]+B[j]的值有所減小。也就說,它原來不屬於相等子圖,現在可能進入了相等子圖,因而使相等子圖得到了擴大。

  現在的問題就是求d值了。為了使A[i]+B[j]>=w[i,j]始終成立,且至少有一條邊進入相等子圖,d應該等於min{A[i]+B[j]-w[i,j]|Xi在交錯樹中,Yi不在交錯樹中}。

  以上就是Kuhn-Munkers演算法的基本思路。但是樸素的實現方法,時間複雜度為O(n4)——需要找O(n)次增廣路,每次增廣最多需要修改O(n)次頂標,每次修改頂標時由於要枚舉邊來求d值,複雜度為O(n2)。實際上Kuhn-Munkers演算法的複雜度是可以做到O(n3)的。我們給每個Y頂點一個「鬆弛量」函數slack,每次開始找增廣路時初始化為無窮大。在尋找增廣路的過程中,檢查邊(i,j)時,如果它不在相等子圖中,則讓slack[j]變成原值與A[i]+B[j]-w[i,j]的較小值。這樣,在修改頂標時,取所有不在交錯樹中的Y頂點的slack值中的最小值作為d值即可。但還要注意一點:修改頂標後,要把所有的slack值都減去d。

推薦閱讀:

K-Means聚類演算法(一):演算法思路
當我們在談論K-means:論文概述(2)
海量數據的聚類通常如何做?

TAG:聚类算法 | 策略 |