標籤:

Cluster 群集工作方法

群集演算法

Tableau 使用 k 均值演算法進行群集。對於給定的群集數量 k,演算法將數據劃分為 k 個群集。每個群集都有一個中心(質心),它是該群集中所有點的平均值。K 均值迭代過程來查找中心,該過程可最大程度地縮短群集中各個點與群集中心之間的距離。在 Tableau 中,您可以指定所需的群集數,或者讓 Tableau 測試不同的 k 值並給出最佳群集數建議(請參見確定最佳群集數)。

K 均值需要群集中心的初始規範。從一個群集開始,該方法會選擇一個變數,其平均值用作將數據拆分為兩部分的閾值。然後,將使用這兩部分的中心來初始化 k 均值,以優化兩個群集的成員身份。接著,將選擇兩個群集中的一個用於拆分,並且將選擇該群集內的一個變數,該變數的均值用作將該群集拆分為兩部分的閾值。然後,使用 K 均值將數據劃分為三個群集,初始具有拆分群集的兩部分的中心,以及剩餘一個群集的中心。在達到設置的群集數之前,此過程會重複進行。

Tableau 將 Lloyd 的演算法與平方歐氏距離結合使用來計算每個 k 的 k 均值聚類。與拆分過程結合使用來確定每個 k > 1 的初始中心,生成的聚類是確定性的,結果僅取決於群集數。

該演算法首先選擇初始群集中心:

然後通過將每一項分配給其最近的中心,從而對標記進行分區:

接下來,通過求分配給同一群集的所有點的平均值來計算每個分區的新中心,從而改善結果。

最後,複查分配給群集的標記,並重新分配現在比以前更接近於不同中心的任何標記。

此時,群集會被重新定義並且會以迭代方式重新分配標記,直到沒有更多的變化發生為止。

確定最佳群集數

Tableau 使用 Calinski-Harabasz 標準來評估群集質量。Calinski Harabasz 標準的定義是

其中 SSB 是群集間總體方差,SSW 是群集內總體方差,k 是群集數,N 是觀察次數。

此比率的值越大,群集的內聚性越高(群集內方差小)並且單個群集的離散性/分離性也越高(群集間方差大)。

由於沒有為 k=1 定義 Calinski-Harabasz 指數,因此無法使用它來檢測一個群集的情況。

如果用戶未指定群集數,Tableau 將選擇與第一個局部 Calinski-Harabasz 指數最大值對應的群集數。默認情況下,如果對於某個較小的 k 值未達到第一個局部指數最大值,則將為最多 25 個群集運行 k 均值。您可以設置最大值 50 個群集。

注意:如果分類變數(即維度)具有的唯一值超過 25 個,則 Tableau 在計算群集時會忽略該變數。

哪些值將分配給「未建立群集」類別?

當度量具有 Null 值時,Tableau 會將具有 Null 的行的值分配給「未群集」類別。針對 ATTR 返回 *(意味著所有值都不相同)的分類變數(即維度)也未進行群集。

縮放

Tableau 會自動對值進行縮放,以便大小範圍較大的列不會影響結果。例如,分析師可能會使用通脹和 GDP 作為群集的輸入變數,但是由於 GDP 值以萬億美元為單位,這可能會導致通脹值在計算中幾乎完全被忽視。Tableau 使用一種稱為最小值-最大值標準化的縮放方法,在這種方法中,每個變數的值將通過減去最小值併除以其範圍來映射為 0 和 1 之間的值。


推薦閱讀:

Tableau 表計算 | 舉兩個栗子
從桑基圖的一些展開分析
Tableau 函數 | 日期 Dates
Tableau 更新 | 10.3 vs 10.4 之格式設置

TAG:TABLEAU |