列聯表篇之七:屬性不同雙向有序表的Kendall's tau相關分析
雖然也稱為秩相關係數,但Kendalls tau(τ)與Spearman rho(ρ)在思路上還是有所不同。兩種相關係數都屬於廣義相關係數(General Correlation Coefficient)的特例。
Kendalls tau是由英國統計學家Maurice George Kendall爵士(1907.9.6~1983.3.29)於1938年提出。
Kendalls tau秩相關係數也稱為順序數據一致性度量,包括一組評價係數。
- ? Somers D
- ? Goodman - Kruskals gamma(γ)
- ? Kendalls tau,包括a、b、c三種形式
這一組評價係數雖然各有不同,但其基礎數據來源卻是一致的,因此在一些統計軟體中經常將它們列在一起。
Kendalls tau的思路是這樣的:
針對一個雙向有序表,可以將X和Y列成n個數據對(xi,yi),這一點很容易理解,相關係數計算的條件必須是成對數據。如果X和Y正相關,那麼兩個變數必然有相同的變化,要變大都變大,也變小也都變小,如 (1,2)~(2,4)、(5,3)~(2,2)等,這樣變化的對叫做協和對(concordant pair);如果是負相關,則兩個變數的變化是相反的,如(1,2)~(2,1)、(5,3)~(2,4),則稱為不協和對(disconcordant pair);如果出現這樣的對,如(1,2)~(1,3)、(5,3)~(3,3)、(1,1)~(2,2),即在變化中至少有一個變數沒發生變化,則既不是協和對也不是不協和對,我將其簡稱為 「不變對」。
這些對通過將樣本的每個對與其它對進行兩兩比較得到,因此一個樣本中存在n(n-1)/2個對。Kendalls tau的思路就是要衡量在總的這些對中,是協和對多還是不協和對多。如果協和對顯著多於不協和對,則為正相關;反正則為負相關;如果兩種對中沒有明顯多的對,則說明兩個變數不存在相關關係。
我們用下面一個表來說明其分析過程,因為手工計算量比較大,我用小樣本量的數據來說明。
假設我們有這樣一個表,其中X1<X2<X3,Y1<Y2<Y3<Y4
為了便於理解,我把表格轉換成下面的形式,並計算各種對。表中將X作為主排序變數,Y作為次排序變數。每一行的對都與其上面的各行比較,以確定這三種對的數量。
我們以(X3,Y2)為例,這樣的對有兩對,第一對與上面的16對比較,可以得到7個不協和對、3個協和對和6個不變對,一共有16個對。第二對除了要與上面的16個對比較外還需要與前面的第一對比較,因此多了一對不變對,共17個對。由此得到總的協和對C=80,不協和對D=53。
可能有人會說,你這樣弄太麻煩了,可以在表格中直接計算。是的,上表只是為了直觀說明各種對是怎麼來的,實際做的時候其實不必這麼麻煩地一對一對地比較。下面我們看看怎樣直接從表格中計算。
我們從(X1,Y1)開始尋找,正向變化的數據對在格子的右下方的子表中,這些子表中X和Y都比X1和Y1大,見下面的紅色方框中,將方框中格子的頻數相加再乘以(X1,Y1)格子的頻數,即為協和對數;(X2,Y1)的正向變化的子表在藍色方框中;(X1,Y2)的正向變化的子表在綠色方框中。
這樣就可以直接計算出:
C=1×(4+1+1+2+1+4)+2×(1+1+1+4)+ 3×(1+4)+ 2×(2+1+4)+ 4×(1+4)+ 1×4=80
不協和對則是找右上方的子表,從(X3,Y1)開始,X變大,Y變小的子表見下表:
這樣就可以直接計算出:
D=0×(2+3+2+4+1+1)+2×(3+2+1+1)+ 1×(2+1)+ 2×(2+3+3)+ 4×(3+2)+ 1×2=53
不變對怎麼計算呢?當然是要找對中兩個變數至少有一個不變的,其實就是找結,行和列的節數分別為:
將兩個上式的兩個值相加得出的不變對多了,每個格子中自身的比較加了兩次,需要減掉多加的一次,即每個格子的重複數,記為:
總的不變對就是77+62-19=120。
總對數為:
Kendalls tau分為a、b、c三種:
是協和對與不協和對之差與總對數之比。但列聯表中結非常多,需要進行校正,於是有:
式中ti和tj分別為行和列之和,可以看出,當結為0時,兩個公式是一樣的。因此tau-b是最常用的。
用這個公式可以計算出例子的tau-b為:
tau-c公式如下:
其中m表示行數和列數較小的那一個,在上面的例子中m=3。
一般認為,tau-b更適合正方形表格,tau-c更適合長方形表格。但用tau-b來分析長方形表格也比較常見。
Robert H. Somers1962年在Kendalls tau基礎上提出了另一種衡量等級變數關係的指標,稱為Somers D。Kendalls tau針對X和Y的順序是對稱的,即無論是X和Y,還是Y和X,秩相關係數是一樣的。而Somers D是不對稱的,有下列公式:
分母分別減去了X、Y結的對數。
用例子中的數據可以計算得:
Goodman - Kruskals gamma(γ)是統計學家Leo A. Goodman (1928.8.7~)和William Henry Kruskal (1919.10.10~2005.4.21)在1954年~1972年的一系列論文中提出的。這個指標不考慮「結」,計算方法同樣簡單粗暴,為
如果沒有結,則G=tau-a。
本文的例子計算得G=(80-53)/(80+53)=0.203008。
秩相關係數顯著性檢驗,只介紹Kendalls
tau-b。檢驗假設為:H0:τ=0
Ha:τ≠0
如果沒有結,則統計量的計算比較簡單,τa的方差為:
因此正態近似的z統計量為
tau-b的z統計量就非常複雜了,這也是很多人不願意用它的原因之一。我原本也不想講公式寫出來,但考慮到給大家當成一個資料來備查,我還是決定費點勁把它寫出來。
這個公式看著簡單吧,但是這個ν就複雜了。
ti、tj分別是行和列的結,r、c分別為行、列數。
複雜吧?
根據上面的公式直接計算出zb=0.795088,雙邊檢驗正態分布p值為0.426562,因此無法拒絕原假設,即兩個變數無相關關係。
取上一篇的銀行客戶滿意度的案例,計算得C=16216,D=12181,總對數=59340,不變對=30943。
由此計算得τb=0.098538,zb=2.134122,雙邊檢驗p值=0.032833,因此可以拒絕原假設,認為客戶等級與滿意度有相關關係,雖然這個關係很弱。
講到最後,可能大家有個疑問,Spearman和Kendall兩個秩相關係數孰優孰劣呢?
關於這個問題,沒有明確的答案。在吳喜之《非參數統計方法》中提到:
對於這個問題還沒有一個確切的答案,但是可以注意以下幾點:
1.Kendall tau檢驗統計量的計算比Spearman秩相關係數的計算要複雜得多;2.Kendall tau檢驗統計量收斂於正態的速度比Spearman秩相關係數要快得多,於是在用大樣本近似,而n並不大時,Kendalltau檢驗較可靠;3.二者對於樣本想係數的ARE(Asymptotic Relative Efficiency 漸進相對效率)是相同的;4.對於同一組數據,這兩個統計量的值可能不同,但是其結論應是一樣的;5.Kendall tau檢驗統計量是總體某參數的估計,而Spearman秩相關係數則不然。
請關注我的微信公眾號:張老師漫談六西格瑪
推薦閱讀:
※醫藥行業質量管理人員的法律義務
※有哪些可以降低辦公大樓用電量的創新做法?
※數據收集篇之三:測量值的分類
※經典比較篇之六:單總體比較中如何做假設?
※數據收集篇之十五:評估測量過程EMP——一種測量系統分析的新方法