列聯表篇之一:雙向無序列聯表的分析
最近更新比較慢,讓大家久等了。
nn本單元主要討論列聯表,在六西格瑪的課程中,列聯表涉及的內容很少,並且是以多比率比較的方式引入。馬逢時老師《六西格瑪管理統計指南》中對內容作了一些拓展,而且引入了三維的列聯表,介紹了Simpson悖論。
nn當我著手準備開始本單元時,發現列聯表的形式多種多樣,統計學家們提出的分析方法也很多,且各有針對性,如果不是很熟悉的話很容易用錯。在本單元中,我將儘可能把列聯表的各種形式和分析方法介紹給大家,以便大家在使用中能夠按圖索驥。
nn列聯表的一般形式
nn列聯表(ContingencynTable)又稱為R×C表,R表示行(Row),C表示列(Column)。最常見的就是下面的二維表,另外還有一維表和多維表。這裡的維,指的是我們研究的變數數,有兩個變數就是二維的,這兩個變數可以是兩個X或Y,也可以是一個X和一個Y,即兩個變數可以是並列的,也可以是因果的。
其中A有r個水平,B有c個水平,因此表中有r×c個組合,nij代表某一組合下的頻數。
特別的,當行和列均為2時,就是我們常見的四格表,下一篇討論四格表的分析。
關於列聯表的檢驗假設:
H0:變數A與變數B相互獨立
Ha:變數A與變數B不相互獨立
二維列聯表的類型
一維表的分析其實在前面已經介紹過了,在《抽樣分布篇之五:卡爾?皮爾遜和卡方分布》的例1就是一維表的分析案例。
多維表分析可以參考馬逢時《六西格瑪管理統計指南》p.179-194。
二維表根據因子的不同性質和表格構建的不同方式分為雙向無序、單項有序(又分為因子有序和效應有序兩種)、雙向有序這幾種,本篇著重介紹雙向無序列聯表。
雙向無序列聯表的獨立性分析
這是最常見的一種表,其特徵是行和列變數都是類別變數,變數的不同取值之間沒有程度上的差異。如這張針對不同地區對地板磚購買傾向的調查匯總表:
通過這個調查,可以判斷三個地區的購買傾向有什麼不同,以確定各自的產品投放重點。兩個變數沒有排序關係,屬於雙向無序表。
對於雙向無序表,最常用的也是最有效分析方法就是經典的Pearson卡方檢驗了。下面我們按部就班地來完成分析。
第一步:確定假設:H0:地板磚購買傾向與地區無關
Ha:地板磚購買傾向與地區有關
第二步:求出每個組合的期望值,見下表。
以行1列1為例,期望E11=189×186/574=61.2,同理E23=99×247/574=42.6。每行和每列的和與原表相同。
第三步:計算統計量。
第四步:查臨界值,卡方分布的自由度=(r-1)(c-1)=4,查表知α=0.05時臨界值為9.49,大於2.357,因此無法拒絕原假設。實際結論是不同地區的地板磚消費傾向沒有顯著差異。
注意:卡方檢驗要求表中不能有期望頻數小於1的單元格,如果有,則需要採用Fisher精確檢驗;其二是期望頻數小於5的單元格不能超過20%,如果有少量單元格期望頻數小於5,在得出結論時需要小心,可以合併一些行或列再用卡方檢驗,或採用其它方法進行對比驗證。
如果有多於20%的單元格期望頻數小於5,卡方統計量會變大,也容易造成假陽性(假的拒絕)的概率增大,這時可以採用似然比卡方進行修正。
似然比卡方,其自由度和臨界值與Pearson卡方一致,公式如下:
理論上當樣本量相當大時,Pearson卡方和似然比卡方都接近卡方分布。樣本量不夠大時都偏離卡方分布,兩者的計算結果比較接近,實踐中這兩個統計量可以同時使用,結合起來下結論。
雙向無序列聯表相關程度的度量
卡方檢驗可以幫助我們確定兩個變數是否獨立,即兩個變數是否存在關係,但沒有告訴我們關係的緊密程度如何,為此需要引入列聯相關係數來衡量兩個變數關係的大小。
四格表放到下一篇介紹,對於大於四格表的二維表,有兩種係數:
1.C係數
C係數稱為列聯相關係數,主要用於大於2×2的列聯表,其公式為:
當兩個變數完全獨立時,卡方=0,此時C=0;從公式上看,C不可能等於1。當然C越大,說明兩個變數的關係越密切。
引入C可以讓我們更客觀地看待兩個變數的關係。對於前面的例子來說,如果每格的數據乘以10,即樣本量擴大到10倍,則計算出的卡方值也會增大10倍,由於行列數不變,卡方分布的臨界值不會變,結果就是拒絕原假設。但兩者的C值相同,都是0.064,這個值非常小,說明即使兩個變數有關係,其關係也很不密切。這樣可以幫助廠家更恰當地制定地區銷售策略。
2.CramersnV係數
這個係數由瑞典統計學家HaraldnCramer1964年提出的,是對四格表係數φ用於多格表時的修正用法。
Harald Cramer(1893.9.25-1985.10.5),被稱為統計學理論的巨人之一。他於1946年出版的《統計學的數學方法》被認為是數理統計成熟的標誌。他還是在現代概率論領域做出重大貢獻的著名華裔數學家鍾開萊的博士生導師。
V係數的計算公式如下:
當兩個變數完全無關時,V=0,兩個變數完全相關時,V=1,因此這個值越接近1,說明兩個變數的關係越密切。
本文的例子中,可以計算出V=0.045,說明兩個變數基本沒有關係。
如果卡方檢驗證明兩個變數無關,就沒有必要計算列聯相關係數了。
我在講相關的時候曾經反覆強調,相關係數的檢驗幫助我們判斷變數之間是否相關,而相關係數的大小,則決定著兩個變數關係的密切程度。這裡介紹的列聯表的列聯相關係數則與此有異曲同工之妙。
請關注我的微信公眾號:張老師漫談六西格瑪
推薦閱讀:
※經典比較篇之十:要收集多少數據才能做有效比較?
※假設檢驗之二:假設檢驗的基本原理
※均勻設計篇之三:均勻設計數據分析
※過程能力篇之三:你得到的過程能力是真實的嗎?