列聯表篇之八:屬性不同雙向有序表的線性趨勢檢
前兩篇我們討論了秩相關係數,Spearmannrho和Kendall tau不能像Pearson相關那樣判斷兩個變數是否存在線性關係。Wikipedia上的這張圖可能很多人都看到過,對於一個單調的函數來說,Spearman和Kendall的相關係數可以到1,可以說兩個變數的關係絕對密切,但也只能說它們的變化一致,不能說它們的關係線性的。
在確認兩個有序變數存在相關關係後,如果還想進一步了解這種關係是不是直線關係,這就可以運用線性趨勢檢驗來確認。
線性趨勢檢驗方法是將總的卡方值進行分解,即
看到這個公式,你大概會聯想到一元線性回歸分析上,其實原理差不多,類似於通過卡方檢驗(回歸分析用t-檢驗)來確認回歸係數的顯著性,如果回歸係數顯著(卡方「偏」不顯著),則說明兩個變數存在線性相關關係。
例:(借用孫振球《醫學統計學》中的案例)某研究者欲研究年齡與冠狀動脈粥樣硬化等級之間的關係,將278例資料整理成下表,問年齡與冠狀動脈粥樣硬化等級之間是否存在線性變化趨勢?
在秩相關係數中,變數的等級沒有納入分析範疇,而線性趨勢檢驗則需要用到這些信息,因此事先給這些等級賦值。
第一步:提出假設
H0:年齡與冠狀動脈粥樣硬化等級之間無線性關係
Ha:年齡與冠狀動脈粥樣硬化等級之間有線性關係
第二步:計算總卡方值
計算方法在《雙向無序列聯表分析》中有詳細介紹,這裡直接給出結果:
總自由度=(4-1)(4-1)=9。
第三步:計算回歸卡方值
自由度為1,式中b為回歸係數, 為b的方差。Lxx、Lyy分別為兩個變數的離均差平方和,Lxy為兩個變數的離均差積和。有
Lxx、Lyy的計算結果如下:
Lxy的計算結果如下:
由此計算得:
自由度=9-1=8。
第四步:得出檢驗結論
取α=0.05,自由度為1、8的卡方檢驗臨界值分別為3.84、15.51,結論是回歸係數卡方檢驗顯著,偏卡方係數不顯著,因此拒絕原假設,即年齡與冠狀動脈粥樣硬化等級之間有線性關係。
「回歸」、「偏」的卡方檢驗結果有4種組合
計算《屬性不同雙向有序表的Spearman相關分析》例1的卡方值,可得
「回歸」的自由度為1,「偏」的自由度為(4-1)(5-1)-1=11。取α=0.05,卡方檢驗臨界值分別為3.84、19.675,「回歸」不顯著,「偏」顯著,說明兩個變數可能有曲線關係。
請關注我的公眾號:張老師漫談六西格瑪
推薦閱讀:
※抽樣分布篇之十一:抽樣分布的終極分布是什麼,你知道嗎?
※質量人都膜拜的「6σ」管理,到底有多厲害?
※數據收集篇之七:測不準的幾種情形
※抽樣分布篇之四:戈塞特和t-分布