列聯表篇之三:比率的多重比較

在卡方檢驗確認列聯表組間有顯著差異後,我們通常會進一步問,到底哪一組或哪幾組之間存在顯著差異呢?這個問題就需要在總體差異顯著的基礎上進一步用多重比較來完成。

nn

本文主要談談多個樣本比率之間的比較,即類似於下面這個表中的多個組間比率的多重比較。

與方差分析中的多重比較類似,比率的多重比較也有各種各樣的方法,差不多有30多種。南方醫科大學生物統計系錢俊、陳平雁歸類總結了比率多重檢驗的方法,見下表。

新疆醫科大學吳蘇和的碩士論文《率的多重比較方法評價》在表中兩兩比較的五類方法中各選了一種,運用蒙特卡洛法進行了模擬分析,本文直接引用其結論:

結果:Bonferroni法使用簡單,但在比較組數較多時結果偏保守;杜養志法在比較組數和樣本量較大時,不能很好地控制錯誤的發現率;SNK-Zar法在比較組數為4和5時不能嚴格控制總的I類錯誤率在0.05的水準;Benjamini-Hochberg法能很好地控制總I類錯誤率和錯誤的發現率;Bootstrap法在各種情況下比較穩定,但不是最好。

結論:當需要嚴格控制總I類錯誤率時,可以選用Bonferroni法;當需要較高的檢驗效能時,可以選用Bootstrap法;當需要嚴格控制錯誤發生率時,可以選用Benjamini-Hochberg法。

大連醫科大學王多霞的碩士論文《樣本率多重比較方法的應用研究及SAS程序》對更多的方法進行了蒙特卡洛模擬研究,下面是論文的結論:

樣本率兩兩比較方法中,一般推薦使用4種逐步調整檢驗水準法,推薦順序為:Step-up Hommel法>Step-up Hochberg法>Step-down Sidak法>Step-down Holm法;但是,當n≤40且k≤5時推薦使用SNK法;當各組樣本量相差懸殊時推薦採用Bonferroni法;在組數較多,數據量大且樣本率相差不懸殊時推薦應用Bootstrap或Permutation法。

樣本率與對照組比較方法中,一般推薦採用Dunnett-SNK法;但是,當組數k在3~5之間推薦使用Brunden法;在組數較多,數據量大且樣本量相差不懸殊時推薦應用Bootstrap或Permutation法。

比率的比較在醫學領域運用非常廣泛,目前能夠找到的資料無一例外都是來自於醫學領域。當然我是搞六西格瑪的,無意於對此做很深的了解和引介,只選擇個別常用的方法介紹一下。

需要說明的是,在現有的六西格瑪教科書中,離散數據的比較分析只介紹單比率、雙比率的比較(Fisher精確檢驗未涉及)和最基本的列聯表卡方檢驗。我在這個單元里介紹這麼多,主要是想讓使用的人能夠了解各種方法的適用條件,在實際工作中能夠更恰當地運用。

多重比較的一般問題

直接拿數據進行成對的比較,會使I類錯誤增加。如果單次檢驗的I類風險選擇0.05,那麼m次檢驗的風險就會變成1-(1-0.05)^m。如果是3個組(或水平),兩兩比較要檢驗3次,即m=3,則總的I類風險就變成0.14;如果是5個組,兩兩比較需要檢驗10次,即m=10,則總I類風險變成0.4,這樣就會產生太多的假陽性。直觀上這一點很容易理解,常在河邊走,哪有不濕鞋,一次檢驗的風險較小,多次檢驗風險肯定會增大。

因此統計學家們提出各種各樣的方法,其主要目的無一例外,都是首先要控制總I類風險,然後再考慮如何更大地提高檢驗功效,即儘可能降低II類風險。

針對各種檢驗方法的評價指標很多,最常用的就是總I型錯誤率(Type I Family-wise Error Rate,FWER)。這是一個概率,表示在m次成對的比較中至少出現一次假陽性的概率,通常還是將其控制在0.05以內。這個指標具體是怎麼算的跟我們也沒有什麼關係,我們只要知道有這麼回事就行了。

下面簡要介紹幾種方法。

Bonferroni

Bonferroni法非常好理解,為了控制FWER,需要減少單次檢驗的α風險,兩兩比較時,單次檢驗的I類風險為:

如果是與對照組比較,則單次檢驗的I類風險為:

借用McDonald教授《生物統計學》中的例子來說明一下。

例: MacDonald 和Gardnern(2000) 用模擬數據測試了幾種事後獨立性檢驗(其實就是多重檢驗)的方法,發現用Bonferroni校正的兩兩比較效果很好。下面的例子是一項研究的數據,此研究將男人隨機分成4組,分布服用硒、維E、硒+維E、安慰劑,然後跟蹤他們是否罹患前列腺癌。

卡方檢驗得p值=0.051,按照我們一般的理解四組率之間不存在顯著差異,應該不必再做後續的多重比較了,但McDonald教授認為有必要再進一步看看有沒有值得研究的,畢竟0.051也不是很大。

繼續做下去有6次兩兩比較,可以用四格表的卡方檢驗來完成(我認為也可以用正態近似或Fisher精確檢驗,沒有依據,純粹瞎猜)。結果如下:

因為有6次檢驗,因此單次檢驗的α為0.05/6=0.008,上表中有1個p值小於0.008,因此可以說服用維E的男人罹患前列腺癌的比率明顯高於服用安慰劑的。

對於本例,我們做了6次檢驗,但Kleinnet al. (2011)在做研究之前就確定只做5次比較(不做硒vs.維E),因此Bonferroni校正後的α為0.05/5=0.01。如果事先確定只做與安慰組的比較,那麼Bonferroni校正後的α為0.05/3=0.017。重要的是在見到結果之前就要確定做多少比較,然後再做校正。不能在把所有的兩兩比較做完後,把感興趣的幾個拿出來說只做了這幾個比較,那樣就屬於耍流氓了。

還有一種做法是將每一組與其它組之和組成四格表,此時單次檢驗的α按實際比較的次數進行校正。這種方法有點怪怪的,我不太建議用這種方法。

Bonferroni法簡單易懂,操作簡便,在組數不是太大的情況下,其檢驗效能能夠令人滿意,應屬於首選的多重檢驗方法。當檢驗組數很大時,α會變得非常小,這樣會造成β風險的增大。其實完全組合的兩兩比較其實也沒有太大的必要,可以在試驗設計時盡量減少比較的組數,以此來避免Bonferroni法過於保守的缺陷。

在一些統計軟體中,Bonferroni法所計算出的p值是實際的p值與比較次數相乘的結果,因此可以直接與α進行比較。

逐步法

在組數較多時,比較次數就很多,因此Bonferroni法就顯得過於保守,於是人們提出了逐步法,這種方法考慮了排序和組距,檢驗效能也得以提高。

逐步法分為逐步向上和逐步向下兩類四種,這些方法給每一個比較計算出的p值加不同的權,不像經典的Bonferroni法那樣加相同的權。

逐步向下法的原理:先將兩兩比較卡方檢驗得到的p值從小到大排序p1,p2,…,pk,然後按次序賦予權重,得到p並與α相比,一旦p超過α即停止比較,因為後面的肯定都不顯著了。

逐步向下法有:

Step-down Holm法,又稱Step-downnBonferroni法

Step-down Sidak法

逐步向上法與上述方法相反,先將兩兩比較的p值從大到小排序pk,…, p2, p1,然後再按次序賦予不同權重,並與α比較,一旦出現p小於α即停止比較,因為後面的比較肯定都是顯著的。

逐步向上法有:

Step-up Hochberg法

Step-up Hommel法

例:有某個5×2的列聯表,其兩兩比較共有10個,將這10個比較的p值從小到大排列,並用Step-downnHolm進行校正,得到結果如下表。

表中的數據是我隨手編寫的,可以看到有6對顯著,4對不顯著。

在王多霞的碩士論文中,建議按下列順序選擇逐步法:

Step-up Hommel法>Step-upnHochberg法> Step-down Sidak法>nStep-down Holm法,詳細論述請參考原文。

SNK

在樣本量n≤40,k≤5時,推薦採用SNKn(Student-Neuman-Keuls) 法。此方法與連續數據均值的兩兩比較方法的思想一致,又稱為SNK-q檢驗。

第一步:把樣本比率p(注意不是檢驗的p值)從小到大排序,這一步很重要,因為後面的檢驗與此有很密切的關係。

第二步:為了應用q檢驗,需要對比率p進行反正弦變換,變換方法為:

第三步:對排序後的第ij兩組進行兩兩比較,檢驗統計量q為:

第四步:將q值與臨界值qα,m,∞做比較,大於臨界值則表示差異顯著。qα,m,∞取自學生化極值(studentizednrange)分布,在本方法中自由度為無窮,m為組距即兩組比率在排序中間隔的距離,如1組和2組的組距為2,1組和3組的組距為3,2組和5組的組距為4,以此類推。

α=0.05和0.01,不同組距的q臨界值見下表(自由度為無窮):

這個計算比較複雜,好在現在統計軟體可以幫我們計算,感興趣者可以用軟體計算。

Dunnett-SNK

這是一種與對照組比較的方法,適用範圍廣泛,結果也很穩健。

其方法與上面介紹的SNK類似,但是不需要事先排序了。

第一步:對樣本比率進行反正弦變換。

第二步:將i組與對照組(下標為0)做比較:

第三步:將計算出的q值與臨界值比較,此時臨界值不是q臨界值,而是Dunnett-t臨界值Dα, ∞,t,其中自由度為無窮,t=k-1,為比較組的組數(不包括對照組)。

本文簡單介紹了幾種比率多重比較的常用方法,對此感興趣的還可以再挖掘一下其它的方法。我的體會是,方法不在多而在精,把方法的核心弄通弄透比知道更多的方法更重要。

請關注我的微信公眾號:張老師漫談六西格瑪

推薦閱讀:

淺談內審員的素質和審核技巧
你永遠學不會的精益六西格瑪!
手機塑膠外殼常見可靠性測試
可靠度|可靠度四大要素:功能、條件、時間、機率
輕鬆掌握用烏龜圖來分析過程

TAG:六西格玛 | 精益六西格玛 | 质量管理 |