如何通俗地解釋多重比較謬誤(Familywise error rate)?

只知道是對多個指標進行檢驗時會出現的謬誤,但是不太懂為什麼會出現。查了百科和維基,沒看懂,又由於專業的原因,我手上的統計大學課本沒有提及這個概念。我是從以下的漫畫中知道這個名詞的。謝謝各位解答~


我就用一個或許更容易理解的例子來說明吧。

假設有某甲在猜硬幣玩,連猜五次後我們發現他次次都猜中。於是我們認為他在做假,因為如果他沒做假的話,連續猜對五次的概率只有1/32=0.03125,小於我們預先定義的小概率(比如說0.05)。

(如果知道什麼是p值的話,這裡我們定義的零假設H0為某甲沒有做假,p=0.03125表示我們拒絕H0隻有約3%的犯錯幾率。如果不知道什麼是p值的話也沒關係,在這裡並不重要)

上面這個判斷沒有問題,但如果涉及到多重比較(multiple comparison)的話就不一樣了。前面的例子只用了一枚硬幣,而這次我們改用100枚不同顏色的硬幣(這就是所謂的多重比較),有紅色硬幣、黃色硬幣、綠色硬幣、粉色硬幣、紫色硬幣等等。實驗中,我們讓某甲每枚硬幣各猜五次,然後我們發現,在猜其他顏色的硬幣時某甲都有猜錯,但在猜綠色硬幣時他連猜五次都猜對了。那麼,我們是不是能像前面一樣,認為他雖然在猜其他硬幣時沒做假,但在猜綠色硬幣時做假了呢?簡單計算一下就可以發現,當我們用100枚硬幣做實驗時,出現一枚或以上硬幣五次都猜對的概率為1-(1-1/32)^100 = 0.958。顯然,這時我們就不能再說某甲在猜綠色硬幣時做假了,即便單就那一枚綠色硬幣來說,連續猜對五次的概率還是只有0.03125。

避免此問題的方法包括控制 FWER(Familywise error rate)、FDR(False discovery rate)等。最簡單的控制FWER的方法是Bonferroni校正,是指p值應該除以比較的次數,在上面的例子中為100。其他的方法這裡我就不贅述了,有興感的可以去參考相應的維基百科條目。


我也是看到這個漫畫才知道這個詞的,百度了一下發現知乎有這個問題,回答沒看懂,又跑維基查了一下。

多重比較謬誤(Multiple Comparisons Fallacy),是一種機率謬誤,系指廣泛比較二個不同群體的所有差異,從中找出具有差異的特徵,然後宣稱它就是造成二個群體不同的原因。

1992年瑞典有個研究試圖找出電源線對健康的影響,他們收集了高壓電源線300米範圍內所有住戶的樣本長達25年,對超過800種疾病一一檢查發生率的統計差異。他們發現幼年白血病的發病率是一般人的4倍,還推動政府為此採取行動。然而,當我們比對超過800種疾病時,有一種以上的疾病因為隨機效應而呈現發病率增加是非常可能的。果不其然,後續的研究再也沒有發現電源線和幼年白血病的相關及因果關係。

聯繫是普遍存在的,其中有些是巧合。調查樣本足夠多,就會出現。

P.S.這類結果經不起驗證~不能重現的~


因為檢驗是在一定犯錯風險下進行的,置信度95%就是有5%的機會出現錯誤的顯著性,如果把對同一個事物的實驗重複多次,每次都有5%的機會出現錯誤的,那麼在這麼多次試驗中有一次犯錯的機會就比5%大很多了,那這樣再說它是顯著的就不對了。

就像重複打槍100次,每次有5%的機會脫靶,那麼100次當中有起碼一次脫靶的機會就不止5%了,而是遵循二項分布了。

漫畫當中,不同的糖豆都做實驗做檢驗,只能說明「綠色糖豆和青春痘間存在關聯」,而不能把結論說成到「糖豆和青春痘間存在關聯」,因為按照這個實驗方法,糖豆和青春痘間出顯著的幾率遠大於5%,不能說成是顯著。


推薦閱讀:

國內外經濟學研究差距有多大?在哪一方面?為什麼會存在差距?
eviews8.0怎麼輸入面板數據呢?
如何用計量經濟學的方法預測中國房價?
計量經濟學中回歸模型交叉項是怎麼回事?

TAG:統計學 | 計量經濟學 |