Fisher, Neyman, Pearson,和Bayes檢驗(三)

原作者:RonaldnChristensen,Professor,Departmentnof Mathematics and Statistics, University of New Mexico

文章發表於The American StatisticianMayn2005,Vol.59,No.2

5.一般的情況

5.1費歇爾檢驗

在第2節的費歇爾檢驗例子中有一件事情沒有講明白,即不清楚應該拒絕模型的哪個方面。如果y_{1}, y_{2},cdot cdot cdot ,y_{n}服從Nleft( mu ,sigma ^{2}  right) 且獨立,我們做一個H_{0} μ=0的t檢驗,拒絕它的意思可能是μ≠0,可能是數據不獨立,也可能是觀測值的方差不相等。換句話說,來自費歇爾檢驗的拒絕只是說模型有東西是錯的,但不會指明錯的是什麼。

t檢驗的例子也帶來了另一個問題,為什麼我們要把數據概括成一個t統計量frac{bar{y} -0}{s/sqrt{n}} ?有一個原因是純實際的,要做一個檢驗,你必須有一個已知的分布與數據進行對比。如果沒有一個已知的分布,就無法區分數據的哪些值是古怪的。對於正態數據,即使假設μ=0,我們也不知道sigma ^{2} 因此我們並不知道數據的分布。通過將數據概括成t統計量,我們得到具有一個已知分布的數據的函數,從而可以做這個檢測。另一個原因來自本質:為什麼不思考一下t統計量?如果你想用另一個統計量做檢驗,費歇爾檢驗的學者會樂於幫忙。引用費歇爾的說法(1956,p.49),「如果觀測記錄的任何相關特徵能夠被證明足夠罕見」,假設應該被拒絕。畢竟,如果原模型是正確的,它應該能夠經受任何挑戰。再者,在本段中沒有任何線索去擔心做多重檢驗的效果。在做多重檢測時增大的一類錯誤(拒絕真的原假設)的概率並不是費歇爾檢驗的關注點,因為在費歇爾檢驗中並不關注一類錯誤的概率。

在費歇爾檢驗中可能出現備擇假設的一個地方是在選擇檢驗統計量中。再引用費歇爾的說法(1956,p.50),「在選擇拒絕一個一般假設的依據時,可能且應該恰當地運用個人的判斷力。實驗人員要正確地考慮這些點,即根據現有的知識,假設可能並不完全準確,並且要儘可能選擇對這些錯誤敏感的檢驗,而不是其它的。」不過,費歇爾檢驗的邏輯絕不依賴於檢驗統計量的來源。

最後有兩點,表明這樣的檢驗方法是如何對標準的數據分析造成衝擊的。

第一點,F檢驗和chi ^{2} 檢驗只有在檢驗統計量的值很大時才拒絕。很明顯,在費歇爾檢驗中,這是不恰當的。要得到F檢驗的p值需要包含:得到與觀測的F統計量相關的概率密度,得到有較低概率密度的統計量取值的概率。這將是個雙邊的檢驗,在統計量取值很大或非常接近於0的時候拒絕。有一種可能要常常記住實際的情況,「單邊的p值」非常接近1,應該會使我們懷疑這個模型的單邊p值接近0。Christensen(2003)討論了造成F統計量接近0的情況。

第二點,儘管費歇爾從未放棄他的可信推斷的思想,也可以把費歇爾檢驗運用到一個「置信域」中,其中既不包含可信推斷也不需要重複抽樣。一個(1-α)的置信域可以簡單地定義為一個不被費歇爾α水平檢驗拒絕的參數值的集合,也就是一個與由α水平檢驗判定的數據相一致的參數值的集合。這個定義不再包含「置信」在長期頻率上的解釋。也不會提及真實參數在假設置信域中的比例。不過確實需要你在不用擔心頻率上解釋的前提下願意做有限次的檢驗。這個方法也產生了一些奇怪的想法。例如,對於前面討論的正態數據,此方法不僅會通向標準的μt置信區間和sigma ^{2} chi ^{2} 置信區間,還能用所有滿足frac{|bar{y} -mu| }{s/sqrt{n}} <1.96的成對的值構建一個μsigma ^{2} 的聯合置信域。當然所有這樣的μ,sigma ^{2} 對都與由bar{y} 概括的數據相一致。

5.2奈曼-皮爾遜檢驗

為處理更通用的檢驗情況,NP理論提出了大量的概念,諸如無偏檢驗,不變檢驗,類α檢驗,見Lehmann(1997)。例如,雙邊的t檢驗不是一致最大功效檢驗但它是一致最大功效無偏檢驗。類似的,在回歸和方差分析中標準的F檢驗是一致最大功效不變檢驗。

NP尋找置信域的方法也就是尋找不被α水平檢驗拒絕的參數值。然而,就像NP理論將一個檢驗的α的大小解釋為拒絕一個不正確原假設的長期頻率那樣,NP理論將置信度1-α解釋為包含真實參數的區間的長期概率。問題在於你只有一個域,且不是一個長期的域,你還要試圖對基於這些數據的參數說些什麼。實際上,α的長期頻率以某種方式變成稱為「置信區間」的東西,參數就居於這個特別的域中。

儘管我也同意「置信區間」這個概念在一般的應用中感覺挺好,但我不知道在用於現存的域時「置信區間」到底指的是什麼。Hubbard和Bayarri(2003)給出了一個直觀的實例,NP置信區間的概念在用於現存的域時沒有意義,它僅僅適用於一個長期的類似區間。學生們或許一直將置信解釋為後驗概率。例如,如果我們擲很多次硬幣,約有一半的次數得到正面。如果我擲了一次硬幣,看了一下但不告訴你結果,你可能感覺很舒適地說正面的概率是.5,儘管我知道是正面還是反面。不知不覺地,未來要發生的概率就轉變成已發生但沒有觀察到的東西的置信。因為我不理解概率轉變成置信的過程(除非這個人是貝葉斯派的,在這個實例中置信實際上就是概率),所以我也不理解「置信區間」。

5.3貝葉斯檢驗

如果你用了一個不恰當的先驗分布,貝葉斯檢驗可能會出現嚴重的錯誤。這是著名的林德利悖論中的一個案例:在一個看起來簡單而合理的包含正態數據的檢驗環境中,不管觀察數據對原假設來說有多古怪,原假設也被接受。已知X|μN(μ,1),檢驗H_{0} μ=0 vs. H_{a} θ>0,此時假設的先驗概率並不真正重要,取Pr[μ=0]=.5和Pr[μ>0]=.5,在嘗試使用無信息先驗概率時,取給定μ>0的μ的分布密度是在半直線上平坦的(這是一個不恰當的先驗,但類似恰當的先驗也會指向類似的結論),貝葉斯檢驗比較H_{0} μ=0下的X的數據分布密度與H_{a} μ>0下的數據平均分布密度(後者包含給定θ>0時對X|μμ乘積的積分)。備擇假設下的平均概率密度使你可能直觀看到的任意X來自原假設的可能性高於來自備擇假設。因此,可能你看到的任何東西都將使你接受μ=0。在半直線上有一個無信息先驗的嘗試會將你引向無意義的先驗,這有效地將所有的概率不合理地置於大μ值上,以便相比之下μ=0看起來更加合理。

6.結論與評論

費歇爾檢驗的基本元素是:(1)數據有一個概率模型;(2)多維數據被概括成一個具有已知分布的檢驗統計量;(3)已知分布提供了一個對各種觀測值「古怪度」的評價;(4)p值,一個觀察到某種東西比實際觀察到的古怪或更古怪的概率,用於量化反對原假設的證據。(5)參照p值定義了α水平檢驗。

NP檢驗的基本元素是:(1)有兩個假設的數據模型:H_{0} H_{a} ;(2)選擇了一個α水平,一個在H_{0} 為真時拒絕H_{0} 的概率;(3)選擇了一個拒絕域以使H_{0} 為真時數據落入拒絕域的概率為α。對於離散數據,通常需要有一個隨機化的拒絕域的說明,在其中具體的數據值被隨機地指派到拒絕域之內或之外;(4)基於功效性能評估各種檢驗,理想情況下,期望得到最大功效檢驗;(5)在複雜的問題中,在選擇一個具有好的功效特性的檢驗之前,用諸如無偏性、不變性的特性來約束檢驗族。

費歇爾檢驗似乎是一個合理的模型驗證方法。實際上,基於數據的邊際分布,Box(1980)推薦費歇爾檢驗用作驗證貝葉斯模型的方法。費歇爾檢驗在哲學上運用反證法的思想,在其中矛盾並不是絕對的。

貝葉斯檢驗似乎是一個在兩個可選假設之間做出判決的合理方法。實際上其結果受先驗分布影響,但你可以嘗試多種多樣的先驗分布。

奈曼-皮爾遜檢驗似乎不倫不類,它似乎是模仿費歇爾檢驗,強調原假設和小α水平,但是它也採用了備擇假設,因此它並非像費歇爾檢驗那樣以反證法為基礎。因為NP檢驗聚焦於小α水平,它常常導致在兩個可選假設中做出錯誤的判決。當然,在簡單對簡單的假設中,如果你不在哲學角度上與小α值捆在一起,任何NP檢驗的問題都將消失。例如,任何合理的檢驗(以頻率派的準則評判)必須既在最大功效檢驗集中,又在貝葉斯檢驗的集中,參閱Ferguson(1967,p.204)。

最後,還有一個議題,即α是否僅僅對數據多麼古怪的一個度量,或者是否可以解釋為關於原假設做出錯誤判決的概率。如果α是關於原假設做出不正確判決的概率,那麼為評價複合原假設所做的多重檢驗久會出現問題,因為做出錯誤判決的綜合概率改變了。如果α僅僅是對數據多麼古怪的一個度量,還不太清楚多重檢驗是否會內在地產生任何問題。特別地,費歇爾(1935,chap.24)不擔心在方差分析中運用他的「最小顯著性差異法」所做的多重比較中出現的實驗錯誤率。然而,他擔心將無效分布用於調查數據確定的檢驗會得出不恰當的結論。

最近幾年,在教回歸、方差分析、統計方法或者其它所有的實用課程時,我自己的課堂講解已大量地放棄了NP的思想。我現在教費歇爾檢驗和基於費歇爾檢驗的置信區間。在原理課上,我會教一些NP檢驗,是因為其歷史角色以及其他統計學家希望學生知道的一些事實。如果我能僥倖逃脫它,我將以貝葉斯的觀點開始介紹統計學。Albert(1997),Berry(1997),和Moore(1997)也討論了將貝葉斯統計學作為導論的想法。我堅信,貝葉斯的思想比基於反證法思想的檢驗和置信區間更容易讓學生理解,也比NP檢驗更容易理解。

參考資料

Albert, J, (1997),"TeachingnBayes Rule: A Data-Oriented Approach," The American Statistician, 51, 247-253.

Berger, J.nO. (2003),"Could Fisher, Jeffreys and Neyman have Agreed on Testing?"nStatistical Science,18,1-32.

Berger, J. O., and Wolpert, R. (1984), The Likelihood Principle, Hayward, CA: Institute of MathematicalnStatistics.

Berry, D. A. (1997), "Teaching Elementary Bayesian StatisticsnWith Real Application in Science," ThenAmerican Statistician, 51, 241-246.

——(2004), "Bayesian Statisticsnand the Efficient and Ethics of Clinical Trials," The American Statistician, 19, 175-187.

Box, G. E. P.(1980), "Sampling and Bayes Inference innScientific Modeling and Robustness," Journalnof the Royal Statistical Society, Ser. A, 143,383-404.

Christensen, R. (2003), "Significantly Insignificant F Tests," The American Statistician, 57, 27-32.

Ferguson, T. S. (1967), MathematicalnStatistics: A Decision Theoretical Approach, New York: Academic Press.

Fisher, R. A. (1935), ThenDesign of Experiments (9th ed., 1971), New York: Hafner Press.

——(1956), Statistical Methods and Scientific Inference (3rd ed., 1973), NewnYork: Hafner Press.

Hubbard, R., and Bayarri, M. J. (2003), "Confusion OvernMeasures of Evidence (ps) VersusnError (αs) innClassical Statistical Testing," ThenAmerican Statistician, 57, 171-177.

Lehmann, E. L. (1997), TestingnStatistical Hypotheses (2nd ed.), New York: Springer.

Moore, D. (1997), "Bayes for Beginners? Some Reasons tonHesitate," The American Statistician,n51, 254-261.

請關注我的微信公眾號:張老師漫談六西格瑪


推薦閱讀:

假設檢驗之二:假設檢驗的基本原理
數據收集篇之十二:GR&R中的ANOVA問題答案
數據收集篇之十六:EMP分析步驟
經典比較篇之十:要收集多少數據才能做有效比較?
假設檢驗之五:α風險 vs. β風險

TAG:六西格玛 | 精益六西格玛 | 质量管理 |