對P值的批評|Enough,就這幾個理由顛來倒去

一直以來,對P值的攻擊不絕於耳。那些惡毒的攻擊包括但不限於,指責社會科學工作者為「regression monkey」,而指責論文讀者為「star counting donkey」。人們對顯著性的追求變成了一種競賽,在這方面花費太多精力有資源浪費之嫌疑。

但很多學通了統計、且不會誤用P值的人,常常感覺P值沒有錯呀。隨著《政治分析》(不是AER,不是Econometrica也不是JoE)在他們的官方twitter上宣布從2018年的開始的第26輯起禁用p值,集中出現了許多文章,對P值反思。搞得好像出了什麼大不了的事情。

坊間普遍認為這是美國期刊的因噎廢食,但恐怕也是「太多新手上路」導致的編輯被逼無奈。

下面把整理了學者們對P值的主要攻擊如下,諸君有則改之無則加勉。


P值的定義:

在統計學上,P值指的是,若原假設成立,觀察到指定樣本的概率。

檢驗的功能在於,構造某種拒絕域,讓我們通過描述一段歷史,有一定的把握拒絕原假設。

一個例子可以簡單描述這個陷阱:

沒有交通事故則幾乎不會受傷(P=0.01),觀測到受傷的人(P=0.01的事件發生),並不能推導出「沒有發生交通事故」這個假設是對是錯。觀測到小概率樣本發生,未必是因為統計推斷錯了。P值小的時候,對我們的幫助有限

若發生交通事故有70%的概率會受傷(若原假設成立,觀測到樣本的概率P=70%),我們觀測到受傷的人(P=70%的事件發生了),沒辦法推導出發生了交通事故這件事。一個不顯著的P值,對我們更加沒有幫助。


一個有關P值計算的實例(這是一個沒有誤用的例子):

我們詢問了一所高中一年級當中四名同學的數學期末成績,分別是50,60,70,75,然後估計全年級數學期末成績的中位數。

考慮到樣本量太小,我們沒有辦法應用大數法則和中心極限定理。

如果規定原假設為80分,而現實選取了一個同學其小於中位數80這件事,概率是50%.

連續四名同學,成績均小於中位數,概率大約為0.06(概率為0.5*0.5*0.5*0.5)

因此我們可以說,若原假設成立,即年級成績中位數為80分時,抽到這四個人這件事,對應的P值為0.0625.

相應的,原假設改成中位數為75.5,對應的P值依然是0.0625.拒絕這個原假設並不容易。當然,顯著性已經小於10%,值得標註一顆星星以示慶祝.

原假設改成中位數為65,對應的P值為0.375,這並不意味著我們可以輕鬆接受原假設。

對應於真正的年級成績中位數是多少,我們依然一無所知。


對P值的批評:

1:我們很少拿別人的實證研究結論當回事,誰知道他的星星是怎麼搞出來的

正確的統計推論,必須要"full reporting and transparency",這是什麼意思呢?這是說:不但要報告 p 值顯著的研究結果,也要報告 p 值不顯著的研究結果。

但傳統方法最大的問題是:研究結果不顯著,通通都沒有報告。在英文有個詞叫 ,摘櫻桃。什麼叫摘櫻桃?摘水果,水果熟的才摘,把熟的水果送到水果攤上,大家在水果攤上看到的水果,都是漂亮的水果,其實有很多糟糕的水果都不見了。我們在統計上也是,大家看到的都是顯著的結果,不顯著的結果沒有人看到。

做了20個模型, 20 個裡面最少有一個在0.05意義上顯著,或然率就不是 0.05,大概是 0.64

(斜體摘自:林澤民教授 《P值的陷阱》

2:發生小概率事件,值得在歷史上記上一筆,但否定原假設的力度有限,需要配合理論。

"若大樂透的開獎機制是完全隨機的,則每注中頭獎的機率很小,只有 1 / 13,980,000",現在你中獎了,你能推論說大樂透開獎的機制不是隨機的嗎?p 值的問題,便是在於我們能不能夠因為 p 值很小,小到可能性很低,我們就用否定後件的方法來否定前件。

(斜體摘自:林澤民教授 《P值的陷阱》

此外:

3,

P(樣本如此|假設為真)與P(假設為真|樣本如此),兩個條件概率是不相等的。

因此P值並不是原假設為真的概率,也不是備擇假設為假的概率。

4,

拒絕了原假設,原假設落入拒絕域中,備擇假設未必成立。

5,

顯著性不能量化差異性。

6,

顯著性不能誇大兩者差異性有現實意義。

7,

顯著性不能解釋為什麼兩者有差異性。


作為研究建議:

對P值的貶低,並不是計量界的共識,是一部分人攻擊別人時所找到的一個好用的切入點(畢竟在這個地方,容易被挑錯)。

有學者認為,研究者應當給出置信區間和勢,以讓讀者明白研究結果的靠譜程度。這有一定的道理。需要清楚的是,置信區間只是一個區間估計的方法,並不是為測量統計差異而設計的工具;p值雖然可以幫助我們判斷統計結果的顯著性,但是沒有組間差異的信息。而檢驗的勢的計算,有時確實也挺難的。

此外,研究者可以用貝葉斯等決策方法,一定程度上能改善對P值的誤解。使用更多方法對比、更多數據展示、更全面的展示,可以提高實證研究的可信度。以及,最重要的,把論文的其它部分寫好,可以讓讀者自己判斷觀點成立的顯著性。

推薦閱讀:

計量經濟學十日談(一)
斷點回歸的stata操作
檢驗異方差
Day2-《The Introduction of Statistical Learning》學習筆記

TAG:假設檢驗 | 模型 | 計量經濟學 |