如何看待「p 值已死」這種說法?
今天朋友圈廣為轉載的文章:
http://mp.weixin.qq.com/s?__biz=MjM5MDEzNDAyNQ==mid=200652178idx=1sn=ebcfde94db2998f2bcf0407232d5c7c7scene=2from=timelineisappinstalled=0#rd
分享兩條從前(非盲審)回應某同行同主題論文的評論:
1. 關於假設檢驗和 p 值,差不多每隔二十年就有一波激進變革的倡議,然並卵。後來者有必要了解前人在交鋒中沉澱的主要文本。其中1997年陣營雙方的合集、1999年 APA TFSI 的共識文本尤其不可以繞過
- Harlow, L., Muliak, S. Steiger, J. (Eds.) (1997). What if there were no significance tests? Mahwah, NJ: LEA.
- Wilkinson, L., TFSI (1999). Statistical methods in psychology journals: Guidelines and explanations. American Psychologist, 54(8), 594-604.
2. 這類議題的文章最忌諱將數理事實、應用現狀的事實與個人的「觀點、看法、目標、評價」混為一談。在數理事實層面比較明確,沒有新的內容(或者說有新事實就能發頂級刊物),出問題往往只是因為寫作者缺乏科班訓練。在應用現狀的事實層面就比較麻煩。研究圈內的人講究「有一分證據說一分話、有七分證據不說八分話」,尤其是批評的話語。即使你知道這一圈師生裡頭把口頭的規範倫理(復用樣本禁忌、見機行事加樣本量禁忌、隱匿多重比較篩選禁忌)不當回事的佔大多數,要理中客地形諸筆墨仍然有技術上的障礙。至於個人的觀點看法目標評價,「某某做法是錯誤的」這類話容易說,難的是解釋清楚你認為錯誤的做法為什麼被那麼多同行那麼久地接受。
另外,分享一下最近參加的預答辯集中出現的相關問題:
- 統計結果本身的形式說服力被高估。必須熟悉你的研究結果在與哪些同行的研究結果比對,比對的不是 p 值而是點估計的操作化解讀。如果能出示「疊加個案標示的」概括圖示,說服力將明顯提升。
- 如果研究結論想說沒有效應,要小心寫成「沒有發現效應」,證據不是 p 值大、而是點估計的操作化解讀足夠小。需要自辯與可對比的同行研究,你的樣本量夠大、至少並不特別小;標準誤夠小、至少並不特別大。
- p 值顯著的結果也有必要與同行的研究比對,比對的不是 p 值體現的「毒性」,而是點估計操作化解讀體現的「劑量」。相關係數要平方以後解讀解釋了多少波動性。中介作用,如果前後箭頭標準化以後都不太大,乘積就更小,乘積的平方更容易微不足道。
- 多自由度的 F (分子的自由度)、 操作化意義不容易表述,但是單自由度的 F、 都有對應的 T、Z,比較容易作出「差之差(交互作用)、比例之差、比之比(OR)」的操作化解讀。多自由度通常是因為水平數大於2,限定到兩個水平的時候仍然有可比對的操作化效應量。
此前還回答過一個涉及Power、效應量、置信區間的偏技術性事實層面提問: 如何看待「Basic and Applied Social Psychology」禁用 p 值事件? 鏈接見評論
從統計應用者的角度談談我的觀點:p值暫時還死不了,因為沒有特別優越的替代方案。
這篇文章主要回顧了p值的來龍去脈,討論了基於p值的檢驗在思路上的問題。其實,之前已經有很多人做過類似的批評。在應用領域,基本上每過十年左右,p值就會被拎出來輪一遍,最近一次是心理學爆發了可重複危機,許多高影響力的結果,甚至是教科書級別的結果,都重複不出來。一般認為,對於p值的使用和濫用,正是這場危機背後的原因之一。
如果總結一下,對於p值的常見批評包括:
1.p值提供不了我們想要的信息。一般來講,我們做統計是希望知道研究數據是否符合我們的假設,也就是P(H1 | Data),然而p值告訴我們的卻是P(Data | H0),也就是當虛無假設成立,效應不存在時,得到研究結果的概率。
2.p值對於樣本量太敏感,如果樣本足夠大,那麼即使是很微弱的效應,也能達到顯著。
3.與上一條相關,p值的大小反應不出一個效應到底是大是小,這需要effect size類的指標。
4.人們對於p值存在很多誤解,經常做出錯誤的解讀。
5.基於p值的二分決策(顯著/不顯著)導致了許多研究者進行p-hacking,使用各種不太符合研究規範的做法,比如剔除數據、微調參數、嘗試不同的協變數等等,強行湊出p〈.05。這種做法主要是為了迎合學術期刊對於顯著結果的偏愛,導致了大量的假陽性結果。
在這幾點裡面,第1-3點屬於p值的內在問題,這篇公號文章講的也是這方面的東西。第4點是統計學教育的問題。但是,造成最大影響的其實是第5點,而在這一點上,即使把p值送進了火葬場,我們也沒有什麼更好的替代方案。
比如,有人提倡應該用bayes factor,大於多少或小於多少算顯著。有人提倡應該看effect size的95%置信區間,不包括0就算顯著。但是,一個人以前可以hack p值,現在同樣可以hack bayes factor,hack 95% CI,換湯不換藥。
問題的根源在於,無論統計方法怎麼變,我們都需要對研究結果做出一個二分判斷:到底「有」還是「沒有」結果。於是,我們就會在連續的統計量上切一刀,設定一個主觀的臨界點。然後,圍繞著這個臨界點,就會有許多貓兒膩的東西出來。如果不改變這種二分的思維方式,那麼換成啥值也沒用。
這是一個統計問題,也是一個體制問題,更是一個人性問題。冒昧前來答答。談談個人的理解,不當之處見諒。
事先聲明不討論那些諸多名人軼事,僅從原理上分析。
首先指出原文章中的一些小錯誤:
原圖:
正確的圖:
為拒絕域,為接受域。
當然,如果在原假設和為對立假設的時候,是一樣的。但是一般來講兩種假設從屬於不同的集合域。
其次,對於P值。如果按照Fisher的說法,P值(P value)就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。如果P值很小,說明原假設情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,P值越小,我們拒絕原假設的理由越充分。這個也是很多人一貫的說法,而很多批評P值的人也同樣是持有的是這樣的一個觀點。
下面開始談我的觀點,我認為P值沒有死,且依然有它存在的道理。
首先原文中講到,?檢驗是基於無限總體中抽出的一個樣本,但不論是Fisher和Neyman-Pearson的方法都避免不了一次抽樣的問題,這就要求我們的抽樣本身符合統計學的規律。
其次關於P值和Neyman-Pearson的假設檢驗思想。
第一、
Neyman-Pearson首先給出了檢驗的判斷準則,如果要檢驗的統計量在拒絕域中,則原假設不成立;如果檢驗的統計量在接受域或者保留域中,那麼原假設成立。
同時在這裡面,引入了兩類假設檢驗的錯誤,叫做第一類錯誤和第二類錯誤,這兩類錯誤的概率函數可以用同樣的勢函數來描述,那麼就可以得出犯兩類錯誤的概率的大小。在對兩類錯誤發生概率的探討中,發現了兩類錯誤的概率的反比例關係,也就是說:
犯第一類錯誤的概率α減小時,會導致犯第二類錯誤的概率β增大;
同理犯第二類錯誤的概率β減小時,會導致α的增大。
在這種情況下,一個有效力的檢驗方式(注意:在談論一個檢驗的結果究竟是拒絕還是不拒絕的情況前提情況為是否有效力)為保證α和β都達到一個比較小的程度。
於是,有這樣的控制:
其中與和的關係為:
那麼,為了達到這個控制,我們一般約定顯著性水平為0.05或者0.1。最後,我們根據約定的顯著性的水平,來得出拒絕域的大小(因為拒絕域的臨界值與顯著性水平是函數關係)。
第二、關於P值的問題
這裡有一個觀點,在茆詩松教授編著概率論和數理統計一書中說到,P值的定義為,在一次假設檢驗之中,利用觀測值能夠做出拒絕原假設的最小顯著性水平。
我覺得這句話是有道理的。將P值提出來,則在顯著性的水平上面就可以直接進行顯著性的檢驗,大大的提高了檢驗的效率;通過P值來判斷顯著性,雖然粗糙但是快捷,且並不與Neyman-Pearson假設檢驗相矛盾。若需要進一步的做判定,還是需要進行置信區間的估計。
至於文章中提高的那位仁兄,做了兩次試驗發現P值的結果不一樣,只能說明統計學的結論並不是絕對普世的,好比99%的把握與100%把握雖然只差了1%,但是性質的本質是有差別的。我見到過在一列將近100個的數據中,改動兩個數據就能讓數據的檢驗由顯著變成不顯著。所以嚴格來講,P值的顯著性並不是一錘定音的事情。
上面那個答主已經講的挺好的了,我來加個幾句,歡迎大家指正。私以為如果談科學,就不應該對既定的方法產生完全的依賴。p值沒死,只不過是走下神壇。畢竟事物的發展是一個不斷更新的過程。最近越來越覺得統計學近乎玄學了,在分析結果時得權衡好經驗結論與數據結論之間的輕重。想想也是蠻頭疼的。
不談p值和N-P檢驗,更想說說這個文章。
文章的末尾,參考文獻里,提到了陳希儒先生的《數理統計簡史》。事實上,陳希儒先生有三本非常知名的關於數理統計的出版物,分別是《數理統計簡史》,《數理統計學教程》,《高等數理統計》。這三本讀物由簡至難,《簡史》只需要有高中數學的水平就可以閱讀,而《高級數理統計》,就需要比較好的概率論基礎了。這篇文章名為「P值之死」,它上來先介紹了一個社會學家誤解統計概念的事例,然後闡述了統計學發展的一些歷史。然後就結束了。
所以P值沒有死,文章中也沒有提到P值死了。這只是文章作者為了吸引點擊量做了標題黨而已。會看到這個問題下的回答的,無外乎兩種人,一種是好奇P值怎麼死了的,學過統計的人;一種是沒有學過統計,但是對統計的方法感興趣,或者平時會使用統計作為工具的人。
第一類人看完笑笑就關閉帖子了,而第二類人,未必有幾人能搞清楚其中的脈絡。而對他們來說,誤解統計學的概念,顯然是一件很糟糕的事情。
我的建議是,如果你對這個問題有疑惑,最好的解決方法就是找上面提過的這三本書看看,根據自己的數學基礎選擇一本。如果你平時就要用到統計學,為什麼不一次性把它搞清楚呢?能短短几百個字讓你理解複雜的統計學概念,要麼是你本來就懂了八成,要麼就是你產生了誤解。社會學研究的方案設計,樣本量,結果的可靠性。這些都很難達到科學標準才是主因吧。最常見的就是排除入選標準設的嚴格了就沒樣本量了,就算放寬一點,還是沒有足夠樣本量,受試者的結果也可能有欺騙性,等等。也沒有足夠的資金來保證實驗的可靠性。反正社會學的詢證研究到現在也就是個笑話,自娛自樂。不過至少態度是端正的。
危言聳聽。這個文章講的就是非統計學學者對原理一知半解亂用誤讀p值的老生常談而已。然而,其一這不是統計的鍋,其二非統計既然誤讀p值難道不會同樣對新的工具產生盲目崇拜?
反對上面經濟系同僚對P值的誤解。
結果說不清,錯不在方法。
假設檢驗在實驗科學裡,幾乎可以作為演繹推理的證據,人家有靠得住而又簡明扼要的理論系統,從理論系統能推出預測,然後大家觀察到預測現象,採集數據,數據通過假設檢驗,理論被證明為真。
物理實驗默認的置信度是5sigma。一個物理現象是可以反覆實驗觀察的,如果每次實驗都能得到同一結論,那借數學歸納法的邏輯,理論為真的可能性隨時間增加指數收斂到1,也就跟演繹推理沒什麼區別了。
目前經濟學裡沒有任何一個可以叫做定理或者定律的東西,你拿各種模型去做實證,也還只是經驗歸納。
如果就這樣把觀察的現象如實闡述,不會引起多少爭議。然而經濟學家們不知為何,在此之上還要閉著眼下個結論整個建議,並拍著胸脯說我這是有實證依據的。拿一個模型得出了它根本不可能得出的結論,自然要鬧笑話。
結果就是這種缺乏統計常識的實證研究,在幾代不熟悉統計規範的編輯縱容下,慢慢成為了約定俗成的規範;年輕而又不求甚解只求學歷的研究生照貓畫虎,把這東西一代代擴散傳遞,製造了無數學術垃圾。
被學術垃圾折磨得頭疼的求甚解的學者,免不了多說兩句你們弄這個不對,側重點在「你們」,又被這文章作者誤解成了「這個」。
真是心累= =#高鐵上先灌一個草稿。
關於pvalue的爭論,有點像用菜刀殺人是不是菜刀的錯。
請注意,我不是說用刀子殺人是刀子的錯還是人的錯。這個比喻假設刀子是普適的工具,而pvalue的用處是非常狹窄的。在「刀」前面加個「菜」,意在強調pvalue被濫用的一面。
這個被濫用,也不是phacking這樣的濫用。假設研究者態度特別端正,用pvalue也可能不在其最擅長的範圍。
雖然在可見的將來(先說10年吧),pvalue在社會科學都佔據絕對主流,但是我們也應該知道pvalue的局限。
1. pvalue適合一類錯誤成本&>&>二類錯誤成本的情況。因果推斷(可能)是這樣一個例子。我們寧可少發現幾個真理,也別發現一堆歪理。但是不是所有的統計推斷都有這樣的問題結構。比如,在做一些網站/app的設置的abtest時,(假如原假設是null effect),一類錯誤幾乎沒有成本(本來就沒有區別,隨便選一個都可以),二類錯誤的成本不為0(萬一漏掉一個真提kpi的就傻逼了),因此用pvalue來做*決策依據*是不合理的。
2.即使是一類錯誤成本大大高於二類錯誤成本的時候,pvalue在null effect可能為真時是最有效的。否則,可能出現真實效果越大,pvalue卻越不顯著的情況(需要bayesian式的有限alternative)。
3.即使上面兩個錯誤都沒犯,除非研究人員事先commit一個研究方案,也可能犯多重檢驗的錯誤(Andrew gelman稱為paths of forking gardens)。哪有那麼多事兒,把P值當成原假設下計算出的一個均勻分布隨機變數。它的好壞取決於你的假設的設定,以及檢驗的power。該文批評的不是P值本身,而是對於simple null hypothesis的批評(連續pdf上任何有限個點的概率為0,導致n趨於無窮大時拒絕simple H0概率為1),以及對只看P值不看power的現象。
P值不是萬能的,沒有P值是萬萬不能的。
p值有其與生俱來的缺陷,但是以p值以死為論調,不免有嘩眾取寵之嫌
手機答題我簡要舉個計量經濟學的例子吧。
我們在學習回歸的時候,尤其是univariate case的時候,p值大多用在線性模型的 model selection中。model selection說的簡單一點就是對你估計出的beta或者betas做一個假設檢驗,看它用沒有用或者跟你預期的值一不一樣。那麼在multivariate case的時候p值可能就不太有用。
傳統的t和F檢驗現在依然是empirical的重要方法,人們大多也都在繼續使用,但是傳統的檢驗方法其實在某些方面有著很大的缺點。最直觀的的是,根據定義,他只告訴了你某個估計值的真值落在某個interval當中的概率。這種說法其實是模稜兩可的。
現在已經出現了更好的model selection的方法。比如shrinkage method(lasso family, scad,elestic net 等;model averaging)這些雖然沒有在學界廣泛應用的先進方法我在這兒就不細說了,但是在model selection的領域,尤其是large dimension data里確實要比傳統方法,如p值,更加直觀有效而且直觀。
paper 我就不貼了,說幾個應用範圍,呃,你所知道的 計量里的 parametric model 包括蛋疼的iv selection 基本上都能被應用。占坑。
Frequentist 已死, Bayesian 當立
好吧,我就隨便喊喊離個題而已。
p值反映的信息是客觀的,關鍵在你怎麼看,怎麼用。所謂「p值已死」似乎是建立在對其過分依賴的角度上,這說法沒什麼意義。
做實證驗證的都是必要條件,重要的是選擇合適的方法來排除各個方面的置疑。一個檢驗覺得不夠,多做些robustness check嘛。
有些例子,樣本量那麼小,檢驗的power成問題,顯不顯著意義不大,拿來討論有什麼意思呢。
就是古代的寧可錯殺三千,不可放過一個
推薦閱讀:
※誰能用通俗易懂的語言講解一下什麼是PCA主成分分析?
※6σ 對應的百分比是多少?是不是說人類可以達到的正態分布的極限是 6 個標準差?
※EM演算法存在的意義是什麼?
※最近電梯事故感覺那麼多是不是因為我們特別關注了電梯事故的緣故?