Improving your statistical inferences第一周:p值是什麼?

註:Improving your statistical inference是荷蘭 Eindhoven University of Technology心理學研究者Danial Lakens在coursera上開設的一門公開課,目的是為了增加心理學研究者對心理學研究中常用統計的理解。本次補第一周的內容。

你對p值的理解嗎?讓我們來測一測:sojump.com/jq/11122468.

第一周的內容主要是兩個方面:1、對課程的介紹以及如何算成績;2、三種不同的統計取向;3、頻率主義(frequentism) 統計中p值;一類錯誤和二類錯誤。第一點就不說了,因為這個課已經結束了(有可能會再開,請關注,據說中文字幕正在準備之中)。下面就講第二點和第三點。

開始講之前,Daniel明確了一點:為什麼我們要去認真地學習統計推斷?原因可能如下:

這一點很重要,而且往往會被我們所忽略,雖然Feynman在1974就已經提醒過我們了,但今年Nature News仍然再次說到我們人類認知偏差(cognitive bias)對於研究可重複性的影響:nature.com/news/let-s-t

另外,在現在心理學的研究中,從在數據與理論之間,需要統計來進行連接 (當然,統計在科研中扮演重要角色的歷史也不算非常長,可以看看the lady tasting tea)。

第一課的重點之一:心理學研究中可以使用的統計取向有三種:頻率主義統計(frequentism statistics)、貝葉斯統計(Bayesian statistics)和似然率(Likelihood Ratio,這個翻譯我拿不準)。這三種取向的統計分別回答的問題:「我應該怎麼做?」 「我應該相信什麼?」以及「相對的證據是什麼?」 頻率主義統計實際上回答的問題是:"長此以往,我們的行為會是怎麼?」 因此,對於我們當前的這個檢驗,它其實沒有提供任何的信息(一臉懵逼啊)。貝葉斯統計考慮的問題則是:當前的數據會如何改變我們先前的信念。似然率則只是單純地計算出當前數據在兩種假設下的可能性,看他們的相對而言,誰更可能是正確的。由於似然率是相對的證據,因此即便兩個假設都是錯的,也有可能一個比另一個可能性更大。這三種統計方法之間並不相互衝突。

介紹完了三種統計的取向之後,Daniel開始先介紹頻率主義的統計,實際上就是我們常用的基於p值的統計。p值無疑是現在科研中使用最多的一種統計方法(比如心理學中至少有95%以上的實驗是使用p值作為統計推斷的基礎的),它也是有優勢的:

當然,也有一種解釋是說,我們之所以大量使用p值是因為不懂貝葉斯統計(嗯,這個理由我服)。

p值本身的含義到底是什麼(拋開各種檢驗的原理不說)? 它是當你假定沒有效應時,當前數據有多大的可能會出現。而我們人為地規定一個值(比如心理學中的0.05,物理學中的0.0000003),假如p值小於這個值,我們就論文認為:如果假定沒有效應,當前的數據太奇怪了,因此可能是有效應的。

由於p值是我們假定沒有效應(假定H0為真)時,出現當前數據模式的概率,所以我們不能根據p值推斷出H0為真的概率。因為以H0為真作為條件時,當前數據模式的概率,不等於以當前數據模式作為條件,H0為真的概率。

p> 0.05也不能說明沒有效應,有可能是效應比較小,需要更多的樣本才能檢測出效應。所以其實當p > 0.05的時候,能夠提供的信息非常少。但是由於p值本身的分布也有一定規律的,所以單個研究的p值即便不顯著,它從某種程度上也可以為科學做貢獻:將它納入到元分析中很重要。

從頻率主義的角度來講,一次實驗並不能證明太多的東西,而是當作從無數個實驗中的一次取樣,所以一個研究的結果是否顯著,從長遠的角度來講其實都是有貢獻的。

在解讀p值時,需要注意的另一點是,p值是關於數據在我們假定沒有效應時的概率,而與理論無直接關係,所以不能為理論提供直接證據。

當效應真正存在(即H1為真時),p值的分布依賴於統計檢驗力;當效應不存在時,p值在0-1之間均勻分布(不管實驗有多少被試)。這一點在第三周中講得更加詳細:zhuanlan.zhihu.com/p/23

第一課里最後的內容是一類錯誤與二類錯誤。這兩個概念可能是在心理統計學中最經常出現的。

aphla : H0為真時出現顯著結果的概率 (一類錯誤率、假陽性)。

beta: H1 為真時出現不顯著結果的概率(二類錯誤率、假陰性)。

1-beta: H1為真時出現顯著結果的概率(統計功效,statistical power我之前一直翻譯為「統計檢驗力」,看來翻譯的術語使用也要謹慎)

有意思的是,在這個課中,對於一類錯誤和二類錯誤還有一些模擬。

比如,如果H0和H1各有50%為真,如果把alpha 設定為5%,把統計檢驗力設定為0.8 (也就是1-beta = 80%),你做一個實驗,出現各種結果的比例是多少?

所以最有可能出現的結果是真的陰性結果 (47.5%)。

如果把統計檢驗力提高到99%呢?

這時真的陽性結果出現的可能性才會略高於真的陰性結果。

同樣,如果aphla水平或者H0與H1為真的比例發生了變化,各種結果出現的比例也會相應的變化,比如如果H1有90%的可能為真而H0隻有10%:

這時,真陽性的比例大大提高了!

考慮到假陽性與假陰性,在實驗中我們要對它們以及現實的因素(財力物力和時間)進行權衡。當然這個權衡的前提是,你要了解你自己是如何在控制這個因素,保證你從長遠看來,沒有欺騙自己。

第一課的課後練習,主要是通過R來畫p值的分布,以及一類錯誤率和二類錯誤率會如何隨著我們的統計檢驗力(1-beta)、效應量(H1為真的可能性)和aphla水平的變化。了解這些,可能才明白為什麼我們需要進行統計檢驗力的分析:因為低統計檢驗力的實驗中,假陰性可能比我們預想的要高。


推薦閱讀:

如何科學的解釋我這段詭異的經歷?
幫別人忙,總是感覺被利用?這些忙我該不該幫??
為什麼說「你幫過的人不一定幫你,幫過你的人一定會再幫你」?
都是同齡人,心理年齡怎麼會相差這麼多?
心理學的七宗罪6:象牙塔里的學術

TAG:心理统计 | 心理学研究方法 | 心理学 |