Improving your statistical inferences第二周(2):貝葉斯方法

註:Improving your statistical inference是荷蘭 Eindhoven University of Technology心理學研究者Danial Lakens在coursera上開設的一門公開課,目的是為了增加心理學研究者對心理學研究中常用統計的理解。本次補第二周的第二部分內容。

你對p值的理解嗎?讓我們來測一測:你理解p值和置信區間?

第二周的第二部分內容是貝葉斯統計。貝葉斯統計(Bayesian)最近幾年應該說是越來越火,當然在心理學研究中,絕大部分人還是使用頻率主義的做法。正如我們在第一周的內容里說的,有一種玩笑:之所以用p值是因為不會貝葉斯。從某個側面說明了貝葉斯統計並不是那麼容易。還好Daniel給我們提供了一個比較友好的入門。

貝葉斯最突出的一點是:有一個先驗的假設(或者信念, prior belief)。如下圖,貝葉斯的主要思路就是根據通過先驗假設和數據,將實驗者的假設進行更新,成為後驗的假設/信念。視頻中舉的例子是:擲三個次硬幣,都是正面朝上。面對這個信息,一個從來沒有見過擲硬幣的嬰兒可能就相信擲硬幣都會得到正而朝上的結果;而你我這樣能來學習統計推斷的人,則會不得到這樣的一個信念。差別在哪裡?在於我們的先驗假設。

更加具體一點,可以這麼寫:

那麼在二項分布中,先驗假設一般是一個beta分布,這個分布有兩個參數:alpha 和beta。這兩個值不同的,我們會得到很不同的分布:

使用貝葉斯的原則,我們得到數據之後可以根據數據對先驗假設進行更新,在Beta分布中,這個更新非常容易:

至於為什麼是這樣,Daniel沒有講,我也不太懂,我就假裝它就是這樣的吧。假定我們的先驗是:完全不知道擲硬幣時出現下面的概率分布是怎麼的,於是我們的先驗是均勻分布,一條直線。擲了10次硬幣之後,發現了6次正面朝上。這時,更新之後後驗看起來就不一樣了:

上圖中,灰色的是先驗假設;藍黑線則是根據數據進行更新之後的。由於先驗假設沒有提供任何的信息,所以這裡的後驗信念與前面講的似然率是一樣的,都是由數據本身所決定的。

但是,如果先驗的假設是有信息量的,則貝葉斯的後驗假設會與似然率分離:

上圖仍然是擲10次硬幣出現6次正面朝上。但我們一個先驗假設(灰色),根據數據的似然率(藍色虛線),我們得到了後驗信念(黑色的實線)。

貝葉斯的方法的用途之一是進行假設檢驗,不過與似然率比值相似的是,貝葉斯統計的假設檢驗也是相對比值。在視頻中,Daniel將貝葉斯假設檢驗的統計指標之一 —— 貝葉斯因子(Bayes Factor)解釋為後驗與先驗的相對比值。同樣以上面的數據為例子,當我們的先驗假設不同,即便我們得到了相同的數據,最後得到的貝葉斯因子也會有所差異:

貝葉斯的另一種用法是估計(Estimation),也就是根據先驗假設和數據,來估計出最可信的值。這個估計出來的結果稱為credible interval,可信區間。有意思的是,當先驗的假設不一樣時,估計出來的可信區間也非常不同:

左圖是先驗的假設沒有信息量時(均勻分布),右圖的假設則是認為硬幣是有偏的,更有可能出現正面。

從這兩個圖中可以看出來,貝葉斯的統計的一特點是通過數據來更新信念,隨著數據的不斷收集,我們有會越來越接近真值。

講完貝葉斯統計的基本思路之後,Daniel在第三個視頻中進一步講了貝葉斯的思維(Bayesian thinking)。這課里講的是貝葉斯統計里通常會舉的例子:一次醫學測試的結果是陽性,有多大可能是真的是患病了?

比如,一個醫學測試,它的Sensitivity (true positive) 為80%,Specificity (true negative)為 87%;而流行病學的調查表明,它的患病率為3%。

如果你進行一次測試,發現結果是陽性的,這個時候你患上這個疾病的概率是多少?根據貝葉斯公式,可以進行計算:

P(患病|陽性)= P(患病&陽性)/P(陽性) = P(陽性|患病)*P(患病)/(P(陽性|患病)*P(患病) + P(陽性|沒患病)*P(沒患病)) = 80%*3%/(80%*3% + 13%*97%) = 0.159。

所以這個可能性是相當低。

隨後,Daniel介紹了一個圖,可以將P值與先驗假設結合起來,不用通過貝葉斯的計算,就能得到一個大約的估計:

不過本人推薦大家使用JASP這個軟體,可以很容易地進行貝葉斯的假設檢驗。

第二周的作業基本上是練習似然率和貝葉斯統計的一些內容,對於加深對這視頻中講解的內容非常有幫助。


推薦閱讀:

質性研究比起定量研究會更多依賴研究者本人的研究經驗么?

TAG:心理统计 | 心理学研究方法 |