Frequentist vs Bayesian 1 之 為什麼心理學可以是科學:p<0.005?

我將為你分享我對於心理學的看法:為何心理學可以是科學。而恰巧近期心理學最勁爆的新聞就和這個問題密切相關:一群大佬建議把p值從0.05降到0.005 osf.io/preprints/psyarx

請聽我細細說來。

############################################################

自從我大學本科選了心理學作為專業,如此熟悉的對白不斷發生:

--「你讀什麼的」

--「心理學」

--「哦」 「哎,那你猜猜我在想什麼」

--「......」

誠然,很多人把心理學和心理諮詢、心理治療聯繫在一起。更多人從來不會把心理學和科學聯繫在一起。Why?

心理學是科學么?

科學有數個特徵(客觀,可證偽等),而一項發現能成為科學發現,或者說一個效應(effect)能被科學家肯定,是因為它有一個很重要的特質:它具有可重複性(reproducibility)

牛頓被蘋果砸過一次不算,要被砸到很多次才算。在家裡的蘋果園被砸到不算,要在世界各地的蘋果園都砸到才算。在早上九點被砸到不算,要一天24小時都被砸過才算。重力才成為一項科學發現,而不是物理學家的意淫。

假設,牛頓做了60次實驗,其中59次被砸到了,其中一次蘋果掉到一半的時候被狗吃掉了。

這個時候,牛頓需要怎麼做呢?直接把59次被砸到的當做是證據,信號(signal)而直接把那一次被狗吃的當做噪音(noise)而視而不見么(這種行為叫做cherry-picking,采櫻桃,日後的文章會討論到)?當然不可以,這在學術上是不道德的行為。所以,此刻牛頓需要做得是對收集到的數據進行數據分析。

其中一個分析方法就是計算p值。相信這個大家並不陌生。我們從本科就被教育把p設成0.05。要是計算出來的p值比0.05小,就說明這個效應顯著從而存在和正確。比0.05大,就說明這個效應不顯著從而不存在或者不正確

但是,很多人其實並不清楚p值的真正含義和正確解讀方式。有一定數量的心理學學者,盲目使用p值,發表了假陽性(false positive)的研究成果。日積月累從而造成這幾年心理學臭名昭著的可重複性危機(replication crisis)。也因此心理學越發不被人認可是科學。

於是,這就把我們帶到一個持續了幾十年的討論:我們是否應該繼續使用p值?以及最近轟動心理學界的論文:重新定義是否顯著的界限---把p的界限從0.05降到0.005。

你真的懂p值是什麼?

現在我嚴肅的問你一個問題:到底什麼是p值?

p值是:假設效應並不存在(null effect),你收集到了你收集了的數據的概率是多少。

也就是說,假設重力並不存在,有多大的概率,牛頓做了60次實驗,其中59次被蘋果砸到,而一次被狗吃了。

所以,p值並不能告訴你,一個理論存在與否的概率,而只能告訴你,在這個理論是錯的前提下,你的數據+你有可能收集到但是沒收集到的更加極端的數據(long run/ fequentists)的概率。

如果牛頓計算出來的p值非常小,這並不能說明:重力存在的概率非常大,而只能說明,如果重力不存在,還能被蘋果砸到59次,這個事情非常不可能發生

聽起來很拗口是吧?是的。p值並不能直接驗證理論而是通過驗證數據而對理論做出無為的推斷。這個本質特性成為了p值的軟肋而被一眾科學家抨擊(日後討論到貝葉斯數據分析

Bayesian Statistics 我會詳細說明)。因此,為了解決,至少減緩心理學重複性危機,72個大牛聯合發了一篇論文:讓我們把p值界限從0.05改成0.005吧!

把p<0.05改成p<0.005有意義么?

osf.io/preprints/psyarx

把p值界限從0.05改成0.005是什麼意思呢?套用之前提到的p值的概念,這個意味著:假設效應不存在(nulleffect),必須你收集到這個數據的概率小於0.005,才可以說這個效應顯著。換句話說,它把顯著與否的標準提高了。牛頓要被蘋果砸多很多次才可以說重力是存在的。

那麼問題來了,這個建議可取么?有意義嗎?真的能夠解決可重複性危機嗎?

誠然,把顯著與否的標準提高之後,一部分假陽性的研究成果不會再被認可。但是這個問題是雙面的。這同樣意味著一部分真實存在的效應被人否定(false negative,假陰性)

其次,p值不夠低並不是p值的根本問題。前面提到過,p值之所以被很多學者嫌棄是因為它本質假設效應不存在(null effect),必須你收集到這個數據的概率小於0.005,才可以說這個效應顯著個效應是否顯著的心理學學者,也許根部不了解p值的真正含義

(謹慎使用p值,數據統計只是工具並不是信仰)

或者了解但是運用p值來作弊從而發表論文。比如之前提到過的cherry picking.

當然也有人認為至少這個降低p值界限的提議能減輕問題嚴重性:

(如果有司機開車技術很爛,經常發生交通事故,人們提出降低限速。雖然並不能解決根本問題:這個司機開車很爛,但是的確能減少事故的發生。)

接下來有人接話反駁

(可是當司機以為沒人看到的時候還是會超速。況且如果降低限速,高速公路上全部都是蝸牛,誰都哪裡都去不了。這樣有意思嗎?你知道怎麼樣開車才會安全嗎?監控,司機主動誠實地分享數據,證明給保險公司看他們是有駕照的好司機。)

(所以,要不我們降低限速/降低p值界限(然並卵,因為仍然會有人找到方法超速/作弊),要不我們提高科研透明度和教育質量。)

此時Jeff Rouder 大神發話

收了這些人的駕照/把這些人全部趕出實驗心理學!

所以,心理學是不是科學?為什麼?

為何心理學可以是科學?

我認為心理學可以是科學。因為我。因為你。因為堅持誠實做心理學的學生,導師,和教授。

數據是數據。數據不會騙人。騙人的是人。

  • 做實驗之前網上登記一下,把實驗設計邏輯,樣本數量,收集完數據做的分析全都一五一十說清楚 aspredicted.org/
  • 既然p值好用但是有問題,那就謹慎使用。不對數據做絕對性判斷(binary judgement)。
  • 收集完數據,整理過後公佈於眾(Open Science Framework: osf.io/
  • 如果你發現了非常有趣的現象,再做一次看看能不能重複得到相同結果(reproduce, replicate)

此時必須表白一下我老闆:

(我從來不相信不可重複或尚未重複的實驗結果(包括我自己的)。)

SC

2017年8月14日


推薦閱讀:

當我們相信不該相信的事情時,我們在相信什麼?
問題生成 (Question generation):AI與認知科學
什麼是一流的科學研究?--千禧年的諾貝爾獎,神經科學大師坎德爾
食色性也之1:食 --- 味覺
精英思維,到底是怎樣的思維?

TAG:认知心理学 | 认知科学 |