心理學的七宗罪4:靠不住啊(Unreliability)

And its this type of integrity, this kind of care not to fool yourself, that is missing to a large extent in much of the research in cargo cult science. 在邪教般的科學研究中,我們缺少著有勇氣有心不去欺騙自己的正直。 --- Richard Fynman, 1974

在聊心理學之前,讓我們來想想,什麼樣的科學靠得住呢?可重複的科學靠得住。

Replication is the immune system of science.

一項發現能成為科學發現,或者說一個效應(effect)能被科學家肯定,是因為它有一個很重要的特質:它具有可重複性(reproducibility)。又或者說,我們有針對這個發現或效應的多個成功的複製(replication)。

我們可以再次拿牛頓和蘋果的例子來說。

牛頓被蘋果砸過一次不算,要被砸到很多次才算。在家裡的蘋果園被砸到不算,要在世界各地的蘋果園都砸到才算。在早上九點被砸到不算,要一天24小時都被砸過才算。重力才成為一項科學發現,而不是物理學家的意淫。

靠不住的心理學 (The Sin of Unreliability)

那麼,我們如何審視心理學的靠譜程度呢?那當然就是看心理學的實驗可重複性大不大了。

在Center for Open Science 元科學隊伍的組織下,一群心理學的開拓者科學家開展了為期數年的複製實驗。他們選取了發表在三個著名期刊的100項實驗,並嘗試複製其結果

結果發現,

從p值和effect size效應量看,複製實驗都無法成功重複原始實驗的結果。(也可看本文封面圖)

原始實驗和複製實驗的p值

原始實驗和複製實驗的效應量

原本97%顯著的實驗,只有36%的複製實驗也是顯著的(這裡的顯著我們可理解為p < 0.05)

原始實驗p值和複製實驗p值的對比

這就是心理學臭名昭著的可重複性危機,Replication Crisis

既然現在我們知道了很大數量的心理學實驗和/或理論並不靠譜,我們承認了問題的存在,下一步便是找問題的根本

靠不住的原因

在統計學中,我們知道有兩類錯誤

α:H0(null hypothesis)為真的時候,卻接受H1(alternative hypothesis)為真/拒絕H0為真,即假陽性

β:H1為真的時候,卻接受H0為真/拒絕H1為真,即假陰性

下面我將會提到的兩個原因,分別和這兩個錯誤相關。

1 缺少直接的重複性實驗

在科學或者心理學發展的長河中,直接的重複性實驗是至關重要的直接的重複性實驗指的是,通過複製一模一樣的實驗(同樣的實驗設計,同樣的變數設計,同樣的刺激物等),來嘗試重複原始實驗的結果。這也是前面提到的重複性危機項目用的方法。

令人失望的是,由於各種原因(接下來會說),在心理學科研社區中,直接的重複性實驗會忽略,不鼓勵,甚至禁止,而概念性重複性(conceptual replication)實驗就被實施。概念性重複性實驗並不一板一樣的複製原始實驗,而是嘗試用另外一個實驗,來確認把從原始實驗中提取的定理或者效應

比如,一個重力的直接重複性實驗就是,在別家的蘋果園被蘋果砸,而一個重力的概念重複性實驗就是,假設重力真實存在,如果我從樹上用力往牛頓頭上扔蘋果,比起蘋果自己掉下來,牛頓的頭會更痛。。

可以從這個例子看得出來,這種重複性實驗準確來說也起不到複製的作用,因為它實施的前提是:假設XXX真實存在。它已經起不到對某個理論的挑戰或考驗(challenge)目的了,而是驗證、確認(confirm)。靠概念性重複性實驗建立的科學或心理學,無異於在沙上建房子,靠不住啊。這個靠不住,和α相關。一個無法驗證的理論,便是當我們錯誤的接受了一個H1為真,但是H0才是真的

那麼,再退一步說,為什麼心理學界拒絕做直接重複性實驗呢

其一,有不少科學家認為,直接重複性實驗是缺少創新的行為

的確,科學研究本質是一件非常有創新性的事情。當我們發現新的定理規律或者效應的時候,也的確是非常令人興奮的。但是,如果一個實驗的結果的發生純粹是幸運,純粹是某個概率的發生,也就是說,無法被複制被重複,那麼這個所謂的定理、規律、或者效應就是不存在的。倘若蘋果只能從一棵樹上掉下來,那麼重力就不存在了。我們作為科學家,必須有挑戰自己的勇氣和理智。儘管照葫蘆畫瓢的重複實驗並不是這個世上最原創最刺激的事情,但是這是我們需要的,科學需要的。

其二,在心理學的七宗罪 1:偏見(Bias)中有提到,心理學界建立在「publish or perish」的獎賞機制中。年輕的科學家依靠發表文章來增強學術成就,而期刊多有發表偏見(publication bias)--- 期刊雜誌偏好於發表顯著,positive effect的研究,不喜歡接受不顯著,null effect的研究;喜歡發表原創有意思的,證明已有理論的研究,不喜歡發表重複性實驗研究。於是心理學家也漸漸的養成不做直接複製性實驗的壞習慣。

2 統計功效過低

統計功效,即Statistical power和β錯誤有關。統計功效指的是在假設檢驗中,H1(alternative hypothesis)為真時,正確地拒絕H0(null hypothesis)的概率,或者,1-β。統計功效可以告訴我們,當H1效應存在的時候,我們基於一定樣本數量,探測到效應的概率

心理學第一人把統計功效過低的問題帶入一眾心理學家視野的是Jacob Cohen. 1960s,他收集了所有來自三期Journal of Abnormal and Social Psychology的文章,發現了,對於中等效應量,只有48%的power,對於小效應量,只有18%,即使是偏大的效應量,也只有83%. 自此之後,大量關於統計功效的調查都得出一致的結論:統計功效過低

50%的統計功效和p值的關係,來自:http://daniellakens.blogspot.com/2014/12/observed-power-and-what-to-do-if-your.html

為什麼呢?

因為心理學有個壞習慣:太在乎α錯誤卻忽略犧牲了β錯誤

就像上面討論到的,缺少的直接的重複性實驗和α錯誤相關,而統計功效過低和β相關α錯誤還有有希望被直接的重複性實驗糾正的(儘管我們缺少這類重複性實驗),由於發表壓力,或者發現H1的壓力,一些「H0為真」的理論或效應就不會再被追求,導致β錯誤被糾正的幾率幾乎為零。而絕大部分發表的實驗研究都非常努力的想把p值降到0.05以下(心理學的七宗罪3:靈活的數據(Hidden Flexibility)),但並沒有通過功效分析(power analysis,可以用於計算給定效應值時所需的最小樣本數),嚴謹計算需要多少被試(sample size/ 樣本量)才能得到需要的效應量。取而代之的,大部分學者用的是前者成功檢驗到H1為真的的樣本量。

假設在一個發表的實驗中,觀察到的p值是0.05(圖a),你想實施直接的重複性實驗(direct replication),並且打算用一模一樣的樣本量,此時(圖b)你的實驗只有50%的統計功效,也就是說,你的實驗只有50%的概率探測到H1的存在(前提是H1真實存在);如果你想要得到更大的功效,比如80%,你需要更大的樣本量(圖c)。

殘酷的現實就是其實大部分所謂「顯著」的發表的結果(心理學的七宗罪3:靈活的數據(Hidden Flexibility))都只是剛剛好小於0.05,所以Cohen發現50%的統計功效是很符合邏輯的。

然而,更殘酷的現實是,大部分學者壓根沒想著實施直接的重複性實驗(direct replication),而是直接跳到概念性重複性實驗(conceptual replication),這樣子就直接避開了power analysis的問題。

3 實驗方法沒有誠實交代

寫過論文的同學大多知道有一個部分叫做「實驗方法」/ Method,而這部分存在的其中一個重要意義就是,方便後人重複你的實驗。當然了,這裡的重複實驗指的是direct replication。

在心理學的七宗罪3:靈活的數據(Hidden Flexibility)我們便討論過,為了增強顯著,把p值降到0.05,很多科學家會漏conditions

4 數據分析沒過關

其實並沒有人可以保證每個心理學家都對自己使用的數據分析方法了如指掌,很多時候會由於對數據分析的錯誤使用,有心的或無心的,導致不應該顯著的效應變得顯著。當然,這裡我們就指的是Frequentist statistics,或許NHST,null hypothesis significance testing了。

詳細請見:

Frequentist vs Bayesian 1 之 為什麼心理學可以是科學:p<0.005?

Frequentist vs Bayesian 3: p 值的9個認識誤區

解決方法?

現在,我們認識到問題的存在,知道了問題存在的原因,我們就要對於的找問題解決方法了。

針對缺少直接重複性實驗和統計效應的問題,這是一個有關學科文化的問題,所以這種大型的改變,it takes a village,需要所有人的努力,尤其是起決定作用的心理學家和期刊。

E.J 和 Birte Forstmann (兩個心理學界大佬)發起一個運動,鼓勵期刊發表重複性實驗的論文,無論結果如何,顯著與否

Perspectives on Psychological Reports 也發起了一個相類似的運動,叫做Registered Replication Reports,鼓勵心理學家們一起合作做重複性實驗,只要是通過初審的項目就可以被發表,無論結果如何,顯著與否。

這兩項運動同時也嘗試限制期刊的發表偏見

針對NHST的問題,推行Bayesian Statistics。

詳細有關Bayesian: Frequentist vs Bayesian 2 之 不,是你的貝葉斯

Open Science 註定是一個漫長的過程。我相信誠實和正直是每個心理學家都想要主動做的事情,但是改變整個心理學科學研究氛圍,改變大家做科學的方式,改變大家處理數據的方式,不僅需要心,還需要力。這是一個需要不斷學習的過程。但是改變正在發生著, open science is the future of science。

只要你想,你就可以成為我們一份子!

Welcome to join Open Science Club !

Sharon

2017年11月11日

Reference:

Open Science Collaboration. (2012). An open, large-scale, collaborative effort to estimate the reproducibility of psychological science. Perspectives on Psychological Science, 7, 657-660. DOI: 10.1177/1745691612462588

Open Science Collaboration. (2014). The Reproducibility Project: A Model of Large-Scale Collaboration for Empirical Research on Reproducibility. In V. Stodden, F. Leisch, & R. Peng (Eds.), Implementing Reproducible Computational Research (A Volume in The R Series) (pp. 299-323). New York, NY: Taylor & Francis.

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251). Doi: 10.1126/science.aac4716

Jacob Cohen, "The Statistical power of abnormal-social psychological research: A review," Journal of Abnormal and Social Psychology 65, no.3 (1962): 145, dx.doi.org/10.1037/h004.

Katherine S. Button, John P. A. Ioannidis, Claire Mokrysz, Brian A. Nosek, Jonathan Flint, Emma S. J. Robinson & Marcus R. Munafò, "Power failure: why small sample size undermines the reliability of neuroscience", Nature Reviews Neuroscience 14, 365–376 (2013), doi:10.1038/nrn3475

推薦閱讀:

如何評價羅文益10月23日的知乎live——通識路徑的閱讀參考?
心理學的七宗罪2:數據貯藏(Data Hoarding)
錢琨 的 Live -- 認知心理學(二):如何更好地記憶
漢語對人的表達和思維方式產生了哪些特殊影響?
我好奇人們為何好奇:計算認知科學視角

TAG:OpenScience | 认知心理学 | 认知科学 |