獨家調查|心理學研究「可重複性」危機,真相是什麼?

封面圖來源:NYMAG.COM

文|施佳鑫

● ● ●

重複100項刊登在心理學頂級期刊的研究,結果只有36%的實驗結果得到重現。去年8月,一個名為「開放科學合作」(The Open Science Collaboration,簡稱OSC)的科學家團體在《科學》雜誌上發表了這一結果,引起了心理學界乃至整個社會科學界不小的震動。

OSC的270個科學家成員來自世界各地,他們選取了心理學頂級期刊《心理科學》(Psychological Science)、《人格與社會心理學》(Journal of Personality and Social Psychology)和《實驗心理學雜誌:學習、記憶與認知》(Journal of Experimental Psychology: Learning, Memory and Cognition)在2008年發表的111項研究進行重複,最終完成了其中100項。原有的100項實驗中,有97項得到了統計顯著的效應,而在他們的重複實驗中,僅有36項統計顯著。此外,83%的重複實驗的效應量(Effect Size, 因變數和自變數的關聯強度的指標)都小於原研究。這項研究的發表引發了關於心理學研究「可重複性危機」(Reproducibility Crisis)的廣泛討論。

然而,今年3月,哈佛大學心理學教授Danial Gilbert、政治學教授Gary King、博士研究生Stephen Pettigrew和弗吉尼亞大學心理學教授Timothy Wilson在《科學》雜誌上撰文指出,這項研究存在諸多問題,他們認為OSC的研究並不能說明心理學研究存在「可重複性危機」。根據他們的分析,36%的重複成功率並不低,相反,這一結果表明心理科學研究的結果可重複性很強。

1.哈佛團隊的質疑

首先,Gilbert等人的文章質疑OSC的研究在對100個心理學研究的取樣上存在問題。Gilbert表示,「他們的取樣是帶有傾向的、武斷的,他們排除了許多心理學分支學科,許多心理學研究採用了極為嚴謹、科學的研究方法,但它們都被排除在外。OSC甚至讓實驗操作者自己選擇重複哪個實驗。如果他們用這樣隨意的抽樣方法來研究人,沒有一家有聲譽的學術期刊會錄用它。」

除了抽樣的問題,Gilbert等人的文章主要從三方面來質疑OSC的研究:誤差(Error)、解釋力(Power,正確評估實驗成功率的指標)和偏誤(Bias)。

重複一項實驗需要從研究對象中重新抽取樣本,考慮到抽樣上可能產生的誤差,統計學上認為5%及以下的重複失敗率是可以容許的。在原有的100項研究中,97%得到了實驗者預期的效應,OSC考慮到抽樣誤差,於是認為在重複失敗率不應超過8%,並把8%作為衡量標準。Gilbert等人認為OSC低估了實際的失敗率,因為除了抽樣誤差,還有其他誤差。

有些實驗在重複時樣本選擇和原有實驗不一樣,例如一項原實驗測試了美國人對非裔美國人的態度,OSC在重複時的研究對象是義大利人,而義大利人對非裔美國人的刻板印象和美國人很可能不同。

另外,OSC的許多實驗過程也背離了原實驗。一項研究讓兒童在一塊屏幕上做「定位目標」的任務,而OSC在重複時選取了年紀較大的兒童,任務更簡單,所用的屏幕更大。可以想像,不嚴格遵循原有實驗步驟,很可能得出不一樣的結果。考慮抽樣誤差的同時也應考慮其他可能帶來誤差的因素,Gilbert等人重新計算了統計學可以容忍的重複失敗率,得到的結果是34.5%,而非OSC認為的8%。

Gilbert認為OSC的研究第二個問題在於分析方法的選擇,因此引發「解釋力」的問題。OSC的通訊作者Brian Nosek曾參與另一項名為「多實驗室」(Many Labs Project,簡稱MLP)的重複性研究項目,在這個項目中,研究者們讓36個獨立實驗室各自重複了16個心理學實驗,把所有數據匯總再進行統計分析,得到重複成功率為85%。而OSC的研究對100項實驗只重複了一遍,Gilbert等人認為這種方法導致了對重複實驗成功率的低估,如果MLP也採取OSC那樣的計算方法,成功率只有34%。

最後,Gilbert等人的文章認為OSC的研究帶有一定偏誤。OSC在重複一項原有研究時,通常會詢問原作者他們的重複是否嚴格遵循了實驗規程,而有31%的重複實驗沒有這一步驟,Gilbert等人認為有這一步驟代表重複實驗的「忠實度」較高,其餘的則較低。他們比較了高忠實度重複實驗的成功率(59.7%)和低忠實度重複實驗的成功率(15.4%),發現前者是後者的4倍。如果因沒有嚴格按照原有實驗而引起的誤差是隨機的(同等機會增大或減小成功率),高低忠實度的重複成功率應該接近,而不是如此懸殊。所以,Gilbert等人認為OSC的研究帶有一定的偏誤,這種偏誤導致了他們的對實驗結果重現成功率的低估。

2.OSC對質疑的回應

OSC的成員之一、荷蘭埃因霍芬理工大學的心理學教授Daniel Lakens在博客上表示不接受Gilbert等人的批評。他認為,Gilbert等人計算出來的34.5%的失敗容忍率已經高到足夠說明心理學研究的「可重複性危機」。他還表示,這樣的評論被刊登出來,很可能是由於《科學》的評論板塊沒有很好的同儕審查機制。

實際上,在《科學》雜誌刊登Gilbert等人評論的同一期,也發表了OSC的回應,他們認為,「統計上的誤讀和對數據的選擇性解讀造成了Gilbert等人對心理學研究可重複性的樂觀評估」。OSC在回應中寫道:「基於OSC的重複性實驗數據,樂觀或是悲觀的結論都有可能,但沒有一方是確切可靠的。」

OSC在回應中稱,沒有哪個重複性實驗能夠做到跟原有實驗一模一樣。他們認為,重複性實驗應該建立在原有的理論基礎上,所設定的實驗條件應該預期和原實驗獲得一樣的結果。「如果重複的結果不一樣,則應該考慮擴展假設並檢驗為何會不一樣,如果重複結果一樣,則重複的研究為原有研究結論的推廣提供了一定的證據。和我們所重複的那些實驗一樣,我們的研究也只提供了初步性的證據,並不是決定性的。」

OSC的另一位成員、荷蘭蒂爾堡大學社會和行為科學教授Marcel van Assen接受了《知識分子》的採訪,他表示Gilbert等人的評論並沒有改變他對OSC研究的看法。雙方的一大爭論點是,重複的實驗究竟多大程度上忠實於對原有的實驗。Assen說:「重複實驗應該儘可能和原實驗接近,我們都同意這一點。我只能說,在這一點上OSC團隊已經儘力了。」

此外,Assen認為Gilbert等人沒有解決一個重要的問題:如果誤差是由於社會情境或者研究設計的差異引起的,重複的時候實驗效果既可能增強也可能減弱,而原有的99個研究在重複時,只有17個是實驗效果增強的。這很可能是由於「發表性偏誤」(Publication Bias)——研究者們常常為了發表而只報告統計上顯著的結果,而忽略那些不顯著的結果。Assen承認OSC的分析以及結論的得出有不完善之處,許多學者也開始重新分析OSC的數據,「到現在為止,所有分析都表明原有的實驗相比重複實驗更加顯著,這也暗示了發表性偏誤的存在。」Assen說。

Assen承認,Gilbert等人的批評讓他認識到,在重複一項研究時,應該更加小心地設計,儘可能讓重複實驗和原實驗相同,這比他原來想像的難。此外,他認為挑選研究進行重複時,應選擇那些具有大樣本,以及統計顯著性較強的研究,在這樣的情況下,重複的實驗不顯著才更能說明問題。

3.重複性研究重要嗎?

儘管OSC的研究存在較多爭議,但不少科學家都認為重複性研究十分必要。美國俄勒岡大學的心理學家Sanjay Srivastava在接受《知識分子》採訪時表示,重複性研究對於任何一門科學來說都是重要的,因為它讓我們辨識出那些最值得信賴的研究結果。Gilbert也認為重複性研究在科學研究中是一個重要的部分,「針對既有研究的元科學(Meta-Science)研究也僅僅是科學研究,所以『正確』地做可重複性研究要求遵循科學研究的規則。」Gilbert說。

評論文章的第二作者Gary King在接受《哈佛大學校報》採訪時說,「無論你的研究對象是人,還是既有的研究,都必須遵守所有科學研究的規則,包括抽樣、計算誤差以及不告知實驗者研究假設等。元科學也同樣不能免除這些束縛,違反了科學的基本規則,就會得到錯誤的結果。」

在Gilbert看來,如果讓他來做重複性研究,他會在各個心理學分支內抽樣,或者把研究對象限定在所抽樣的分支中。他說,「我不會讓實驗者們自己來選擇重複哪項研究。我會讓所有重複性研究儘可能地忠實原有的研究,把那些不忠實的剔除掉。這些都會讓我的研究變得很難,但這是完成研究目的所必須的。」

4.心理學研究出現問題了嗎?

Srivastava對此議題的態度較為樂觀,他認為,得益於技術的發展,重複性研究變得更加容易,也正因為如此,重複性議題相比以前顯得更加重要了,他舉例,「雲計算和網路技術能讓我們把宏觀的、數據密集的重複性研究項目做得更好。」他也不認為當下的心理學不夠「科學」,「任何一個科學領域都需要讓它的方法和它所研究的現象相適應,如果心理學變得像物理學,物理學變得像心理學,那麼,兩者都會變得很糟糕。」

牛津大學的神經心理學家Dorothy Bishop對此事也頗為關注,她在博客上寫道,「當前媒體把焦點集中在『可重複性』這一統計術語上,是因為許多爭論點都和統計相關,但這會讓人們忽視了更加基本的問題,那就是心理學是否存在問題。」在Bishop看來,如今的心理學的確存在問題,但她否認心理學比其他使用統計推論的學科差。Bishop分析了為什麼現在的心理學研究可重複性較差,而這些也正說明了當下心理學所存在的問題。

首先,Bishop認為現在的心理學研究內容和過去已經大不相同。早期的心理學關注的內容相對來說不那麼細枝末節,她相信早期的許多心理學理論是經得起重複的,比如「系列位置效應」(Serial Position Effect,指人們在記憶時更容易記住開頭和結尾的內容)。很重要的一個原因是心理學家們常常會做一系列實驗來更好地了解早期的這些心理學理論的適用條件,而這個過程本身也是一種重複研究。

還有一種可能是因為類似於「系列位置效應」這樣能夠明顯觀察到的效應都已經被研究過了,現在的心理學只剩下對細微的效應的研究。如果樣本數太小就很可能錯把偶然出現的顯著效應當成是真的效應,為了避免這種情況,需要用大樣本來證明細微的效應,而現在的心理學研究基本還是沿用了相對不具有說服力的小樣本。

除了效應不明顯外,現在的心理學效應還容易隨社會情境(Social Context)改變。某個心理學效應可能在一定的社會情境下適用,但一旦情境發生一點改變,就不適用了。Bishop認為這與其說是問題,不如說是心理學研究的機遇,心理學家們可以通過改變實驗條件,來更細緻地理解某個心理學理論的作用機制。Srivastava也認為,儘管心理學存在著普遍適用的理論,但也有相當多的理論只適用於一定的社會情境,為了搞清楚某個理論究竟是適用於全人類,還是只適用於一定人群,心理學家們需要在不同社會情境中檢驗一個理論。

Bishop還批評了當前許多心理學家過分迷信P值(是否統計顯著)的現象,她認為如果變數足夠多,以及研究者熟練掌握各種統計方法,就很容易出現因為偶然而造成的統計顯著。「現在只要點幾下滑鼠就可以得到統計結果,這使得許多研究者只關注於那些顯著的變數,而忽視理解內在的聯繫,這樣就很容易造成虛假的顯著效應。」Bishop說。去年12月,《心理科學》(Psychological Science)和美國心理學協會(American Psychological Society)共同宣布將致力於改善心理學研究的可重複性,作為具體舉措之一,前不久《心理科學》雜誌聘用了6位統計學專業背景的顧問,這些顧問的職責主要是檢查文章中所用的統計方法是否合理。

Gilbert同意心理學有許多問題還未解決,「從頭等的問題(關於人類行為的什麼問題是最重要的)到細微末節的問題(應該如何計算效應量)都存在著問題」。但他認為問題並不等同於危機。「科學是一個人們朝著真理跌跌撞撞前行的過程,路上的曲折在所難免」,他說,「心理學在過去一個世紀取得了巨大的進步,下一個世紀也將同樣如此。英語裡面我們常說『進兩步,退一步』,我們在進步的同時也可能退步。有的人認為我們的心理學沒有問題,有的人認為我們儘是問題,我認為兩個觀點都不對。心理科學是奇妙的,而且它每天都在進步。」

參考文獻:

1.Gilbert D T, King G, Pettigrew S, et al. Comment on 「Estimating the reproducibility of psychological science」[J]. Science, 2016, 351(6277): 1037-1037.

2.Anderson C J, Bahník S, Barnett-Cowan M, et al. Response to Comment on 「Estimating the reproducibility of psychological science」 [J].Science,2016,351(6277): 1037-1037.

3.Meet Psychological Sciencea€?s New Statistical Advisors

4.deevybee.blogspot.com/2

(責任編輯 陳曉雪)

知識分子,為更好的智趣生活。

關注請加微信號:the-intellectual或長按下方二維碼。投稿、授權事宜請聯繫:zizaifenxiang@163.com。


推薦閱讀:

十部反科學主題幻想代表作(下) | 鄭軍
如何評價著名的學術釣魚事件「索卡爾事件」?
漫畫 | 這種能讓你在太空上網的新儀器,居然靠的是電子搞基!
John·B·Goodenough:讓不夠好的世界變得足夠好
又一出「自編、自導、自演」的民科戲碼

TAG:知识分子 | 心理 | 科学 |