心理學的危機:為什麼超六成的實驗無法重複?

可重複性是科學之所以成為科學的一項重要定義。然而,最近一期科學(Science)雜誌上刊登的一篇論文顯示,研究者嘗試重現發表在三份頂級心理學期刊上的100項研究,結果超過六成無法成功再現。[1]事實上,心理學實驗的可重複性近年來在學界受到了極大的關注,而大量實驗無法復現的現象不僅引發了對這一領域是否存在學術不端的廣泛討論,整個學科的合法性也受到了一定程度的挑戰。研究心理學為什麼需要做實驗?行為科學(Behavioral Science)主要指代研究人或動物行為的學科。而其中,關於人的行為的研究,主要關注人內部或者人與人之間的思維過程及其外顯表現,例如:決策、判斷、人際交流,以及做出行動上的選擇。其中,心理學(為簡化闡述,此處只討論人類心理學)是一種典型的行為科學。學術意義上的心理學並不等同於民間傳說中的「讀心術」或者「面相學」,而是一門以科學手段探索人類認知、情緒、人格與行為的學科。與經濟學、社會學等其他社會科學學科類似,心理學採用定性(qualitative)與定量(quantified)結合的手段。在定量研究方法中,行為實驗(Behavioral Experiment)又是心理學的主要研究方法之一。行為實驗的目的,在於證明因果關係。例如,有些研究需要探明喝咖啡對於人認知功能(如:注意力)的影響。最直接的辦法就是比較喝咖啡的人和不喝咖啡的人在要求集中注意力的任務(如:計算、分類整理資料)上的表現差異。此處,我們將喝咖啡與否稱為自變數(Independent Variable),這代表了我們想要探索的「起因」 (IV),而人在任務中的表現,則被稱為因變數(Dependent Variable),這代表了我們想要探索的「結果」(DV)。這個因果關係如下所示:IV (自變數) → DV(因變數)如果我們想要證明的確是喝咖啡(自變數)影響到任務表現(因變數),必須先行滿足以下三個條件:(1)自變數和因變數存在著時間序列上的關係,自變數的發生應該在因變數之前 (時序定律)(2)自變數和因變數之間存在相關,即自變數的變化也伴隨著因變數的變化(相關定律)(3)在自變數到因變數的因果鏈條中,需要排除其他混淆因素對因變數的影響(排他定律)如何設計一個實驗來驗證這個因果關係呢?我們需要一群實驗參與者,然後把他們隨機分配在兩組中。在第一組(實驗組)中,我們讓實驗參與者喝更多的咖啡。而在另一組(對照組)中,我們讓參與者不喝咖啡。接下來對所有的實驗參與者,我們考察他們在同樣的任務上的表現差異。在這個實驗中,通過人為讓一組人多喝,一組人少喝,再測量他們的任務表現,我們控制了因果鏈條中的時間關係(自變數發生在因變數之前)。而通過比較兩組的任務差異,我們觀察到了自變數(喝咖啡量)和因變數(任務表現)之間的關係。最後,把參與者隨機分配到兩組,則最大可能地降低或平衡了其他因素(如:性別、年齡、飲食習慣)對他們任務表現的影響(排除混淆因素的作用)。心理學實驗中的「可重複性」問題有多嚴重?如上文所述,一個嚴謹的心理學實驗,旨在通過巧妙的實驗設計來驗證自變數到因變數的因果關係。過去幾十年間,一系列精彩的實驗研究,極大地推動了心理學的繁榮與發展。學術研究是一個承前啟後的過程,前人可能會通過實驗發現一些獨特的現象,而後人則會在前人研究的基礎上延伸出一些新的研究想法,這就對前人研究的真實性和可靠性提出了更高的要求。所以,越來越多的研究者希望看到前人的研究可以被重複。畢竟,如果一個研究能被越多人重複,就越證明這個發現的穩健和可靠。近年來,一些研究機構和個體開始向之前發表文章的原作者索要實驗材料,然後試圖在與原作近似的實驗條件下重現前人的發現。然而,不重複不知道,一重複嚇一跳。一系列的重複研究紛紛顯示,不少心理學實驗正在遭遇「不可重複質疑」。網站「開放科學架構」(Open Science Framework)在2013年對心理學中的一些重要效應進行了重複實驗, 結果顯示一些經典的行為決策研究結果具有較穩定的效應,但是一些社會認知領域的經典效應則被發現難以重複[2]。《自然》期刊(Nature)在2015年發表了一篇對於100個發表在心理學期刊上的研究進行重複研究的報告 [3]。結果顯示,只有39個研究很好地重複了前人的發現,而在剩下61個研究中,有部分研究顯示了和原作相似(但不等同)的結果,甚至還有一部分研究結果則與原作幾乎完全不同。除了機構的參與,一些個體研究者也陸續向對前人的經典研究發難,導致一系列曾經讓人興奮不已的研究紛紛中槍。其中最受詬病的領域來自於社會認知中的啟動效應(Priming Effect)和具身認知(Embodied Cognition)。以啟動效應為例,啟動效應指的是人在上一個情境中接觸到的實驗刺激會影響到他們在接下來另一個情境中的判斷和行為。其中一個經典(但又在今天飽受爭議)的例子來自於耶魯大學約翰巴奇(John Bargh)的研究[4]。在巴奇最初的研究中,他們讓實驗參與者先玩一個重新排列打亂的字母以組成正確單詞的任務。其中一半實驗參與者(實驗組)需要重排的這些單詞恰恰可以被用來描述與「老人」相關的情景,而對照組的實驗參與者則排列一些更加中性的單詞。那麼根據巴奇的理論,當人們在玩這個遊戲的時候,相對於對照組,實驗組中的參與者已經在不知不覺中受到這些單詞的影響。接下來研究員要求所有實驗參與者走到一個特定的地方,並同時暗中記錄下他們步行到目的地的時間。實驗結果顯示,實驗組中的研究參與者走得比對照組更慢,說明他們受到了「老人」這個概念的影響。然而近年來,這篇引用率達數千之巨的經典著作卻遭遇了挑戰。其他研究者的一些重複研究陸續發現這一社會認知中的經典效應不能被重複[5]。由於巴奇的這篇論文堪稱是社會認知的經典之作,這一挑戰無疑對社會認知領域產生了極大的衝擊。事實上,對「心理學實驗的可重複性」的憂心甚至延伸到其他採用行為實驗方法的社會學科。自從赫伯特西蒙和卡尼曼開始挑戰經濟學的「理性人」假設以來,行為經濟學成為冉冉上升的明星。在經濟學領域的頂級期刊美國經濟評論(The American Economic Review,AER)和經濟學季刊(The Quarterly Journal of Economics,QJE)中也出現了更多的行為經濟學實驗。而最近加州大學伯克利分校的何德華教授(Teck-Hua Ho)等人就計劃對2011-2014年間發表在AER和QJE上的18個行為經濟學實驗進行重複檢驗,至於結果,就讓我們拭目以待吧。實驗不能被重複等同於學術不端嗎?越來越多的研究者、期刊和媒體開始關注心理學實驗的重複性問題,並有不少人稱之為心理學的道德危機。不過,這一說法本身值得商榷。首先,實驗的無法被重複並不一定等同於學術造假。一個實驗無法被重複,除了學術造假,可能還有其他因素:首先,重複實驗的操作與情景本身可能會對一些研究結果造成影響;其次,參加重複實驗與原始實驗的樣本本身也存在差異;這些不同樣本之間的個體差異(如文化、年齡、經濟水平、教育背景)也可能對實驗結果產生影響,此外,人的進化、社會環境的變化,也可能使那些多年前發現的效應不再穩健。行為科學的最大魅力在於,人和社會都是動態變化的有機體,因此新的理論出現,舊的理論消失或者不再適用,都是有可能的。另一個可能被忽視的情況是,由於近幾年一些社會心理學領域的知名教授被發現數據造假,當「一些人造假」與「另一些人實驗無法重複」的新聞消息同時佔據版面,讀者就往往會自然而然地把兩者聯繫在一起。但事實上,前者是明顯的學術不端,但是如果因此就把實驗無法重複和學術不端等同起來,就很可能犯了心理學所說的判斷謬誤,即誤認為同時出現的兩件事一定是相關甚至是存在因果聯繫的。儘管實驗無法重複並不等同於學術不端,但是這場風波也確實應該讓心理學研究者與學術期刊警醒。例如,為了儘可能減少因為「學術不端」而造成的實驗無法重複,期刊需要採納更加嚴格的審稿體系,要求研究者提交原始數據、原始研究材料以及分析方法。再者,近些年來心理學研究越來越向追求「問題新奇」的方向發展。雖然這會給這一領域帶來更多樂趣和聚焦,但是這種獵奇心一旦過了頭,研究者就可能更多去追求熱鬧,而忽視對一些真正接近人類思維本質的問題的研究。事實上,只有從「搞個大新聞」到回歸踏實做研究,才能催生更多經得起檢驗的研究成果,也才能推動整個學科的前進。從研究的方法論上看,研究者自身也應該爭取在一篇論文中重複自己的結果。現如今優秀的心理學雜誌往往要求4個及以上的重複實驗。而為了進一步證實自己研究的可推廣性和可重複性,研究者應該考慮在一篇文章中融入多種情景(更替實驗材料)和多種方法論(實驗室實驗、真實生活中的田野實驗、二手數據、甚至是像經濟學一樣的理論模型),這本身也是一個自我檢驗和取信於人的過程。總而言之,儘管心理學實驗的可重複性問題對心理學造成了巨大衝擊,但是這本身並不意味著心理學的危機或者末路,反而為這一學科的規範化和嚴謹化提供了方向。而對於心理學研究者而言,最應該保持的態度還是「清者自清」,拋開那些浮華但是經不起檢驗的議題,去真正探索值得研究的基本理論問題。[1] Science 28 August 2015: Vol. 349 no. 6251 aac4716[2] Investigating Variation in Replicability: A 「Many Labs」 Replication Project https://osf.io/wx7ck/[3] First results from psychology』s largest reproducibility test http://www.nature.com/news/first-results-from-psychology-s-largest-reproducibility-test-1.17433[4]Bargh, J. A., Chen, M., & Burrows, L. (1996). Automaticity of Social Behavior: Direct Effects of Trait Construct and Stereotype Activation on Action. Journal of Personality and Social Psychology, 71(2), 230-244.[5]Behavioral Priming: It"s All in the Mind, but Whose Mind? http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0029081
推薦閱讀:

銷售秘籍---久贏真經(實戰銷售心理學3) _ 挺的專家文章_總裁網
芭比公主背景是什麼?
如何從牛角尖里出來,心理學角度解釋人為什麼會鑽牛角尖?
讀《WOOP思維心理學》

TAG:心理學 | 實驗 | 心理 | 危機 |