南方周末--多數心理學研究不可信
「不要相信你所讀到的每一篇心理學文獻。事實上,大約有三分之二不應該被採信」。《自然》雜誌在報道中如是說。但心理學並非惟一遭遇嚴重的可重複性難題的學科,例如癌症生物學就是另一個類似的領域。
看到跟老齡有關的詞後,年輕人走路的速度會放慢。這是心理學家約翰·巴赫(John Bargh)在1990年代初的一個發現,它也成為了「啟動效應」的一個經典實驗。然而,在二十年後,想要嘗試重複該實驗的心理學家卻發現,他沒有辦法得到相同的結果。
這個例子常常被用來表達人們對心理學領域的一種擔憂:可能有大量的實驗是重複不出來的。至少在直覺上,心理學家們自己都覺得文獻中的陽性結果太多了。1959年,一名統計學家研究了四份主要的心理學期刊上的文章,發現其中97%都報告了統計學上顯著的陽性結果。1995年,這名統計學家又做了一次統計,發現情況依舊。另一項研究顯示,在自然科學的各個學科里,心理學得到陽性結果的可能性是最高的,而空間科學最低;前者是後者的五倍。
陽性結果太多很可能並不是一件好事。在科學研究的邏輯中,如果一組科學家能做出某個結果,那麼其他科學家在相同的條件下也應該能做出同樣的結果;假如沒有人能重複出來,那麼負結果也是有意義的——它們有可能證偽某些結論。這形成了科學的一種自我修正過程。一個學科中存在大量的陽性結果,但很少看到負結果,可能說明它的自我修正能力存在問題。
重複實驗1990年代末,當布里安·諾塞克(Brian Nosek)還在耶魯大學攻讀心理學博士的時候,他就對方法學很有興趣。他的課程中有一些來自1960年代和1970年代的文章,其中提到了實驗的可重複性所受到的挑戰。諾塞克驚訝地發現,幾十年過去了,那些當年被提出來的問題並沒有得到多少改善。
「一個缺失的信息是,就(心理學研究的)可重複性問題的大小給出最終的、經驗性的證據。」諾塞克對南方周末記者說。
僅僅從理論上推測心理學研究所遇到的可重複性問題是不夠的,諾塞克想要真正地去驗證它。「我們認為,如果我們能夠以足夠多的樣本量來重複我們心理學領域中的發現,那麼我就能為爭論做出貢獻。」他說。
於是,從2011年開始,已經在弗吉尼亞大學工作的諾塞克與一批志同道合的心理學家一起,開始了他們的浩大工程。他們選擇了三本心理學領域內的頂級學術期刊,然後嘗試重複這些期刊在2008年發表的每一項實驗。
這些心理學家盡最大努力還原原作的實驗條件,他們也儘可能地與原作者協作,在他們的指點之下來完成那些實驗。畢竟實驗中往往有一些技術性的細節是沒有呈現在論文中的。
諾貝爾獎獲得者、心理學家丹尼爾·卡內曼(Daniel Kahneman)在2014年提出,重複性實驗應該有四項操作規範:(1)在重複實驗準備操作前(即收集數據前),重複實驗者應向原作者告知重複實驗的細節和準備工作,包括實際操作的方法和實際操作涉及的刺激物;(2)原作者應在規定的時間內(最好為1個月)回應並評價改進重複實驗者的重複試驗;(3)重複實驗者可自行選擇是否接受原作者的改進方案,但需要重複實驗者解釋原因並詳細介紹最終的重複實驗方案細節;(4)整個溝通過程將被記錄,用於對雙方立場的合理性的評價以及檢驗。
這種嚴格重複前人實驗的做法在心理學中是不多見的。心理學家所做的往往是「概念性重複」。比如巴赫發現年齡相關的詞讓人走路放慢,那麼會有另一名心理學家做一個實驗,發現手裡拿著較重的筆記板的人,對待面試者時會更認真。做後面這個實驗的心理學家認為這個新的實驗進一步證明了「啟動效應」的存在。一部分心理學家認為,概念性重複的作用是提供更為強大的證據證明一個效應的存在。
然而,另一些心理學家認為,這種做法所帶來的問題是,如果概念性重複並沒有得到陽性結果,那麼它並不會否定原始實驗。換言之,如果後一組心理學家發現手持較重的筆記板沒有讓人對待面試者時更認真,那人們也不會認為這個實驗在概念上否定了啟動效應。這就成了一個「雙重標準」——只能證明,無法證偽。
諾塞克和同行們在過去幾年裡一共嚴格重複了98個實驗,其中有兩個實驗分別做了兩次,因而他們一共做了100次實驗。其中只有39次重複是成功的。所有原始實驗中,有97%報告了顯著效應,而諾塞克等人的重複實驗中這個比例只佔到36%。英國《自然》雜誌在報道這一結果時說:「不要相信你所讀到的每一篇心理學文獻。事實上,大約有三分之二不應該被採信。」
諾塞克說,他們的研究結果並不能說明特定的原始實驗是否成立,因為原始實驗可能有問題,重複實驗也可能存在問題,或者兩種實驗都沒問題卻在研究方法的關鍵部分出現差異。但是,有了這個經驗性證據,諾塞克認為心理學家此前擔心的狀況被證實了,心理學文獻中的確存在大量經不起驗證的報告。
2015年8月28日,美國《科學》雜誌發表了諾塞克等人的研究報告。英國《自然》雜誌在報道時,引用同行心理學家的話表示,由於諾塞克檢驗的是心理學領域的頂級期刊,這些文章是質量最高的,那麼如果將其他水平的期刊考慮進來,可能有超過80%的研究結果是重複不出來的。
為何無法重複一個在心理學家之間流傳的說法是,心理學實驗的可重複性比其他自然學科要低。「我也聽到過這種說法,但是我並沒有看到在可重複率方面將心理學與其他學科做比較的直接證據。」諾塞克對南方周末記者說。
「然而,做重複實驗的驅動力在不同學科中都是低的。」諾塞克繼續說,「研究人員因為生產出新穎的、創新性的結果而獲得獎勵,並非因為重複前人的研究結果。所以,研究人員在壓力下去強調創新,這可能是以犧牲可重複性為代價的。」
數年前,諾塞克的博士生馬特·莫泰(Matt Motyl)對意識形態很感興趣,他做了一個實驗。莫泰找了將近兩千個人,這些人在政治觀點上有中立的,也有極左和極右的。在實驗中,這些人會看到不同灰度的英文單詞,他們需要選擇每個單詞的灰度是多少。然後研究人員會判斷他們的準確度有多高。莫泰發現,政治上極端的人,他們看到的顏色也是「非黑即白」的——他們並不會像中間派那樣看到更多層次的灰色。
這個發現讓莫泰非常興奮。如此新穎和漂亮的結果發表出來,對他事業的幫助是不言而喻的。然而,由於種種原因,諾塞克的實驗室對這個實驗進行了一次直接的重複。他們又測試了另外1300人。然後,莫泰所發現的「非常顯著」的效應消失了。
「我們他媽的為什麼要重複這個實驗?!」這是研究組的第一反應。儘管重複出的結果並不代表原始實驗一定不成立,但畢竟有了這一出之後,審稿人會猶豫是否允許論文發表。並且,實驗室的所有人都知道了這件事,他們也就不好當做什麼都沒有發生而繼續去發表論文了。
研究者們判斷一個效應是否存在的重要依據,是統計學中的P值。最初,莫泰得到的P值是0.01,這通常代表「非常顯著」;重複實驗時,P值則只有0.59,而一般認為只有當P值低至0.05時效應才是顯著的。本質上來講,P值的作用是衡量一個效應能否歸因於隨機結果。其發明者的本意與今天使用中的實際作用是並不相同的,而且P值並不能回答一個關鍵問題:一個假說為真的幾率有多大?
在實際的操作中,研究者有許多方法來「裁剪」他們的數據和分析,最終讓P值達到0.05左右。有學者注意到一個有趣的現象,心理學有大量的論文所報告的P值聚集在0.05左右,這被懷疑是人為「釣魚」的結果。
心理學研究中有太多意想不到的和微妙的因素能夠左右實驗結果。重複實驗時,受試者的不同可能導致結果不同;或者重複實驗的人在技巧上有欠缺也會導致重複不出來。甚至於,像房間顏色這樣很可能根本不被察覺的細節都能夠左右實驗結果。
「心理學研究對象具有特殊性。相比於其他學科,只有心理學是以自身問題為研究對象的,心理的內隱性、複雜性和人類研究自身問題的局限性,為心理學研究設置了其他學科無法遭遇的困難。心理學兼具自然科學與人文科學特性,生理、認知、發展、人格與社會、臨床、教育、工業與組織、軍事、犯罪司法、體育運動、藝術與創新等五十餘種心理學研究的細分領域所面臨的困難各不同,其可重複性也有所不同。」南開大學心理學教授周詳告訴南方周末記者。
「科學是一個不斷減少不確定性的過程,任何與可重複性偏低相關聯的不確定性都無法阻止人類對自身奧義的探索與解讀。」她繼續說,「與其對心理學研究非理性迷信或全然不信,更建議讀者有條件地相信,面對抽象結論,嘗試追溯原文(包括諾塞克這篇《科學》雜誌上的原文),依據原始報告的情境與限定進行謹慎的有條件的解釋、傳播及外推應用。識別與擺脫標題黨的誘惑,也正是成熟讀者的科學素養以及社會文明整體進步的表現。」
學術自省除了大學教授的身份之外,諾塞克還是一個名為「開放科學中心」的非營利性組織的執行主任。他最新的關於心理學研究可重複性的研究就是在該中心的框架下完成的。中心所建立的開源網站讓科學家和學術期刊有機會更加透明地協作,並改進可重複性問題。
在他看來,心理學領域並非唯一遭遇嚴重的可重複性難題的學科。癌症生物學是另一個類似的領域。「開放科學中心」正在進行一項十分相似的研究,來檢驗癌症生物學領域的可重複性。
「諾塞克等人的工作體現出互聯網時代下的科研工作的協同範式。」周詳評論說,「諾塞克領導的『開放性科學協作』,可以承擔多實驗室重複實驗項目,促進科研工作的眾包眾籌和協同創新的實現。」
不管怎樣,周詳認為諾塞克等人的研究「是心理學科的學術自省風潮的產物之一,必然促進學科的健康發展」。「國外學者由於觀察到心理學科研結果的高陽性比率和期刊的審稿與報道偏差,正在開始矯正型的學術自檢活動。重複性研究是其標誌之一。」周詳繼續說。
在中國,一些心理學家正採用另一種路徑來改善心理學研究。例如,復旦大學心理系教授張學新與同行發起了學術期刊的「公評」審稿制度,他們正在創辦由多個高校共建的雙語期刊《中國心理學家》(Chinese Psychologist)。這份期刊所發表的科研報告將在網上做公開評審,所有人都可匿名登入,對稿件進行批評;作者也可以與評論者在網上展開交互討論。
「科研進步是原創與重複權衡的結果。」周詳說。諾塞克的研究發表在《科學》雜誌上,已經在科學界引起很大關注,普林斯頓大學的社會心理學家貝琪·帕拉克(Betsy Paluck)預計,這將帶來關於科學操作與出版的更為廣泛的討論。
推薦閱讀:
※南方周末:中國會為不讓生二胎(計生)後悔
※南方人物周刊專訪崔永元:我要拍案而起(圖)
※北方經濟落後的原因?
※我在北方的陰天里大雪紛飛,你在南方的艷陽天里短袖齊飛
※郝志東:也談美國如何處理「民族」問題(南方周末 2009-11-19)