八成論文需深究? 腦科學上空的不確定性陰雲<div></div>

06-10

Ingfei Chen 發表於昨天13:03 （Alulu/譯）約翰·約安尼季斯（John Ioannidis）與我見面時正值下午4點，但他的眼下已深刻著疲憊的痕迹。過去幾天里，他旋風般地造訪了20個歐洲城市，舉辦演講、與同事們開展頭腦風暴，被時差折磨得精疲力竭。我發現他的辦公室角落裡放著兩個形狀奇怪的包，用於收納他的運動裝備——擊劍中的重劍。對於這位言語溫柔的教授來說，擊劍這一愛好和他的形象頗為相符——他正是一位追尋科學真相的聖騎士。

約翰·約安尼季斯（來源 tufts.edu）

約安尼季斯靈活掌握著兩大武器：統計學邏輯，外加對證據的嚴格審視。在此之前，他曾對製藥公司主持的臨床試驗發起挑戰，直指其中各種關於藥物及其他治療方法的虛假論斷。而現在，他的目光轉向了大腦。針對神經科學研究的批評隊伍日益壯大，他作為其中一員猛將，舉證了諸多研究的設計、分析及報道方式中存在重大缺陷。我們常能在報紙頭條讀到這樣的研究，它們一邊亮出大腦快照，一邊號稱發現了「愛」、「恐懼」、「信仰」和「政治」的神經機制，而約安尼季斯對此敲響了警鐘。事實證明，在這些五顏六色的大腦掃描圖像里，有相當一部分不過是海市蜃樓，掩蓋了人類大腦的真實活動圖景。更嚴重的是，這些問題不僅僅是個別誤導性新聞報道的專利。從探索基因與單個分子活動，到尋找大腦結構與精神疾病之間的聯繫，整個神經科學界上空都懸掛著大大的問號。「目前，絕大部分文獻都不足以令我信任。」約安尼季斯說道，他是加利福尼亞州斯坦福大學醫學院的一名流行病學家。在一片擔憂聲中，我們對大腦的認識似乎註定將在充滿不確定性的疑雲中灰飛煙滅，你還會看到，大眾媒體中越來越多的評論員開始痛擊「神經科學狂熱（neuromania）」。不過，我們仍須牢記過去一百年間神經科學領域取得的進步。儘管約安尼季斯和同事們得出的結論毫不留情，使得我們有理由重新審視既有的知識體系，但是，他們的觀點理應激發出更多更具成效的努力，揭示大腦的奧秘。「神經科學正在持續前進。」美國國家心理健康研究所（National Institute of Mental Health, NIMH）的克里斯·貝克（Chris Baker）如是說。隨著迷霧散去，更多模糊的理論終將明晰起來。儘管在很久以前，「思想的起源問題」就已讓哲學家絞盡腦汁，不過，直至1991年功能核磁共振成像（functional magnetic resonance imaging，簡稱fMRI）技術騰空出世後，人類這才引燃了與神經科學的一段熱戀。fMRI的本質在於研究大腦中的血流，活動劇烈的腦區對應著更大的血流量。研究者利用不同的測試來考察人類的各項能力，譬如視覺、感覺、記憶和思維，在被試完成這些測試任務時，fMRI掃描可以得到代表大腦神經活動的亮斑。人們很快就被這些彩色影像所深深吸引。然而，瞬時的神經活動能否揭示複雜的認知活動及行為背後的機制？一直以來，針對這一問題的質疑未曾斷絕，但反對的聲音並未引起公眾的注意。直到2008年下半年，加州大學聖地亞哥分校的心理學家愛德華·沃爾（Edward Vul）與哈羅德·派希勒（Harold Pashler）發表了一篇評論文章，文中提到，大量fMRI研究結果將一些行為或性狀指向某個或少數幾個特定腦區的活動，這些結果可信度極低，二位作者也曾受其矇騙。仔細檢查完53篇此類研究論文之後，沃爾和派希勒等人得出結論，其中有一半的結果不值得信任。這些研究通過「具有嚴重缺陷」的方法得出了「好得令人不敢相信」的結果，二位作者大膽地將之戲稱為「相關性巫毒（voodoo correlations）」。重複提取要想理解個中緣由，首先你需要知道的是，一次典型的全腦fMRI掃描可以得到100,000個又名「體元（voxel）」的三維像素點，對於分析工作來說，這個數據量可謂相當龐大。研究者們利用專業軟體來尋找被特定認知活動「點亮」的一簇簇體元——譬如讓被試觀看圖片、從而激發他們的共情或情緒反應。困難在於，真正的信號常淹沒在體元中的隨機波動中，後者就像一台天線沒調好的電視機顯示的雪花點。fMRI軟體努力將這些雜訊濾除，但軟體畢竟不能創造奇蹟，許多區域顯示出的活動升高仍將是隨機波動所導致，雜訊的影響終難避免。理想情況下，腦成像研究者應該使用兩套掃描結果。其中一套掃描結果將用於尋找在實驗中被強烈激活的體元。鎖定目標區域後，再利用第二套掃描結果對之進行專門檢查，以確定這些反應不是隨機波動，最後一步才是測量激活區域的大小。但是，派希勒和沃爾發現，許多研究者並沒有遵循這一法則，而是錯誤地在兩次分析中使用同一套數據，如此一來，隨機雜訊的效應被放大，看上去就像與行為反應及特質存在相關。這種「重複數據提取」的行為讓研究者得出的結論貌似激動人心，實為草率倉促，其中就包括不少關於人格特質起源的過簡之論。例如，神經質（neuroticism）就被歸因為大腦內一對杏仁狀區域（學名為杏仁核）的活動增強，而杏仁核已知與恐懼等負面情緒有關。確定該問題已在學界泛濫後，貝克和NIMH的同事們對2008年期間5種頂級期刊發表的所有fMRI研究進行了檢查。共計134篇論文當中，有42%犯下了「重複提取」的錯誤(Nature Neuroscience, vol 12, p 535)。貝克的研究團隊指出，類似的方法學錯誤在動物單神經元放電及遺傳學研究里同樣普遍存在。不過，以上兩篇評論文章都沒有推翻這些問題論文得出的大體結論。「並不是說所有的結果都是無效的，」貝克在談及這項工作時如是說道，「但讓人對其可信度產生了懷疑。」「相關性巫毒」一文引發了一場來回往複的大辯論。爭議的起因之一在於，沃爾和派希勒在文中指明了他們批評的對象，一些學者認為這太過咄咄逼人。「給人感覺不大愉快。」奧斯丁德克薩斯大學的fMRI專家羅素·波德拉克（Russell Poldrack）說道，不過，他還是承認，文章吸引了大家的注意。「我認為，如果這篇文章措辭更溫和一點，就不見得能有這樣的影響力了。」「我們有話直說，而且帶著幾分玩樂的心理。」派希勒說道，毫無後悔之意。他承認說，因為自己和沃爾均不從事腦成像研究，他們無需擔心將來的論文發表或基金申請是否會受到阻礙。紛爭平息後，許多fMRI研究者意識到，批評者的核心論點是正確的。如今，相關性巫毒和重複提取現象逐漸變少。與此同時，德克薩斯大學的認知神經科學家塔爾·雅克尼（Tal Yarkoni）說，越來越多的學者認為，把複雜的人格特質歸因至像杏仁核這樣的個別腦區的想法到底還是一個「白日夢」，根據目前的主流觀點，人格特質與「大量腦區複雜的交互作用」有關。在研究者們奮力彌補方法漏洞的同時，另外一些質疑開始湧現，這回的問題同樣致命。2012年，密歇根大學（University of Michigan）的一項令人大跌眼鏡的研究表明，一個fMRI實驗可以用將近7000種方法分析，而得到的結果可以是大相徑庭的。既然有了這樣的靈活度，神經成像研究者會不自覺地（或是故意地）依照最有利於產出結果的方法來進行數據分析。一項存心挖苦人的研究報道稱，若採用錯誤的分析技術，即便是一條死三文魚放進掃描儀，得出的結果也能讓三文魚的大腦看上去像是在「思考」一樣。2013年5月，約安尼季斯發表了一篇振聾發聵的文章，他於文中指出，現存問題遠比幾項不完美的fMRI實驗來得深遠。他與英國布里斯托爾大學（University of Bristol）的實驗心理學家凱瑟琳·巴頓（Katherine Button）和馬庫斯·穆納佛（Marcus Munafo）等人合作，對48篇綜述文章進行了分析，這些綜述文章以阿爾茨海默病與慢性疼痛等神經疾病的致病風險因素與治療方法為主題，深度討論了共計730項實驗。實驗涉及了多種研究手段，包括認知功能檢測、基因測序及臨床試驗。約安尼季斯的團隊對其中每項研究的「統計功效（statistical power）」進行了估計，該指標反應了研究有多大幾率檢測到了真實存在的效應。他們得出的結論是殘酷的。研究的平均統計功效約為20%，很大一部分原因在於實驗使用的被試量太小，即使數據通過了標準的統計檢驗，也不足以得出可靠的結論(Nature Reviews Neuroscience, vol 14, p 365)。換句話說，有4/5的研究可能錯過了真實存在的生物效應或機制，從而得出錯誤的陰性結論。但這並不是故事的全部。低統計功效帶來的不確定性打擊是雙重的：你不僅可能錯過眼皮底下的事實，而且「如果你的確找到了一些看似顯著的結果，這些結果有很大的概率是假陽性的。」約安尼季斯說道。對於研究大腦解剖構成的結構核磁共振成像（與功能核磁成像不同，後者關注的是時刻變化的神經活動）研究來說，形勢更為嚴峻。在大腦結構異常與精神疾病（如抑鬱症或自閉症）之間尋找聯繫的研究當中，平均的統計效力只有可憐的8%——也就是說，92%的研究未能找到真實存在的新發現，而且有相當一部分研究檢測出了虛假的陽性結果。數據挖掘約安尼季斯與同事們進一步考察了fMRI研究及神經疾病相關動物實驗中存在的偏倚現象，他們發現，與許多研究領域一樣，神經科學研究論文傾向於報告陽性結果，其比例超過了應有的預期。其中原因部分在於，學術期刊較少發表陰性結果的研究。不過，約安尼季斯告訴我們，還存在另外一種可能，那就是「數據挖掘」——研究者們遍歷各種數據拆分方式，有選擇性地進行分析，不製造出利於文章發表的結果就誓不罷休。要想知道具體某篇論文結果的正誤以及問題文章的數量，就必須重複所有的實驗，通常人們不會選擇這樣的做法。但是，根據自己在其他研究領域的經驗，約安尼季斯認為，在當下已發表的神經科學論文當中，絕大部分都可能是錯誤的。「神經科學面臨著極其嚴重的問題。」他說道。這一毀滅性的的評論意味著什麼？首先要明確的是，它並沒有否定一切。能夠經受時間考驗的結論是值得信任的，而且約安尼季斯並未對教科書上關於大腦解剖結構和功能的經典論述提出質疑。譬如，大腦布羅卡區（Broca』s area）中風受損後，病人的言語功能出現明顯的障礙，因此，我們可以肯定，該腦區與語言的產生有關。此類效應極其顯著，即便在為數不多的人群中進行研究，也能顯現出明確的效果，而且能被多條證據共同驗證。然而，面對那些更新的研究發現時，我們或許應當留個心眼，而不是急於全盤接受。考慮到神經科學家們研究的對象極其複雜，涉及認知任務、行為或人格特質背後的加工細節，這種態度就顯得更有必要了。這些精細的加工機制很難量化，另一方面，因為大腦活動的模式太過模糊，要想將真正的信號從背景雜訊中剝離出來，註定需要收集海量的數據。不出意料，儘管有許多神經科學家同意約安尼季斯的核心結論，他還是刺痛了不少人的神經。很多人的顧慮在於，約安尼季斯的言論太過危言聳聽。譬如，波德拉克就十分擔心他的觀點會「演變為一種全球性的極端懷疑主義，使得人們把整個神經科學領域看作一派胡言。」當然，這種說法並無道理。許多fMRI研究的成果經受住了時間的考驗，例如短時記憶提取的任務總能激活前額葉，以及海馬會在睡眠期間保持活躍，可能與記憶鞏固的過程有關。「如果每次在做出新成果後不久就會發現它其實不可靠，我是不會堅持做科研的。」波德拉克說道。他還補充說，儘管問題確實存在，「我們當中許多人都在盡己所能地解決這些問題。」但是，一些研究者擔心，如果政府受到誤導，可能會縮減神經科學實驗室的經費，從而扼殺那些具有革新性的研究。至於約安尼季斯，他堅持認為，要想維持大眾對科學的信心，信息透明是最好的方法。「我不喜歡把事情藏著掖著。我更樂於發現問題、解決問題。」他還為神經科學領域存在的諸多病症開出了一劑處方。例如，在探索微弱的、難以被檢測的效應時，若想增大統計功效，最顯而易見的方法就是加大被試量，譬如開展嚴謹的多中心研究（multi-centre studies）。另一方面，對於一些課題來說，如果你從單個被試身上收集到了足夠多的數據，少量的被試同樣能夠產出可靠的結果。然而，在fMRI研究中增大被試量並不容易，因為儀器使用費可高達每小時500美元。不過，將研究經費分配給少數的大規模項目或許是一種更合理的行為。另外一種解決方案是，鼓勵腦科學家們將實驗數據公開，並嘗試重複他人的研究發現，從而排除掉一些假陽性的結果。例如，2010年，波德拉克和幾位同事創建了一個網上fMRI開放項目（Open fMRI Project），研究者可以將收集到的原始數據上傳，讓其他研究者對這些數據進行重分析，以驗證他們的結果。然而，重複實驗是一項沒有回報的工作，因為沒有研究者會因為立場正確或核實他人研究成果而獲得升職——只有發表令人感興趣的新結果才能帶來榮譽。如果神經科學家們不管怎麼做都深感步步艱難，遺傳學研究領域的發展經歷或能提供一些鼓勵，後者在十年前遭遇了同樣的困境。當時，該領域內湧現出一大批小規模研究，鼓吹某個特定基因在疾病和人格中的作用。而現在，隨著大型研究的開展，外加數據報道和分享渠道的持續規範化，當年僅有1%可重複率的遺傳學研究現如今已具備了90%的信度，約安尼季斯如是說。目前，幾個大型領頭項目已經開始克服困難、接受挑戰。以投資4千萬美元的人類連接組計劃（Human Connectome Project）為例，來自十數個研究機構的神經科學家正在建立一個描繪大腦神經環路的精細圖譜。他們利用fMRI和一種名為「彌散成像（diffusion imaging ）」進行大規模——被試量為1200人——掃描，所得數據將全面公開。項目承諾，它將以一種迄今為止最先進的方式，向人們呈現大腦解剖結構對思維和行為的影響。搭建橋樑與此同時，啟動在即的「腦計劃（BRAIN Initiative）」項目將獲得美國政府提供的總計1億美元的經費。該項目旨在開發用於探尋大腦精細環路的新技術，尋求單神經元研究與大尺度fMRI腦圖之間的聯繫。相關任務既涉及對現有技術的反思及改良——如能夠讓人用光脈衝控制神經元活動的「光遺傳學（optogenetic）」方法——也包括發明全新的技術。這一切努力或示意著一個新時代的到來，人類終於能夠切實領會大腦的複雜性。加州大學伯克利分校的傑克·賈蘭特（Jack Gallant）指出，該領域中尚有海量的寶藏等待我們去發掘，只要我們將目光投向全局。目前人們就像在用一台劣質顯微鏡觀察大腦——部分原因在於，研究者往往只關注個別結果，而絕大部分的MRI數據都被棄置一旁。「我們錯過了大量信息。」他說道。關於面孔識別的研究就是一個很好的例子。對於大腦來說，面孔識別是一個頗為棘手的任務，想想人類那些變化多端的表情吧。典型的fMRI實驗僅僅會對兩種條件下的反應進行比較，比如給志願者們呈現面孔或房子的圖片。基於此類研究結果，神經科學家們曾認為一個腦區——也就是所謂的梭狀回面孔區（fusiform face area, FFA）——會特異性地被面孔刺激激活。但是，隨著進一步實驗的積累，人們發現故事遠非這麼簡單，面孔識別過程其實需要眾多腦區合作才得以完成。與此同時，不斷成熟的神經成像技術也使得我們對大腦圖景的理解日益精進。以賈蘭特的實驗為例，研究者們在被試觀看視頻片段的同時對他們進行全腦掃描，儘管總人數不多，單個被試數據對應時長可達數小時之久。通過這種方法，研究者們得到了大量類型各異的刺激所引起的大腦反應。一些常用的數據處理步驟會導致數據損失，於是，賈蘭特的團隊跳過了這些步驟，竭儘可能地從實驗中提取出有意義的數據。這些即將發表的研究結果顯示，FFA甚至比人們之前想像的還要複雜——它可以被進一步細分為三個亞區。所有亞區都對面孔有反應，同時又分別參與了其他不同類別物體的加工，例如旗幟、十字架和蛇——功能多樣的FFA就像一把用於視覺客體識別的瑞士軍刀。但這並不意味著原先的「面孔區域」觀點是錯誤的，只不過不夠完善，賈蘭特如是說。（不過，另有研究者指出，若想確認這一規律能夠普遍適用於所有的大腦，而不僅僅是幾名志願者身上的個別現象，還需要更多實驗提供證據。）隨著手頭的「顯微鏡」日益先進，我們可以期待，將有越來越多這樣的研究問世，向人呈現更具複雜性的大腦活動規律。但是，賈蘭特說道，這些研究結果告訴我們，現今的主流理論所描繪的圖景僅僅是冰山一角。例如，視覺研究已經斬獲不少成就，然而，直至今日，還沒有任何一台機器人的視覺可與人類匹敵，更不必說正確識別人臉了。至於情緒和道德判斷一類高級認知過程的實現，目前仍是痴人說夢。人類會有一天徹底揭開大腦的謎團嗎？賈蘭特對此保持了樂觀的心態，他向我們指出，fMRI技術方才問世20年。在當時，大家都不清楚如何進行最恰當的實驗設計，也不知道如何處理手頭浩如煙海的數據。不過，賈蘭特認為，研究者們終將從過去的錯誤——譬如重複提取——中吸取教訓。腦科學研究總是在不斷進步的，他說。就連熱愛擊劍的約安尼季斯也同意這一觀點，認為人們總有一天會從跌倒的地方爬起，修正過去對大腦的錯誤理解。問題在於，這一天何時能夠到來？「如果要花幾年的時間才能駁倒這些問題，無疑會浪費大量的精力。」正如他所說，「大腦比絕大多數系統都要複雜。」說起高深程度，世上少有難題能比得上我們腦殼兒底下的這團迷雲。毫無疑問，要想破解這一謎題，我們需要最精細的研究工具，以及最優秀的操作技術。懷疑論者的「神經科學狂熱」玩賞指南出問題的不光是神經科學家們的工具包，人們在對複雜性狀和行為表現進行解釋時，也經常掉進錯誤解讀研究結果的陷阱。常常能夠讀到這樣的報道，聲稱某些大腦活動或解剖結構與精神疾病傾向相關，例如，研究表明，殺人犯在觀看他人受折磨的圖片時，負責共情的腦區活動下降。辯方律師可能會把這一結果用作證據，為被告人減輕刑事責任；一些專家甚至開始思考，是否可能就此判定一個人更具犯罪傾向。然而，八成有許多完全沒有犯罪意圖的人在大腦掃描儀里顯現出了同樣的變化。（事實的確如此，已有研究發現，醫生會抑制自己對疼痛的共情反應，從而更好幫助病人減輕痛苦。）而且，殺人犯大腦的異常可能是之前殘暴行為產生的結果，而非原因。類似的「大腦中心論」還出現在關於藥物濫用的討論當中，認為後者其實是一種「大腦疾病」。毫無疑問，成癮物質的確會對我們的神經環路帶來長期影響，但是，正如精神病專家薩利·沙特爾（Sally Satel）和臨床心理醫生斯考特·利林菲爾德（Scott Lilienfeld）在著作《洗腦（Brainwashed）》（Basic Books, 2013）中所說的那樣，這一觀點低估了其他因素的作用，包括壓力、朋友的影響、以及獲取藥物的難易程度。持有該觀點的成癮人士可能會放棄一些有用的心理學戒斷策略，譬如迴避那些可能激發慾望的外界刺激。沙特爾和利林菲爾德還指出，把黑鍋都丟給大腦迴路的做法可能會打擊人們對自我控制的信念，雖然事實證明80%的成癮患者都成功戒除了他們的不良嗜好。毫無疑問，腦科學對醫學和法律領域具有巨大的推動作用，前景頗為可觀。但是，我們應當牢記：無須將我們的命運，交由神經學主宰。（編輯：游識猷）拓展閱讀你們都誤會了，科學是個好大叔赤裸裸的統計學：5大常見統計偏倚編譯來源 New Scientist, Hidden depths: Brain science is drowning in uncertainty、
推薦閱讀：

※Mask-RCNN論文解讀
※173論文——方法篇：論文寫作的架構，寫出一篇好的論文必備技能
※【AAAI Oral】利用DeepMind的DQN解數學應用題，準確率提升15%
※我想把這三個神器推薦給寫論文的你！
※幼兒園戶外活動論文？

TAG:論文 | 科學 | 腦科學 | 確定性 |