99.99% 的生物學實驗都不靠譜嗎?為什麼?


@豬小寶 引了同人於野老師的文章,說,「我從未發現 Ioannidis 說過「90%的醫學研究都錯了」這句話,時代周刊的報道的確是標題黨。」

同人於野老師也提到 Ioannidis 在 2005 年,發了兩篇影響力巨大的文章。其中一篇文章的題目叫 「為什麼大部分發表的研究發現都是錯的(Why Most Published Research Findings Are False)」[1]

我覺得這篇文章的題目跟時代周刊的沒有本質區別。Ioannidis 不是標題黨,為什麼時代周刊是?

這種題目在醫學文獻中很常見,比如 Scott Kern 在 Cancer Research 上的這篇:Why Your New Cancer Biomarker May Never Work。[2] 其中摘要第一句就是,只有不到 1% 的 biomarker 結果最後被用於臨床(這句其實就更有迴旋餘地,因為不能被用於臨床,有可能並不是發現不對,而是有其他原因,比如 biomarker 不易直接檢測,或有了更好的替代物)。

回來說正事。

2006 年,Duke 大學的一幫人研究發明了一個根據患者腫瘤的基因特徵有針對性的治療肺癌的療法,研究成果首發在 Nature Medicine 上,後來,相關的一系列成果,共有 40 篇論文,涉及 160 余名作者。

這個結果顯然有極強的實用價值。於是,Duke 大學為此成立了一個公司,開始收病人治病。

沒成想,到 2010 年,有一個業內雜誌曝料說,這項研究的主要負責人 Anil Potti 涉嫌簡歷造假。

於是大家開始回頭再來看這項研究,發現早在數年前,MD Anderson 癌症中心的兩名生物信息學專家開始跟 Potti 吵架,就在這一年,還在 The Annals of Applied Statistics 上發表了篇文章 Deriving chemosensitivity from cell lines [3],指出了 Potti 領銜的研究中一些匪夷所思的細節問題,並和 Potti 等人在雜誌上打了一場嘴仗。

再細查下去,發現 Potti 等人的結果根本就不可複製,他們的治療方法根本幫不到病人。到最後,40 余篇文章中有 2/3 被召回,Potti 也被解職。而到這個公司接受治療卻早早去逝的病人的家屬,也開始找律師打官司。

所以說,Ioannidis 不是標題黨,不僅僅在於他的題目很驚悚,也在於,他研究的目題,也是對科學界非常有意義的話題,就是所謂的科學結果的 validation。因為,最終,這些結果是要被用的,不管是基於此研究作進一步的研究,還是開發一個實際藥物或治療檢測方法。如果說,科研成果的可複製性不強,那對於整個醫學界都是巨大的問題:大家都會浪費大量的錢在無用的研究上,最終會影響公眾對醫學研究的信任,對其的支持,醫藥公司也會降低其投入,受害者是所有人。

造成科學成果可複製性低的原因很多。Ioannidis 自己的總結,大約有

  • 偏門領域
  • 樣本點少
  • 待檢假設過多
  • 實驗的設計和數據分析上有過多可以微調的地方
  • 錢,私利
  • 參與團隊過多

除此之外,別的作者也提出一些旁的原因,但基本上,還就可以分成是客觀的原因(上面提到的偏門領域和小樣本),技術的原因(過多假設檢驗和分析上的處理不當),和主觀的原因(錢,個人原因,和團隊)。

像一些客觀原因,比如對於偏門領域或者錢少,而樣本點少(很多早期的小規模試驗都是如此),實驗的隨機性是無法控制的,結果的 false-positive 率也自然會高。

而一般人對 Ioannidis 的這種研究的第一個反應可能都是這裡面人為的主觀因素很大。以我個人的經驗,這種因素的確存在,也不可避免的有很大影響。當我看到幾十乃至上百個作者都是 equal contribution 的文章,總是本能的心存戒備。而做大項目時,這麼多錢投進去,勢必要能及時的產生「有影響力」的結果。

比如,前些日子,NHGRI 花了五年一億多美元支持的 ENCODE 項目 [4],在同一時間多個重要期刊發出相關「重大」發現,就有政治作秀的嫌疑:作為一個小院,不會像癌症所(NCI)這樣是雷打不動的大頭,與其說把錢打散做小項目,不如集中力量出個重磅發現,給出錢的政客們一個交待,保證經費穩定。比如 NHGRI 在 1990 年代,就曾全力支持了人類基因組測序計劃,也是這個道理。ENCODE 很難重現輝煌,就要在其它方面運作,從媒體的角度把重要性拔高。

但這種人為的因素,具體影響有多大,很難量化。大部分研究人員不會去主動作偽,只是,的確因為人為的因素,有自覺不自覺的對實驗向有利結果進行選擇的傾向。而這個,很多時候是因為研究人員自己不太懂實驗設計和數據分析,所以對一些原則性的問題也就很不在意。所以,技術上的原因,也是不容忽視的因素。

這一點,尤其在新的技術出現時表現的尤其明顯。比如,高通量的生物數據是最近二十年才興起的,而大部分生物學家的專業訓練沒有此內容,他們對如何處理這樣的數據也是缺少專業知識,基本憑感覺的。換句話說,以我對很多生物學家的接觸,他們在統計方面的專業水平都無法讓他們能成功的故意在數據分析上造假。

比如,NIH 的 A. Dupuy 和 R. M. Simon 在 2007 年於 J Natl Cancer Inst 上發表 Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting 的經典文章 [5],分析了 2004 年發表的幾十篇基於微陣列技術的生物發現文章,結果有足夠細節的 42 篇文章中,發現有一半有至少一個重要的統計分析錯誤。既然這些錯誤都堂而皇之的放在文中發表,就說明作者自己不認為這樣做有問題,而評審人也不認為這裡存在問題。

負責 Duke 事件調查的 Gilbert Omenn 就評論說,這件事讓人憂心的,是這麼多文章都能成功發表,沒有評審者對其統計方法進行過質疑 [6]。

這樣的問題,其實不止在生物研究上。

JP Simmons 等人在 2011 年於 Psychological Science 上發表了一篇著名文章:False-Positive Psychology:Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant [7]

這文章里搞了一個實驗,表明如果實驗一開始沒有達到預想的結果,通過不停的向實驗增加新數據點和其他一些調整方法,可以把實驗結果從不顯著變成顯著。這樣,本來統計學意義上的 5% 的小概率顯著事件,其發生機率可以上升至 60%!

哈佛大學的 Leslie John 就此去問卷調查了 2000 名心理學家,結果有一半的人表明自己曾經採用過這種錯誤的方法,有 40% 的表示自己會對結果進行篩選![8]

Daniele Fanelli 在 2010 年於 Plos One 雜誌發表文章 「Positive」 Results Increase Down the Hierarchy of the Sciences [9],提到了在科學研究中,正面結果的比例過高,有被人工篩選的可能。Nature 雜誌里有篇新聞,把原文里略顯單調的圖一給重繪了一下,來顯示各學科文章中,正面結果出現的比例 [10]:

由圖可見,心理學方面,正面結果的比例最高,超過 90%,像生物醫學和經濟學等學科都緊隨其後,航天科學最低,有 70%。

和上面 Dupay 的文章一樣,我有理由相信,這些心理學家故意使用並承認使用這些錯誤的方法,並不是他們刻意造假,而是他們自己的專業素質不過關,沒有意識到其中的嚴重性。

說了半天了,回到 Ioannidis。

Ioannidis 不是標題黨,他關注的是很重要的學科問題,他也不是只為了嘩眾取寵的出新聞。這從他在 2011 年在 Science 上的一篇文章 Improving Validation Practices in 「Omics」 Research 中可以看出 [11]

在這篇文章里,Ioannidis 提出了一組方法,通過提高科學家的相關專業水平,建立更標準的實驗和分析模式,更透明的數據分享機制,提供專門的對重要研究結果進行重複驗證的專項基金這樣的一些措施,來幫助科學研究提高結果的可重複機率。

科學研究其實跟社會上的其他很多活動沒有本質區別,都是一個文化社區,也都受著社區里的人和機制的影響。

最後,還是引 Atlantic 雜誌報導 Ioannidis 的舊文中的一段來結尾 [12]:

〝科學是一種崇高的奮鬥,但它也是一種低產出的奮鬥,〞Ioannidis 說。〝我不確定是不是只能有很少一部分醫學研究最終會對醫療水平和生活質量帶來巨大的提高。對此我們理應相當滿意了。〞

參考:
1. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1182327/
2. http://www.ncbi.nlm.nih.gov/pubmed/23172309
3. http://arxiv.org/abs/1010.1092
4. 2012 Release: ENCODE data describes function of human genome
5. Critical Review of Published Microarray Studies for Cancer Outcome and Guidelines on Statistical Analysis and Reporting
6. Biomarker Tests Need Closer Scrutiny, IOM Concludes
7. False-Positive Psychology
8. Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling
9. PLOS ONE: 「Positive」 Results Increase Down the Hierarchy of the Sciences
10. Replication studies: Bad copy : Nature News Comment
11. Improving Validation Practices in 「Omics」 Research
12. The Atlantic: Breaking News, Analysis and Opinion on politics, business, culture, international, science, technology, national


稍微(不完全)總結下2005年至今提出生物學研究文獻存在哪些問題的文章。主要是根據第一篇review給的reference。
2013 Nature Reviews Neuroscience: Power failure: why small sample size undermines the reliability of neuroscience
Key points: It has been claimed and demonstrated that many (and possibly most) of the conclusions drawn from biomedical research are probably false.
There is now substantial evidence that a large proportion of the evidence reported in the scientific literature may be unreliable. Acknowledging this challenge is the first step towards addressing the problematic aspects of current scientific practices and identifying effective solutions.

2005 Plos Medicine: Ioannidis, J. P. Why most published research findings are false. PLoS Med. 2, e124 (2005).
This study demonstrates that many (and possibly most) of the conclusions drawn from biomedical research are probably false. The reasons for this
include using flexible study designs and flexible statistical analyses and running small studies with low statistical power.

2011 Psychological Science: Simmons, J. P., Nelson, L. D. Simonsohn, U. Falsepositive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychol. Sci. 22, 1359–1366 (2011).
This article empirically illustrates that flexible study designs and data analysis dramatically increase the possibility of obtaining a nominally
significant result. However, conclusions drawn from these results are almost certainly false.

Prinz, F., Schlange, T. Asadullah, K. Believe it or not: how much can we rely on published data on potential drug targets? Nature Rev. Drug Discov. 10, 712(2011).
Key points: Our observations indicate that literature data on potential drug targets should be viewed with caution, and underline the importance
of confirmatory validation studies for pharmaceutical companies and academia before larger investments are made in assay development, high-throughput screening campaigns, lead optimization and animal testing.

Carp, J. The secret lives of experiments: methods reporting in the fMRI literature. Neuroimage 63, 289–300 (2012).
This article reviews methods reporting and methodological choices across 241 recent fMRI studies and shows that there were nearly as many
unique analytical pipelines as there were studies. In addition, many studies were underpowered to detect plausible effects.

2005 JAMA, John P. A. Ioannidis: Contradicted and Initially Stronger Effects in Highly Cited Clinical Research
Key points: Contradiction and initially stronger effects are not unusual in highly cited research of clinical interventions and their outcomes. The extent to which high citations may provoke contradictions and vice versa needs more study. Controversies are most common with highly cited nonrandomized studies, but even the most highly cited randomized trials may be challenged and refuted over time, especially small ones.
總而言之,至少在上述這些文獻中,作者們所分析的樣本中很多文獻宣稱的發現或無法重複,或者實驗設計及分析方法太不嚴謹,或者樣本數太小導致explanatory power較低。當然,無證據說明這些研究結論或者data都是捏造的,很多應該是無心之失。作為拿著納稅人錢做實驗的科研一線工作者,首先應該針對別人提出的問題作出解釋和提出改進的措施並且堅決執行,這樣才有利於科研成果質量的提高,這個應該也是上述這些作者的初衷。沒有人說生物學的知識都是不靠譜的,恰恰相反,很多很多經歷住時間考驗,重複了無數次的事實都已經寫進教科書了,說明genuine true 的發現就應該是可重複的可檢測的。逃避問題,顧左右而言他只能讓旁觀者冷笑:原來做生物的就這樣層次的邏輯思維啊,你跟他講存在什麼問題,他跟你說「斷章取義的方式來否定研究的合理性,不是外行人的誤解,就是別有用心」,這和你指出支那國有rq問題,比如lg啊(最近的可參考lens雜誌文章),tg說我們rq一直是進步的,你丫的是反華勢力,別有用心這種邏輯無本質區別。
回答或者關注這個問題的應該是有很多熱愛生物,甚至本人就是科研一線從業者的,既然熱愛,就更應該歡迎別人指出本領域的問題和缺點,以便使生物學領域的研究成果更加嚴謹和接近真理。把頭埋在沙子里,只會讓大家看到你屁股上一屁股的屎。
另外,請不要說諸如沒有調查就沒有發言權之類的bullshit,或者說你呆的地方太次所以你眼界就這麼廣(本人在ION就讀尚未發文章),國內科研界很浮躁,做的東西絕大部分什麼水平大家業內人士也心知肚明,願大家把自己的data做solid,別辜負了納稅人的血汗。


謝邀
1.學術界選擇性發表不可重複的實驗結果、利用各種手段「優化」數據等現象比較嚴重
直接造假啥的應該相對不那麼普遍 畢竟風險太高且太突破底線
2.有的時候實驗方案設計得不合理也導致結果無意義
3.踏踏實實做實驗的研究人員還是不少的 所以99.99未免太誇張
4.科研人員要有對自己數據負責的覺悟 被人打臉很難看的


讓我想起這幅漫畫


你就算說是99.999999999999999999999999999999%都不靠譜有意義嗎?有參考價值嗎?


99.99% 有些過於誇張,但是大多數都不靠譜的這個結論還是正確的。

這個說法的來源,我猜可能是這篇時代周刊的報道 A Researcher』s Claim: 90% of Medical Research Is Wrong。

關於這個問題,推薦同人於野老師的這篇博文 科學新聞沒告訴你的那些事兒 1 ? 學而時嘻之。

摘錄關鍵的幾段如下:

說這句話的人叫 John P.A. Ioannidis,他去年剛剛被任命為斯坦福大學預防醫學研究中心主任。Ioannidis 說,「ignore them all」. 他攻擊的不僅僅是營養學,而是整個醫學研究。2005年,Ioannidis 發表兩篇論文,證明大部分醫學研究都是錯的。這兩篇論文在醫學界被引用好幾百次,但是沒有人說他這個看似無比偏激的結論是錯的。甚至沒人表示驚訝。所有搞醫學研究的科學家都知道這個秘密:醫學研究根本不靠譜。

科學新聞常常教育我們要用現代醫學的常識去反駁民間偏方,用科學家的論文去反駁普通人的常識,再用歐美科學家的論文去反駁中國科學家的論文。然而現在 Ioannidis 說歐美科學家的論文其實也不可靠。而且錯誤率是90%?民間偏方沒準還比這個好點。所以以上這幾篇報道大概也有點標題黨,我們必須看看 Ioannidis 到底說了什麼。

光玩數學當然不行,批評現實得有真實證據。這正是Ioannidis另一篇論文乾的事情,發表在權威期刊 JAMA上。沒有人能把所有醫學論文都研究一遍,所以他的做法相當具有戲劇性:他只看1990到2003年間發表在頂級臨床醫學期刊上的頂級論文,入選標準是被引用超過1000次。符合這個標準的論文一共有49篇,其中45篇聲稱發現了某種有效的藥物或者療法。

我們都知道科學結果必須都是可重複的,我們不知道的是有多少科學結果真的被人重複過。這45篇論文雖然都被引用了千次以上,其中只有34篇被重複檢驗過。

而後人檢驗的結果是其中7篇的結論錯誤。比如有一篇論文說維生素E對降低男子冠心病風險有好處,有一篇論文說維生素E對降低女子冠心病風險有好處,而後來的大規模隨機實驗則證明維生素E對降低冠心病風險根本沒好處。另有7篇論文被發現是誇大了有效性。也就是說34篇經過檢驗的論文中的14篇(41%),被發現結論有問題。這45篇最權威的論文中只有20篇接受了並抗過了時間的考驗

頂級論文尚且如此,一般論文又能怎麼樣呢?
真有90%都不可靠么?我從未發現 Ioannidis 說過「90%的醫學研究都錯了」這句話,時代周刊的報道的確是標題黨。

Ioannidis 說的不是90%,而是432分之431。沒有人能徹查所有醫學論文,所以 Ioannidis 的做法是選擇一個熱門領域,徹查這個領域內所有的論文。這個領域是研究男女患各種疾病的風險不同,是不是因為基因的影響。在2007年 JAMA 的一篇論文中,Ioannidis 與合作者找到這個領域的所有77篇論文,然後逐篇分析這些論文處理數據的方法是否足夠嚴謹。這些論文一共提出了432個論斷,其中只有60個論斷可以稱得上是方法嚴謹。而這60個拿的出手的論斷中,曾經被其它研究至少重複驗證了兩次的,只有一個。

如果我們對正確科學論斷的要求是方法嚴謹,結果至少經過兩次檢驗,那麼這個領域的合格率只有1/432。如果我們放寬要求,只要一篇論文不被證明是錯的,就算它是好論文,那麼發表在最權威期刊上的被引用次數最多的醫學論文中,有7/45是壞論文。

這個事情,其實說白了,大眾對什麼是科學、什麼是科研有著很深的誤解。科學並不是神聖的,也不是永遠正確的,更不是靈丹妙藥。科學家都是人,都會犯錯誤,科學的發展就是試錯的過程,牛頓、愛因斯坦的理論等等,現在看來都有著各種錯誤。總體來說,科學的發展需要大量的錯誤和不靠譜作為前提,說是鋪路石也好,說是炮灰也好,這些都是必不可少的。

或者,也可以從另一方面理解。世界頂級名校出的成果、參與者都是博士或者在讀博士生、砸了這麼多錢、經過嚴格的同行評議、發表在柳葉刀或者新英格蘭或者CNS上的這些結論,尚且如此不靠譜。反觀張悟本之流、微博大V們的那些言之鑿鑿的結論和說法,你仔細想想,有沒有相信的價值?

借用一下同人於野老師的結論:

把學術論文的結論推廣到真實世界的真理,有時候是非常危險的事情。因為不理解科學研究的思維方式,導致大多數人對科學有兩個重大誤解:第一,認為科學研究絕對真理;第二,認為每一項科研都是在生產我們日常決策的答案。真實的科學研究其實一個充滿曲折,甚至有時候錯進錯出的過程。

更重要的是,科學的野心其實比公眾設想的小。而恰恰是因為這個原因,科學才有這麼強大的力量。很多論文不嚴謹,甚至很多都是錯的,這並不表明科學中沒有正確答案,它只是表明得到和判斷正確答案並不簡單。

補充:看了大家的評論和回答,再補充幾句。

我們討論的是「靠譜」與否,而不是「正確」與否。不靠譜的東西完全有可能是正確的。借用《醉漢的腳步》一書中的一個例子:

有人靠一張尾號為48的彩票中了西班牙全國大樂透,他興奮的談論自己得獎的秘訣,「我連著7個晚上都夢到了數字7,而7乘以7等於48」。

在這個例子里,結論是「48會中大獎」,無疑這個結論是正確的。但是這個結論「靠譜」嗎?

而反過來,靠譜的也不一定都是正確的。比如這個例子:

某農場主每天七點都去餵雞,第一天如此,第二天如此,一直都是如此。於是,一位雞科學家說,我通過大量的觀察和重複驗證,得出了結論:我們每天七點有飯吃,所以明天七點肯定也是如此。結果第二天七點,農場主來了,把雞們都拉出來宰殺了……

這個例子里的結論是靠譜的,但是很可惜,也很殘忍,這個結論不是正確的。

我們不能說,因為一個結論是正確的,所以不管它怎麼來的,不管它的來源是不是靠譜,我們都認為它是科學的。如果只追求正確的結果,而不關心過程和方法的科學性的話,那科學和中醫、占星、占卜都沒有什麼區別了。某些領域的某些科學方法的可靠概率可能還比不過占卜呢,但是,它們有著本質的區別。

科研論文的意思是,論文的作者認為這個結論是有道理的,至於讀者怎麼認為,那需要讀者自己來判斷。讀者不可能自己做實驗重複,只能根據其它的一些情況來判斷,類似於你判斷某個產品的廣告是不是可信,比如是不是其它科學家也這麼認為、這個作者是不是有名、這個作者還有其它什麼成就等等。通常,大家都認為,國內期刊不能信,國際一般的期刊湊合,國際頂級期刊比較靠譜。現在,Ioannidis和其他人告訴大家,咱們都想錯了,不光一般的期刊不行,國際頂級的也不太靠譜。僅僅是這個區別而已。


於野的文章自己就是標題黨,雖然有理,但有所誇大、片面以及邏輯不當的方面。不過已經在原文回復中發現一個很好的答案,我也轉來給大家看看:
這篇文章告誡的對象是那些盲目相信所謂的「科學報道「的人。任何科學結論都有其時代性和局限性。普通媒體往往會擴大結論的正確性。其實就如同古時候的巫醫提供的偏方一樣,科學研究的結論無非也是一部分的專業人士在小範圍內取得的結果(因為超大規模的研究畢竟是極為少數的)。但科學研究不同於以往巫醫們的單打獨鬥,是有一個量變到質變的過程。問題和結論一旦出現,會有大量的論證接踵而來。研究的範圍也會越來越大。吸煙導致癌症的結論就是這樣一個由量到質的過程。本文提到的作者只專註於當前的,甚至是最新的科學研究,這些研究本身都還在一個積累的過程中,當然就會有90%是「不可靠的」了。注意是「不可靠」,而不是「錯誤的」,就很能說明這些研究課題的現狀了。當然,媒體對於研究結論片面的引用,科學家自身的好大喜功,還有普通人對於「科學」的盲目信任,再加上一些商家的投機牟利,就造成了科學研究對人們誤導的結果。但是作為研究和結論本身並無過錯,在一定的範圍內亦能稱之為正確。作者提出對待科學的態度是十分正確的,俯視而非仰視。但普通大眾往往只期待一個結論性的東西,是與非,對與錯。要他們去「俯視」科學,何其難也?


用這種斷章取義的方式來否定研究的合理性,不是外行人的誤解,就是別有用心

公眾對於科學真的到了迷信的程度么?恰恰是相反,大多數普通民眾對於科學根本談不上什麼了解,科學研究於大多數人根本就是可有可無的。在中國這種普通人科學素養堪憂的地方,不大力普及基本的科學常識和科學理念,反而去宣揚99.9%生物學研究不可靠的大標題,這是貽害無窮的嘩眾取寵。

公眾對於科學研究抱有的其實是一種功利的態度。就拿知乎做例子,什麼樣的醫學問答最熱門?頸椎腰椎病、營養、忌口、懷孕、體檢、腫瘤……這些跟廣大白領健康息息相關的話題總是能引來大批的矚目。但是幾乎不會有人對這些問題背後的證據(evidence)感興趣證據怎麼來的?不是百度百科、健康報上民科或者專家一拍腦袋想出來的,是有大量的研究支撐的。

@豬小寶 同學引了大段的文字,我覺得應該把最後一段一起引用來

其他醫學研究者並沒有對 Ioannidis 揭示的現狀無動於衷。有一個成立於1993年的叫做Cochrane Collaboration 的國際組織,就正在專門嚴格審視各種醫學研究,並且推出了很多報告,而且他們也採納了 Ioannidis 提出的審查方法。這個組織特彆強調經費只來自於政府,大學和私人捐款,而不拿醫藥公司的錢。

理解cochrane們在幹什麼,理解醫學研究中的逐步完善,才會明白為什麼連jama都會登「錯誤」的文章,而我們又該如何得到可靠的結論。正因為很多早年的醫學研究在研究方法上設計不合理,後人才會用合理的評價體系去蕪存菁,篩選出真正有價值的結論,這正是科學的態度,也是循證醫學的目的。

期刊作為一種前沿研究的載體,所刊登的文章必然存在大量的不完善。有修正,有爭鳴,有辨析,才叫學術研究,我朝歷次偉大光榮正確的會議尚且有路線的反覆和鬥爭,科學上後人否定前人的結論又有什麼不可以?普通人不了解的是,相較於數學幾乎與人類文明與生俱來,物理化學從18世紀以來爆炸性發展,生物學簡直是太年輕了。醫學中的臨床研究興起更晚。大多數設計合理的臨床試驗是近20年的產物。在這之前,醫學研究尤其是臨床研究根本處於一個拓荒的年代。有些研究過時了,有些研究根本就是錯誤的。再正常不過。

但是時間沉澱下來,有意義的結論幾乎是不可撼動的。這些結論在哪裡?可以參考大多數歐美流行的生物醫學教科書。和國內你抄我抄的風氣不同,好的書都是evidence based,數年更新一次,幾乎每一句話背後,都是被大量重複的研究結果,都是被大量實踐所證明的,這才是真正的引經據典。這其中的信息,99%都是正確的。

不能對科學前沿的東西抱著選擇性和偏見的眼光,對專業人士來說,這是創造的扼殺。對普通人來說,是徹底的誤導。


原問題是問對99.99%生物學實驗都不靠譜有什麼看法,現在是問為什麼會有這種事情。
生物學實驗範圍太大,我就先分享一個我自己曾經做過的臨床醫學實驗,應該可以算作生物學實驗的範疇內,來看看是不是不靠譜,為什麼不靠譜。

我當時的研究對象是妊娠期婦女的宮頸肌瘤問題,目標是指導分娩決策,從搜集病例到完成最終報告都是我一人,所以了解全部內容細節。
先解釋一下宮頸肌瘤,就是長在宮頸上的肌瘤。您別抽我,我不是在講廢話,單單這麼一個問題,就註定了我的研究「不靠譜」。你如何定義「長在宮頸上」?它不像是長在樹上的果子,這一顆果子就隸屬於這一根枝條。宮頸管大約3公分長,如果一個肌瘤大小只有1cm,我可以比較輕鬆的分清楚,這顆肌瘤是不是屬於宮頸。之所以比較輕鬆,是因為還是有可能這顆肌瘤長在了交界處。但是,如果肌瘤再大一點,比方說5cm,它將必然佔據整個宮頸的長度並且跨過交界處,那麼我需要判斷:這顆肌瘤到底是屬於哪裡的?宮體還是宮頸?而妊娠期尤其是妊娠晚期的子宮有個特點,就是宮頸上方不直接連在宮體上,而是有一個被拉長的子宮峽部,那麼峽部肌瘤很難說是隸屬於誰,更何況跨界了。如果再大點,10cm,20cm,你已經很難看到肌瘤具體的附著點了。這時候,我只能憑個人感覺來區分,倘若整個宮頸都被佔據了,即使它可能來源於宮體或者峽部,也仍然當做宮頸肌瘤。
如果看到這裡已經看暈了,沒關係,忘了它吧,不必回頭再看,你只要明白,我的研究對象是很難用一個非常明確清晰客觀的方法來定義的,即使我用語言對研究對象進行了明確客觀的描述(這是必須的),在實際操作過程中,你也無法真正做到!——這是臨床醫學研究經常碰上的事兒。
再說統計指標,其中一項是出血量。目前醫學上公認的是:目前沒有一種公認的金標準準確測量產後出血量,產後出血量無法精確估計。我能做到的,只是用相同的方法去估計,比如稱重法,但是,那也是估計,估計的意思就是,我覺得出血量應該是這樣的。
至於對結論的主觀解釋,我這裡就不說了。
雖然最終我得出了很多具體的客觀的數據,用了統計學的方法,得出了結論,提出了可供參考的決策方案,你覺得這項研究靠譜嗎?
忘記說了,這種疾病的發病率比較低,是匯總了幾年的病例。結果能不能被重複?天曉得!
這篇文章最終發表在澳大利亞和紐西蘭婦產科學會主辦的官方雜誌上。

如果你從頭到尾的做過一次臨床醫學的研究,你就會知道那些研究是怎麼出來的了。數據並不重要,重要的是數據的背後。所有被發表出來的文獻,尤其是權威期刊發表的文獻,在每個指標的定義、測量等方面,肯定都會要求儘可能的精確。但是,大家也默認,不論你定義的怎樣準確,在醫學研究的實際操作中,很難做到沒有人直覺的參與。一旦人為主觀直覺參與實驗之中了,你就不能像對待物理或者化學實驗一樣來看待醫學實驗。

再說一個是關於絕經期婦女激素替代的事兒。這個問題,曾經對我的衝擊很大,因為我一直認為自然的過程,如果不是非常必要,最好不要去干預它。但是,激素替代這件事對我的認識產生了巨大衝擊。因為大規模的隨機對照試驗和meta分析顯示,絕經期婦女的激素替代是有益的,至少明顯利大於弊,而且弊端幾乎都是不顯著的。這麼強的證據,讓你不容置疑,你只能轉變自己的認知去適應科學的結論,於是我做出了改變。但是,沒過多久,又有新的RCT和meta分析,建議慎重,因為有各種不良事件風險,比如某些惡性腫瘤的發生率可能提高了。於是,醫學界竟然分成了兩派,各自拿著自己的RCT來抽對方的臉。
你可能要大吃一驚了,什麼?隨機對照也不靠譜嗎?這種實驗不是對兩組隨機病人進行不同干預來比較效果差異的嗎?難道這還不科學嗎?科學。但是你說的這種對隨機對照的解釋,其實就是對隨機對照的一個簡化版的解釋,就是介紹一種模型。相當於是個充氣娃娃,就呈現給你最重要的三點,然後你就快感了高潮了。但你這只是干模型的高潮,只有真正談女朋友了,你才能體會到原來除了快感和高潮之外,還有生活的各種喜怒哀樂。


醫學實驗靠不靠譜?無所謂。醫學決策的過程本身就是在冒險,它是一種在不確定的條件下要做出明智的決策的能力。關鍵的應該是你做臨床決策的過程靠譜,這個過程要盡量「科學」。之所以科學打引號,是因為在我們的文化中,「科學」幾乎成了理性的唯一模型,只有用「科學」才能表達出理性審慎的態度。而事實上,科學僅僅是它的一個子集而已。每次在做出臨床決策的時候,醫生心理都清楚自己的依據是什麼,是「靠譜的」研究證據,還是自己的經驗。你大可不必苛求自己的每一個依據來源都是「科學」的,比如經驗這東西,其實積累經驗的過程可以是非常理性的,但經驗怎麼也無法被稱為科學。你甚至可以選用「不科學」的依據,前提是你知道你的選擇最終的結局,只要結局良好,你就是明智的,誰管你科不科學!所以,我們經常在說:嗯,是不是做這個決定,其實就是在拼膽兒!

如果你認為醫生是科學家,說明你對醫學的了解還處於幻想階段;如果你認為醫生是一個偵探,說明你了解醫生是怎麼做診斷的了;如果你認為醫生是一個賭徒,恭喜你,你了解醫學了!


「不靠譜」這個概念本身就不明晰。不靠譜究竟是指結論的正確性、一致性,還是研究過程的嚴謹科學性?
這個概念不明確,或者故意用非科學的概念去解釋,只會出現誤導人們。
科學研究本身就是對未知領域的探索,後期證明有不足甚至錯誤不足為奇,一個成果要運用到實踐中是需要經歷一個過程的。
評判研究好不好,應當從研究全過程的嚴謹科學性上考慮。我們要注意的是學術失范,甚至學術腐敗問題。
另外,總體上來說,學術期刊上,陽性結果的論文刊發更多,相對更加容易。

ps. 學過統計學的都應該知道α錯誤和β錯誤的存在~~


這種話不靠譜的概率有99.9%,比如我這句。


這句話我能理解。就像99.99999999%的經濟實證研究都不靠譜一樣。


有一種東西叫meta分析.....


我只是想知道99.99%這個數字是怎麼被計算出來的


其實,偶個人感覺,很多錯誤來源於統計學方面的錯誤,從樣本抽取,到數據分析,到統計方法。這些,才是應該重視的。
生物學方向,或者說得窄一些,醫學方面,目前比較嚴謹的說法是遺傳因素和環境因素統一作用的影響。而這種現象,其實在實驗條件中,無法完全複製,所謂統一其他量,只研究一個變數的情況(例如孟德爾的豆子)早已遠去。
多個變數的統一影響下,很難說明,到底是哪個位置出現了問題。
大量統計學方法被應用到這個領域,帶來了解決方案,只是,畢竟在統計學領域來說,統計結果其實並非完全精確無誤,於是,統計學進入科研領域之後,帶來了很多成果的同時,也同樣帶來了很多謬誤。
不過,好歹,大家一直在探索,不是嗎?


個人感覺越高等的生物機制越複雜,加上生物體有應激性,在不同環境影響下,作用方式千變萬化,不一定能夠像其他實驗科學(比如化學,物理等)一樣給出一個很準確的反應區間和模式。 尤其是研究群體性的生物學實驗,重複的難度更大。


雖然很多科學研究的結果被證明是錯誤的,但其研究本身依然遵循嚴密的科學邏輯。這種所有結果都不靠譜的說法有點以偏概全誤導群眾了,用文化大革命式的標題一竿子打翻一片不好。

許多研究結果不準確並不是因為生物學研究本身「不靠譜」,而是生命的複雜程度遠超過現有數學方法和測量工具的能力。生命科學的研究或多或少會依賴於統計,而統計又受限於幾乎無限多的系統參數和很十分有限的實驗樣本,往往不得不使用奧卡姆提到原則,從而很可能得出片面性的結論。把"不靠譜" 替換成"很局限" 或許是更恰當的表述。

方法和工具的進步是建立在不斷嘗試和摸索之上的,換個角度來看,所謂「不靠譜」的科學研究的意義是體現出現有方法的局限從而指導人們往正確的方向努力。當結論十分靠譜的時候,那已經進入工程領域而不完全是科研範疇了。

就拿今天朱莉切除乳腺的新聞來舉個栗子:標識基因 BRCA1/BRCA2 與乳腺癌患癌風險看似簡單的關聯,卻是建立在無數次科學嘗試的基礎之上的。僅僅將這兩個基因名字放進Google Scholar進行關鍵字搜索,便可找到數以萬計的科學文獻。單是1998年那篇關聯研究的文獻也已經被引用了2200次。每一篇文章背後絞盡了多少科研工作者的腦汁,其中多少結論正確,我們無從而知。正是無數微觀的努力,才鑄就了宏觀的科學成果。

人類花了多少年才知道地球是圓的,也許還要花更多的時間去知道生命是什麼。不能因為「99.99%的不靠譜」而徹底否定科學研究的意義。


請問99.99%這個數是如何統計出來的


危言聳聽不負責任的誇大其詞而已。


哪只限於生物學?寫過thesis的人都笑了。
科學在於「探索」不在於「靠譜」

還有諸如:知乎上99%以上的答案都是錯的嗎?


好像生物學者最喜歡討論科技在爆炸。


推薦閱讀:

如何看待中國在部分高科技領域的逆向工程案例?
《龍珠》的世界觀里,地球科技水平到底如何?
新視野號 (New Horizons) 抵達冥王星具有什麼重要意義?
如何評價「德國工業 4.0」?
如何向沒有計算機基礎的人解釋 API 介面是什麼?

TAG:科技 | 科研 | 生物學 | 醫學 |