現在的學術論文里存在數據造假的情況嗎?

前幾天和研究生畢業的表姐聊天,期間聊到她的畢業論文。她說自己論文里的數據不是通過實驗得到的真實數據。而是為了支持自己的結論直接計算出來的。實際實驗的時候十次裡面能對一次就很不錯了。表姐是一個二本學校的研究生,在那些985,211的名校里會存在這種數據造假的情況嗎?在更高級的博士論文或者其他的學術論文里會有這種情況嗎?


結論錯誤的多的是,謹慎推測別人作假(最好不要認為別人作假),所以一定要批判性得看文章。所以記得有一句話:理論物理的人都認為自己的結論可信,但別人不信。實驗物理的工作別人都相信,唯有自己不信。

一般來說感興趣的重複下實驗或推導。重複不出來就要找原因,儀器不如人,還是水平不如人,還是沒看懂。要認為文章有作假一定要慎之又慎,萬分謹慎。在我審查文章時,我們必須認定作者的實驗數據沒有作假。這是要求。

至於邏輯漏洞導致的文章結論錯誤就很多了,不過多看了終能分辨出來。關於邏輯漏洞,會導致文章的結論錯誤,不是作假,也無關道德。科學的進步本來就是在爭論中得出正確結論。在數據有限的情況下,只能憑藉忽略次要因素,和猜想來建立模型。那麼模型不正確的可能性很高。歷史上的大牛們也經常犯錯,比如泡利就一直不相信楊-李的弱宇稱不守恆一樣一樣。但是在發展過程中,當實驗的數據積累到一定程度,正確的結論就會呼之欲出。

最後,作假非常惡劣,作假必須嚴懲,但必須有足夠的證據。科研上一開始的新現象大都是偶然所得,重複性不好很正常。重複性好那不是科學,是工程。

多年前我們組做出了金剛石放大器,就成功一次發了PRL,在接下去的兩年時間再也沒重複出來。直到我花了很多時間,重摸條件,才穩定實現。但就科學上的意義遠不如第一次得到信號。

個人覺得給小保晴方子的時間還不夠多。。。


被查出來那些都是連造假技術都拙劣到讓人捉急的

所以我儘可能把SI給的詳細一些做到問心無愧


暫且不用說是普通的學位論文,就算是發表在頂級雜誌上的文章一樣有造假的可能,ps圖片這種還容易看出來,但數據的偽造或者是有意挑選數據就很難識別了。學術圈和其他圈子差的不多,可能稍微乾淨點,但為了利益等諸多因素,造假顯然是屢見不鮮的。

關於普通的學位論文,其實之前寫論文的時候也下載過許多,有些一看就很亂來的(包括一些國內雜誌的論文也是),照樣發表。


我不做實驗,但按照做合成和輸運實驗的同事的說法,靠譜的雜誌(至少nano letter一類,nature子刊、甚至主刊級別的就不說了)文章一般還行,除了用的儀器太好的,一般能重複出來。當然漏網之魚肯定也有,就像上面有人提到的小保方晴子等等。


如果十次裡面能重現一兩次的寫上去也算造假,那麼大部分涉及納米科學和定量分析的期刊都存在造假。

比如做材料拍TEM為了做出均勻性和美觀性,拍一百張挑一張貼在正文;做光譜定量分析十組挑誤差棒最小的一組上正文。這類的挑數據,十篇里九篇跑不了。幫我做電鏡的老師很平靜地告訴過我某課題組為了發angew(化學頂刊)專門拍一個樣品反覆滴銅網拍了兩個月。

如果是徹底憑空偽造數據,有肯定有,但是一般有個度,不會傻到誇張到讓人關注。嚴重捏造的那恐怕還是不多。至少985高校的博士一般不敢。


本學渣平胸而論,所謂「學術」論文可以分為以下四種:

1. 學界高端人士/大拿/天才所作,對於某一領域有著引領/突破或者有一定意義的Paper;

2. 學界平庸教職人員所作,混指標用的;

3. 部分研究生/少數本科生的誠懇之作,我通常定義為「除了拿學位混學分之外還有些別的不管實際不實際有沒有意義的『追求』」的dissertation;

4. 混學位用的。

針對上述234,以我所了解一二的社科(傳播、營銷、經濟等)領域:

低端一點兒的問卷/訪談etc.,中端一點兒的文本分析/統計etc.,高端一點兒的各種相關回歸理論模型etc.,只要是重複驗證的成本稍微高一些,數據造假簡直不要太普遍。

論文中:「83%的受訪者表示……」

結論中:「經過歸一處理,XX意願水平平均值高達4.364,方差0.354,中位數4.223,90%置信區間為XXXX,顯示出XXXX……」

答辯時:「你這個數據怎麼回事,R2=0.87,你不覺得太高了嗎?」

國外教育發達的地方稍微好點兒,比較普遍的是在樣本篩選、數據清洗這些地方做做手腳,比方說有些對結論有利的極端值不去掉、找特別貼合結論的人群/時間段/地理範圍之類的等。國內有很多人的問卷數據都是編的,問卷根本發都沒發過。

其實個人感覺,1類中的Paper很多也有「數據造假」之類的嫌疑。Critically讀的時候,很多情況下能夠感覺到作者的傾向性,以及研究(取樣、建模、分析等)方法中的「不嚴謹」。誅心而論的話,那些背景顯赫的大拿們很多時候是有能力解決在Conclusion裡面自己提出的很多Research Limitations的(不過那樣怎麼能得出「嚴謹」的結論呢23333333)。後世學子/學者們為了自己的Reference,也會選擇這些Paper過來當論據。畢竟對於絕大多數領域來說,也就那麼百十來篇理論奠基地位的Paper構成了Reference的主體。


當然有,但是這個問題很複雜。

CS可以說是實驗可重複性最高的學科了。除了一些隨機化的方法,其它理論上都應該是可以重複的,因為代碼/編譯器不會撒謊。

但是即便如此,許多paper,甚至頂級會議的paper中聲稱的實驗結果都是難以再現的。這裡的難以再現是指:我們採用作者推薦的調參過程、運行環境、數據集,但依然無法再現。這時,我通常回去找老闆談,而老闆一般會說:呵呵……

學術界也是一個社會,並且是很強的人情社會。我只能說到這裡了……


如果非要拿房地產和科研比,房地產並沒什麼泡沫


一切不符合理論的實驗結果,都是由於隨機誤差而引起的。

題主圖樣了。我們不會去造數據,因為這樣太容易出破綻了。我們只是挑實驗結果,使到發表的數據跟我們自己提出的理論吻合。僅此而已,怎麼算造假呢?呵呵。其實挑實驗結果這個事情,滿大街都是。挑結果這事,韓國中國台灣印度一檔,日本一檔,歐美一檔。

其實倒是有些辦法可以分辨出這些文章來的:

  1. 被引用數量,這沒啥好說的,硬指標。

  2. 如果你發現一篇文章的樣品數量比較少,而且沒有error bar的話,十有八九是挑結果了。

  3. 某個group要是發現一個好的新方法,必然照著這個方法灌上一堆文章。如果你發現某個group的文章沒有連續性,也就是之間沒有什麼聯繫的話,有問題的概率也會變大。

PS:如果文章是關於合成方法的話,那看看get個idea就完了,沒有一模一樣的機器,一模一樣的人,別指望能重複。

PSS:其實做實驗比做理論難多了。論難度:實驗&>理論&>&>計算。

PSSS:現在研究生太多了,文章質量參差不齊,我現在讀paper的時候都不指望能學到啥了。尼瑪那些文章,邏輯上面自洽已經不錯了,尤其是國內的文章。

from http://www.phdcomics.com


太多了。

一個控制方法,看作者的模擬和實驗曲線都有種豁然開朗的喜悅。

既然沒有別人的設備就按照數據驗證一下模擬結果吧。

自己跑一遍發現不一樣——肯定是數據抄錯了;

檢查一遍發現不一樣——結構有問題?不應該啊;

檢查一遍還是不一樣——人生就是這樣喜怒無常啊,再看看;

……

十幾遍檢查,和別人討論之後,仍然不一樣——呵呵,這個作者一定用的是定製版的Matlab吧。

後來我才知道,原來那些曲線、那些諧振,都是可以PS的。Naive了,sigh~


我只是選擇有效數據而已。


碩士和博士論文被查出來數據造假,都會被吊銷文憑,追求真理沒錯,這麼黑表姐真的好么?我們學校里,每年都會有因為博士論文不合格,已經畢業很多年的被吊銷學位。數據造假的確實很多。國內的大多數文章都不被看上眼,都成不了大氣候,也沒人糾。像小保方晴子這種,這麼招眼,全世界的大牛都在圍追堵截,現在的這麼慘也是可以理解的。


參見韓春雨


就我做的控制學科領域來說,是不存在假的數據的,那樣幾乎立馬會被審稿人發現……畢竟有能力憑空捏造實驗數據的人沒有必要通過造假髮論文。他們可以寫綜述啊!

所以學術圈很單純很美好咯?呵呵,naive

數據是真的,但是大部分都是做了99次失敗,第100-105次成功。 選了最成功的那一次,還截取了波形最好的部分……搞不好還做了數據美化(比如濾波、坐標轉換什麼的。這不算造假,因為實驗的器材不可能是完美的,肯定有雜訊。但是濾多深,哪些是隨機誤差哪些是你控制策略自己的問題就很難講了)我做出來了啊,你看做了五次獨立重複實驗都沒問題啊。但是你也很難證明你99次失敗是隨機誤差引起的,還是你的控制策略有問題引起的還是別的什麼。

你說在做106次?發完論文誰還去碰那些啊……很危險噠,動不動就幾百伏几百安碰到會死人的造嗎……

現在看同行的實驗結果,數據分析我都自動打七折-九折看


臨床型同學數據早編好了,科研型同學還在一遍一遍的重複實驗 這研究生讀的好累


我現在研二,是計算機專業的,研究的方向數據集特別缺乏,這個方向本來數據集就要自己搜集的。。唯一下載到的數據集還是特別簡單的,我想的方法無法針對這樣的數據集,看論文里說很多都是使用眾包平台,類似於問卷調查之類的。。召集自願者共享數據。。所欲誤差很大的。。數據必須自己構造。。當然涉及一些造假了! 另外 有誰知道有哪些好用的平台可以搜集實驗數據么???


分頁阅读: 1 2