論文造假被AI抓：機器學習檢測出4000多論文造假，一年損失高達10億美元

01-20

【新智元導讀】在生物醫學領域的論文中，AI已經搜索出9%的高度重複圖像，0.59%的論文被認為存在欺詐嫌疑。因圖像造假撤回的醫學論文，一年時間可能浪費接近10億美元的研發成本。

「打擊論文造假，維護科研正義」。這不是一句喊口號的話。

今年6月，斯坦福大學微生物學家分析了2009-2016年發表在分子與細胞生物學（MCB）上的960篇論文，發現其中59篇（6.1％）含有「不適當的」重複圖像，約有2％值得再去進行圖像證偽。

不過，斯坦福大學微生物學家的工作完全依靠手動，五位研究人員靠十隻手從近1000篇論文里總結出了這一成果。

現在，AI的介入讓論文中的可疑圖像被發現的概率大大提升，一個顯著的成果是，在生物醫學領域的論文中，AI已經搜索出9%的圖像是高度重複的，0.59%的論文被認為存在欺詐嫌疑。

用AI打擊論文圖像造假，仍有4000多篇醫學「問題論文」

使用AI來打擊論文圖像造假的工作是由紐約雪城大學（Syracuse University）機器學習研究員開發演算法，他們分析了PubMed Open Access子集(PMOS)中截止到2015年發布的所有數據，包含了760036篇文章、超過200萬的數據。

研究人員構建了一個pipeline，以自動檢測不適合圖像重用候選對象，在初步檢測之後，刪除了可能只是文本的圖像或表示為圖像的方程式，留下了大約200萬張圖片。

接著，研究人員發現每張圖像平均有大約1K高熵關鍵點，這產生了大的相似度檢測問題，研究人員使用近似最近鄰演算法來解決這個問題。之後，機器學習演算法來估計是否顯示生物圖像。

檢測複製-移動重用。A.癌變細胞和縮小部分的原始例子。B.關鍵點(高熵區域)的計算C.最近鄰匹配。D.集群關鍵點、跨集群匹配和仿射變換。

最後，使用人工來評估不當重用。

演算法檢測圖像區域重用，同時對旋轉、裁剪、調整大小和對比度變化具有魯棒性。總的來說，這項研究得出一個結論：在PubMed Open Access上，大約有0.59%的文章會被一致認為是具有欺騙性的。也就是說，在760036篇文章裡面，大約有4484篇文章涉嫌造假。

學術研究論文中的圖像造假的禍害十分普遍。

兩個星期前，Science聯合撤稿觀察發布了一個「撤稿」報告，許多數字令人震驚：過去10年里學術期刊撤回的論文數量增加了10倍，撤稿率最高的國家中國排第7，撤稿最多的10位作者中，中國佔了兩人。

Top 10撤稿作者（數據來自Science）

在撤稿觀察的資料庫中，有18000份研究論文被撤回（最早可追溯到20世紀70年代），其中，317篇被撤回論文進行了圖像篡改，約佔整體論文的1.7％。

賓夕法尼亞大學生物工程副教授Arjun Raj早在2012年就指出，平均一篇生物醫學研究論文背後的科學成本約為30萬美元至50萬美元。而柳葉刀報道稱，美國研究人員在當年發表了近152000篇論文。

這樣推算，即使每篇論文成本30萬美元，美國研究人員在2012年發表的所有生物醫學科學論文的成本也將接近500億美元。

如果2％的論文因為圖像偽造需要撤回，美國可能會在2012年浪費接近10億美元。隨著全球科學產量每九年翻一番，照此計算，自2012年以來，因撤稿產生的負利潤率可能會更大。

有些研究人員認為，這麼多年來，論文圖像篡改問題一直在惡化。

來自美國研究誠信辦公室（the United States Office of Research Integrity，ORI）的數據表明，在Photoshop發布後，他們所處理的涉及圖像處理的案件比例有所增加。

技術在打擊論文造假的過程中，一直是一場「貓鼠遊戲」。AI除了檢測圖像區域重用，也成為對抗Photoshop的利器。

今年9月，Scientific Reports發表了一篇論文，文章指出，基於植物Rhus toxicondendron （毒性常春藤）的稀釋度非常高的順勢療法，至少與減輕疼痛的藥物（加巴噴丁）一樣有效。

不過，很快這篇介紹順勢療法的論文，被生物學家Enrico Bucci使用的一款軟體標記出來錯誤：在兩種不同的實驗中，所建議的藥物濃度差別很大，而其圖表卻驚人地一致。

後來，論文作者回應稱，他的的團隊在準備手稿時犯了一些無意的錯誤，導致重複的圖像和重複的數據。

作者表示，文本和數字之間的差異是錯別字的結果。該小組將要求Scientific Reports更新該文章並進行更正。但也表示，「這不會以任何方式改變科學結論」。

然而，即使基於軟體的方法已經被廣泛討論了近十年，使用此類應用程序的公司還是很少用軟體發布他們的結果。

基於軟體的方法仍然需要人為的監督支持。檢測圖像處理軟體的開發有可能增加掃描圖像期刊的數量。然而，需要注意的是，軟體的使用並不能消除對人為干預的需求。軟體的輸出必須由人來評估。

一個領域是軟體開發有可能對大型文章資料庫的圖像複製檢測產生巨大影響，使用視覺檢查技術不可能進行這種大規模的比較。

AI來檢測論文圖像造假在未來可能有兩種形式。一是，公司可以為期刊編輯提供定製的應用程序，然後編輯可以使用這些應用程序對即將發表的論文進行分析，這可能類似於反抄襲軟體的工作方式。

而另一種方法是，圖像完整性分析公司將自己的人力和計算機資源分配給期刊進行圖像完整性檢查。

隨著自動化的圖像分析軟體演變為一個企業，那些造假的研究人員可能會發現他們的計量很難再「瞞天過海」。然後，也許會出現另一個更為複雜的工具，使得造假的圖像更難以被發現，這場「貓鼠遊戲」更能還將繼續。

參考資料：

https://thenextweb.com/science/2018/11/06/meet-the-people-busting-scientists-who-fake-images-in-research-papers/

https://www.nature.com/articles/d41586-018-06967-0

https://www.biorxiv.org/content/biorxiv/early/2018/02/23/269415.full.pdf