如何看待國人的論文SARM作者將論文從nips撤稿?

SARM (Stacked Approximated Regression Machine) withdrawn : MachineLearning

已經傳瘋了,大家都說這是scandal.


謝邀,這件事情,我覺得本人的動機如何,估計誰也無法知道,但是我們可以探討一下從中可以學習到什麼教訓。Reddit上的討論很好,有興趣的同學可以看看。

首先,如果這篇文章的確是真實的話,那的確是深度學習領域的一大突破。從LeNet以來,supervised sgd training一直是保證實驗效果的必要途徑,而這篇文章說明,unsupervisee layer-by-layer pretraining,直接類似k-svd或者OMP這樣的演算法就可以達到非常好的效果,這幾乎顛覆了我們以前對於深度學習「需要大量訓練數據」的認知。

同時,這篇文章的一個疑點也是很顯然的:自從Olshausen提出sparse coding以來,有無數的工作試圖將類sparse coding(包括OMP,ISTA這樣的相關演算法)應用到多於一層的情況中去。但是,這些工作都失敗了 - 這篇文章似乎沒有提出什麼新的演算法,但是為什麼能達到那麼好的效果呢?

大家都傾向於相信Tom組的這個工作,因為Tom組以前有很不錯的sparse coding論文,比如說Jianchao Yang的ScSPM。但是,根據Reddit上復現的結果來看,作者似乎使用了測試集數據來做參數訓練和選擇(具體的方法還未知,作者目前的聲明中也語焉不詳)。在機器學習中,這應該是一個初學研究生就應該學習到的標準:測試集不能被用來做任何訓練相關的調參,如果需要調參的話,應該在驗證集(validation set)上做,或者在訓練集上做k-fold cross validation。

所以,作者很顯然犯了一個非常低級的錯誤,或者有意隱瞞了這個細節 - 我傾向於相信後者,因為很多證據表明,原文中的很多claim,比如說訓練時間等等,在現有的實驗方法中是完全不可能存在的,作者本人不可能實現了文章中提到的速度。為什麼文章會有意這樣寫,這是一個很大的問題。

我無意批評作者本人,但是從最近幾年審的稿子來看,咱們有一些中國的留學生(國外也有,比如說其他答案提到的sentence2vec,目前大家傾向於相信文章的實驗不準確)的確傾向於有意無意忽略一些實驗的細節,或者故意不仔細調baseline的效果,使得文章提出的演算法比其他方法好一截。這個問題在深度學習上尤其明顯,因為網路結構的小變化有可能會導致實驗結果很大的區別。我有時候會看到文章,提出一個比較fancy的演算法,但是在選基本網路結構的時候,baseline用AlexNet,自己的演算法用Inception。

這不對。

最近幾年我在審稿的時候,發現用的最多的一個評論是「more ablation study is needed」。作為一篇文章,最重要的是要告訴我們「為什麼這個方法work」,而不是「實驗效果提高了0.2」。越有影響的文章,對於方法本質的探討越多,而對於實驗結果數字的追求越不重要。

這一次SARM這篇文章的影響,不僅在於實驗設計中的小瑕疵,而且在於實際實驗和文章的內容嚴重不符。這樣的影響很不好,學術圈講究的是誠信,其實大家都知道,私底下聊天的時候我們都會提到「誰誰寫的文章水分很大」,「誰誰寫的文章一般都很可信」,因為大家的時間都很有限,不可能每篇文章都重現一下。比如說這次,Reddit上很多人都試圖重現這一演算法,我也在小規模cifar上試圖實現(因為太忙,還沒出有意義的結果,reddit上就已經有結論了)。從我個人的角度說,我會對作者將來的文章都抱有一定的懷疑,不是因為歧視,而是因為大家資源都有限,我會更願意讓我的組員關注其他工作,比如deepmind。

學術圈就是這樣,大家都是好人,但是也不會隨便姑息,一旦你被打上「有水分」甚至「造假」的標籤,你的學術生涯就會受到非常大的影響。希望我們大家都能從這篇文章當中學到一些教訓,有則改之,無則加勉。


補充下
相關熱議:https://news.ycombinator.com/item?id=12430621
https://twitter.com/ttre_ttre
https://www.reddit.com/r/MachineLearning/comments/51ut79/sarm_stacked_approximated_regression_machine/
https://www.reddit.com/r/MachineLearning/comments/50tbjp/stacked_approximated_regression_machine_a_simple/
https://twitter.com/fchollet/status/774065138592690176


我沒看論文,也完全不知道這些都是怎麼回事。 R 站內容看了,不過在我沒看完論文之前,我沒資格參與討論和評價這篇論文本身的工作,我也拒絕直接相信一個網站上的討論。
但從作者的敘述來說(https://arxiv.org/pdf/1608.04062v2.pdf)是其自己撤稿的,不是被 NIPS 撤稿。當然我這也是偏聽則暗。

撇開這件事不談。

說實話,因實驗做錯而撤稿的現象在計算機領域非常非常常見。常見到我們實驗室也有同學曾經做錯實驗然後自己撤稿,耽誤了發表。我每次做實驗都十分神經質地反覆檢查測試部分程序,生怕出錯,都快烙下病根了。但如果你們仔細讀一些論文就會發現,很多論文實際上實現了一個近乎和原來等價的模型,也都發了。當然還有很多復現不出來,作者自己也不給代碼也不管的論文,當年的 doc2vec 到底最後怎麼回事,誰能告訴我一個結論?

我還見過很多論文的後繼論文,重新彙報了原論文的實驗,但結果大有不同,新論文作者表示實現不出來。我自己做的領域,很多論文我也復現不出作者彙報的結果,我這技巧(Trick)都快上天了,還是無能為力。怎麼說呢,只是數值差一點的話,我基本就認為算是復現了。為了論文結果好看一點,有些注水,在這圈裡也不是什麼新鮮事。我知道這非常的羞恥,但有些人一周寫一篇論文,有些人得一年寫一篇,大家搞研究都不容易,最後你把 80.2 彙報成 80.3,我個人雖然不鼓勵,但也不是不能理解。

不過,一般注水的作者相對而言都是新手,因為比較有經驗的研究者都知道:
「論文的一切都在於貢獻,不在於結果」

你的結果只是一個說明你貢獻的例證,多那麼點少那麼點,大家看了毫無區別。你注水除了噁心我們這些後來實驗的人,就沒什麼別的用處了。有那些瘋狂調參和使勁弄技巧的時間,真不如拿來整理好你自己的思路,把論文的論述過程做到有理有據!因為 80.2 和 80.3 正常人都沒法記住其間區別,但你循循善誘的精緻論述會讓所有人印象深刻。我希望新手不要本末倒置!

如果這個人不是注水,而是謊報實驗呢,比如把 80.2 彙報成 99.9?說實話,這樣的論文不少,你去 arxiv 上翻翻那些沒發表的論文,真的有不少這種數據上天的工作。看了這些什麼鬼,我只想說「嚇死寶寶」了。但這類論文基本發不了,原因就在於你還沒明白「論文的一切都在於貢獻,不在於結果」!我不懂生物,但我們和生物不一樣,不能你說提高就提高,你得把論證過程說清楚。你論文的論證部分毫無見地,結果卻這麼好,鬼才相信。這種論文評審一般會委婉地說「not solid」,直譯過來就是「我不搞你那一套」。不得不說,確實有一些論文結果比較離譜還是發出來了,但量非常的少,除了 doc2vec 就沒什麼特別出名的了。而且很多就不是謊報,可能就是實驗出錯。

所以,我覺得我們不要搞個大新聞,還沒弄清就把人家批判一番。畢竟科研這碗飯不好吃,各種意義上都如此,多一些理解,少一些揣測。大家所有人都被這些事噁心過,你我都是,人家現在已經撤稿了,該過去就過去吧。把規範加在自己身上,被稱為高尚;把規範加在別人身上,那就是苛刻。苛刻不是錯誤,我只是希望我們能多一分高尚,少一分苛刻而已。


Atlas的聲明,表示是自己的問題:https://arxiv.org/pdf/1608.04062v2.pdf

對技術上的問題有一些描述,希望有懂行的人解釋一下……

不過他還是對自己的工作挺有信心,還表示未來會繼續改進,還會把代碼技術報告公布,重新提交論文……

希望真的只是一些細節上的問題,不會對Atlas剛剛起步的faculty生涯造成太大的影響……


就是學術不端嘛,這也要洗白
一個現在說是要訓練days的實驗,在投nips的時候說的可是hours
大家都知道深度學習一個很大的毛病就是訓練時間太長,要不是claim這麼快的訓練速度,一個sparse coding的應用怎麼可能發頂會論文,還引來無數專家的關注和討論?難道洗白的各位不知道文章的賣點在哪裡?就是那個造假的訓練時間嘛
順便說一下,這種調參方法還偷看了測試集,無論未公布的細節如何,都是一種作弊演算法

確實,不能復現的論文很多,但是我想不是所有不能復現的論文,都是數據造假和演算法作弊。


第一次回答問題,看到這個問題自己也有點感觸:

研究生才開始接觸深度學習相關內容,到目前為止,個人越發感到裡面水太深。

(1) 由於深度學習很多東西在理論上並沒有系統而嚴謹的證明,所以很多文章,其motivation以及演算法原理部分感覺都是牽強附會的「強行解釋」,更多的可能是在根據實驗結果反填原理(這種情況已經算不錯的了T_T)。 這種情況下,大家就算對論文有疑問有不理解,往往也就過去了,因為確切的理論大家都沒搞明白。

(2)由於深度學習的最後表現和數據有關和調參有關(和各種各樣的你不知道的trick有關),所以這給了很多人注水的可能。即使你復現不了別人的論文,往往你自己就要給自己解釋一番:數據不夠啊,參數沒調好啊... 所以,大部分情況下注水不會被揪出來。

(3)還有很多論文的實驗也越來越水。baseline是一個很大的問題,「操作空間很大」;還有很多則是在選擇性的實驗,深度學習裡面"mnist"和「cifar10」是兩個快被搞爛的數據集了,很多水文都在這兩個上面說自己的方法,但這隻能說明有效果,而無法說明效果好。


閑扯幾句。雖說大家應該就事論事,但為什麼會有人不斷爆料各種事情,想必一定是有和Zhangyang Wang接觸過的人。他之所以能出這麼轟動的事情,難道不應該和他過於自信且傲嬌的性格掛鉤嗎?都說人的膽量是一步一步漲起來,如果沒有剛開始的小偷小摸,沒有慶幸自己的渣行為被人發現的小愉悅,請問是什麼助長了他的自信和目中無人且自詡為擁有expertise的人?換句話說,他一年能投中這麼多文章,有多少篇是真正老實做過實驗的?既然都有人說讀了他這一年6,7篇的文章,不難發現東西都是換湯不換料的。況且看他的CV,他還得花不少時間去social吧?之所以之前沒有人去懷疑揭發舉報他,是因為他還沒有名望,並沒有人去關注他。就像賈神所說,花時間去讀這些沒營養的東西,不如去關注deepmind的工作。 如果他撤稿的這篇文章不提到imagenet,應該也不會中了,既然提及了,那麼就大膽一把,心裡默念反正也沒有人有那閑功夫重現實驗吧,然後就玩出個震驚學術圈的大故事。只是沒想到expertise的人除了他還是大有人在的。學術圈亂搞和灌水的人是很多,說實話,你默默灌個小水,湊幾個文章數沒人管你。錯就錯在,你灌著水還把別人當傻子看。

但是根據各種網上報道可以看出Zhangyang Wang也是個渴望出名的人,譬如說什麼他四年phd畢業就拿到TAMU的AP等,科大天才少年發明全球首款永動機型防丟器等,網路上隨便一搜屢見不鮮。不過想想也是,這類文章怎麼就沒個英文版的呢?只火在國內的各大小報了,我國的媒體大家也是知道的。不論是說他90後AP出的名,還是說他KS的iFind出的名,我只想說這次他是真的出名了,只不過是以一種不太光榮的方式讓大家熟知。我們也不是傻子,nips投稿至今也有好幾個月了,自當被人質疑後,幾天後他出來說這是個mistake,誰信啊。那中間這段時間自己就沒覺得哪不對了嗎?reviewer是沒時間沒功夫重現實驗,不代表大家都不會啊。也有人說他是被迫承認的mistake。拜託,若這事發生在你身上,你會立即就跳出來說我就是cheating了?你不得需要時間和coauthor們商討下如何公關而避免fraud之說嗎?

再說到Huang教授,Wiki上看也是80歲的老教授了,真要說到審文章,照Wang同學這麼發論文的速度,外加實驗室里不能只有他一個學生吧,哪個老教授能有精力讀得過來。所以真的要說錯的話,這一定是個人行為,說好聽點是自我保護意識不夠,說難聽點是雙商略低。

總之,我個人覺得有人爆料並不是壞事,所有事情都是事出有因,且講究個因果。想必他的性格對他現在的結果也是有影響的。若真如大家爆料所說,我個人感覺,他說不定現在在背後牟足了勁兒握拳暗說「我Wang某人怎麼可能被這麼點小事壓倒,你們就等著看吧」。

總之,Zhangyang Wang這次是真的出名了,只不過是以一種不光彩的方式,並且他搭上了我認為最可貴的東西:別人對他的信任。

==================
外加一句:做人若真是這麼清白,註銷weibo,facebook這種大家熟用的社交媒體做什麼?這難到不是做賊心虛怕人質疑議論的一種小小體現嗎?linkedin上若是能公開留言且能被大家看到,可能現在你們在linkedin上也找不到他了。


隨便討論一下。最近認識的一群人都在討論這篇文章,聽認識的intern說Google和Facebook內部也很關注,大概就是效果實在太好,引得所有人都想重現一把,結果怎麼都做不出來,結果發現是假的。汪本人也在知乎:汪張揚 。

Atlas的解釋完全是避重就輕,比如說,他在解釋裡面輕描淡寫地說「the best performer was selected」而沒有解釋如何判別the best performer,而reddit上有人指出,除非使用測試集數據,根本無法達到文章中實現的效果。所以,這是直接造假

Keras的作者Francois也表示原文有造假的嫌疑。

Reddit上一邊倒地表示本文已經沒有什麼學術上的價值。

而Atlas Wang本人以前的一番事迹更是歡樂。

他在2014年的時候作為co-founder高調參與了kickstarter上的一個項目叫iFind,公司名字叫wetag:Kickstarter &>&> iFind。由於腦洞太大,而且造假早的實在太離譜,最後被一批人吊打,有人總結了一大長篇分析(google doc,需翻牆):https://docs.google.com/document/d/1tI0mE85oXhnyjvn0HXnSmjOAE9C2KHu-sKYvBdoxZQk/edit。

汪本人在豆瓣上面先是假裝第三方來做推廣,被人發現是跳雙簧,然後在豆瓣上和人對撕,當然最後謊言被戳破了,於是就沒有下文了:[更新kickstarter地址,全球可運哦]我的小夥伴是天才!做了一個超好玩的小東西!

該豆瓣討論區讀起來是如此歡樂,汪前面的欲揚先抑以及後來的惱羞成怒,躍然紙上。還有人提到 「實際上前幾天在灣區一次午飯時就已經在議論這件事(wetag),當時Andrew Ng也在場,有人甚至還提到汪同學的名字。」 - 看來早有八卦?期望有相關人士爆料。

可笑的是,Atlas一直以來還是把他那個wetag的專利掛在自己的主頁上,直到昨天他早年造假的事情被翻出來,於是悄悄刪掉了。但是,google專利搜索還能搜到:https://www.google.com/patents/EP2947474A1?cl=en

這個專利申請故意被弄成非公開的,這一點非常可疑,而且直到今天沒有任何關於該專利的文章或者產品問世,一點相關消息都沒有。

所以,我們似乎可以確定,這是一個當年就有作假前科的人,在學術圈還想用這些小伎倆搞點事情,可惜每次都搞不清楚輕重,這次造假鬧出了個大新聞(unsupervised learning大勝哦),一下子震驚了整個機器學習界,如果成立,那將是AlexNet以後本領域最大的發現,於是各路學術大牛紛紛前來分析,最後騙術被揭穿,Atlas只好假裝是失誤。

但是圈子裡面的人,估計都能看出來什麼是實驗失誤,什麼是實驗造假吧。這樣的人居然還能當上TAMU的教授,只能說,大家千萬奉勸自己身邊的人,選導師的時候看看清楚,不要把自己的學術前途不明不白地搭上。

iFind被揭露是造假以後,Atlas在微博和Facebook上發了一段義憤填膺的文字:「iFind是打不垮的,我也是。」(iFind哪些細節做的不到位 導致被挖?)但是一段時間以後,他悄悄刪了自己的賬號(Expire112017的微博),再也不提這個事情了。

這次,Atlas一樣地在arxiv上說,「I am confident about
the technical merit of SARM... In the future, I will
release a software package for public verification, along with a more detailed technical report.」 但是,他會嗎?

這是最近幾年機器學習領域涉及中國研究生的最大的醜聞。


學術會議幾乎不會主動撤稿,即使有錯,也只是把別人找到的錯發個comment。學術會議重在討論、交流、宣傳,中國人似乎把會議太當回事了。學術會議不是期刊,不算太正式的出版物。所以應該是作者自己發現問題主動撤的。

至於怎麼評價,我覺得作者挺值得佩服。既沒有掩蓋,也沒有厚著臉皮繼續把文章掛出來充數,而是有錯就撤稿,這是非常負責任的態度。現在還不確定是錯誤還是造假,希望只是前者,不至於讓他把工作丟了。

犯了錯趕緊承認和補救是正確的態度。我見過有些頂會文章主定理證明錯;還見過有些實驗結果根本重複不出來;這些都沒撤稿也沒發更正。更極端的例子是某位搞基因編輯的國人,死皮賴臉扛著,繼續享受有爭議的成果帶來的利益。

=============

知乎真是可怕的地方!他涉嫌學術不端,給他扣個學術造假的帽子也就算了,畢竟有些依據。但是有人匿名爆料他的創業、私生活的事,實在是缺德。要是你們也遇到了不順的事,還順帶被人把以前的舊賬全翻出來,你們什麼感想?


教訓:不看無源碼的論文!


我先後兩次聽過他的報告,就是講怎麼用sparse coding堆起來一個深度網路。
第一次的時候,他還在讀博。我們老闆覺得他做的東西才是真正原創性的工作,另外他演講的時候語速特別快,表現的超級自信,我們這些學生聽得一愣一愣的。我當時覺得這個工作好有意義,滿是佩服。
第二次報告之前,他已經博士畢業了而且成為了TAMU的AP,朋友圈被他的消息刷爆了。大家開始對他有點膜拜了。可是再一次聽他演講,我反而覺得他這個sparse coding堆網路的工作有點不靠譜,一方面可能是由於我自己水平的提高,對問題和背景都有了新的理解,另一方面他講他自己這套sparse coding的東西幾乎可以對別的模型進行大一統,但凡動不動就來個大一統的人在我看來基本就是個大忽悠。之後我查了一下他的publication,看到他用這套東西發了好幾篇頂會paper,而且他四年博士畢業就成為了TAMU的AP,我就開始糾結是不是自己水平太低了理解不了他的工作。
這次NIPS撤稿的事情一出,我就呵呵一笑。現在,我對他的其他幾篇用sparse coding堆起來的頂會paper保持同樣的懷疑,除非他公開自己的代碼。
另外他的主頁上TAMU的AP沒有了,變成了UIUC的Research Fellow了,我很好奇這是怎麼回事。


對於2014質疑圍觀了所謂創業實為詐騙,與此人有過為數不多但印象深刻接觸的人來評論的話。fraud不足為奇。這篇非專業不評價,但對於之前創業也曾與樓內各位一般認為是年輕人學術創業,只是理論充足實際實驗經驗不夠。後來發現,數據造假,實驗沒有!對就是實驗沒有,因為不具備實驗條件。project被停之後此人聲明為因發現問題所以坦然面對?exm???此人之前面對所有質疑回復為,作為一個uiuc的dr,你們有理由相信我。。。exm????wang某人至少在此時此地,信用指數是為零的。當然當年本著還是學生,錢沒到手不能算實際意義詐騙雖做實但要給年輕人犯錯的機會最後息事寧人。時至今日,exm???paper沒看不敢妄下斷論。但是若真有不堪,只能對wang某人道,2014年我坐等你十月打我臉。兩年後就是這樣?多行不義必自斃,不信抬頭看,蒼天饒過誰。


感覺ml dm cv等領域實驗結果注水 或者瘋狂調參數提高結果的文章還是非常多的。頂會theory論文都有證錯的 實驗結果不能復現的就更是屢見不鮮了(華人的老外的都很多)。但最重要的還是文章本身有新意啊對人有啟發啊。實驗結果差點我是覺得都能接受啊,也許就是調不過別人唄。

wang這件事之所以鬧得這麼大還是文章中牛逼吹得太大了,而且做得還是時下最火的topic,引來諸多業內大佬的關注,不撤稿難道等著去開會被幹麼。。

當然 為了裝點下paper把85%注水成86%跟把85%吹成96%還是有很大區別的。。。

感覺這件事情主要告訴我們的還是要悶聲發大財 不要總想搞個大新聞


今日翻看了下他的publication list, 屬高產能者,個人CV也是眼花繚亂,且據挖,這已是他刪減隱匿部分信息後的結果。坐想,一名researcher,這麼多social的活動後(各種visiting,各種talks,各種awards)還有精力搞出這麼震驚學術圈的「工作」,可謂不是一般之人。選擇性看了看他的paper,發現也並非都是營養之物,純屬為充頂會文章數而努力罷了。出了這麼大的事情,他的撤稿後的note寫的無關痛癢,並沒有完全承認是fraud,但看似也不否認。甚至感覺好像還缺少一份道歉。再看到reddit等各種social network上的熱議,慶幸老外們還好沒將此類行為歸結為國人專屬,引以為戒之後確實略感shame。想到此Wang某人即將加入德州農工做AP,之後他帶的學生呢?和他一樣水水paper,騙騙頂會?再試試運氣是否還能衝刺個best paper?多少還是希望TAMU官方及UIUC官方能給些說法,取消學位還是取消offer,我個人覺得都不過分且合情合理。也許一個人也就影響了外界對整個學校的看法也不好說。這種行為對於想要做faculty的人來說著實不應該發生。話說回來,這種欺騙性學術論文期刊確實屢見不鮮,他的文章一放出來就有熱議,剛開始卻沒有多少人願意在公開場合討論這件事,若不是keras的作者公開質疑,可能這篇paper就得過且過了,並由Wang某人大言不慚的在Nips上闡述,說不定這麼顛覆性的文章還能拿一best。最後再一琢磨,此Wang某人是個90後,但成長在這麼正規且嚴肅的美國高等學府中,我們總不能再拿他還年輕還稚嫩還沒發paper的足夠豐富的經驗來安慰整個學術圈。總之,too young too simple.


cv,dl這塊很多reviewer對結果過於看重...也是目前圈子裡面魚龍混雜的原因


可憐那些掛名作者,叫你們華人不好好參與工作就喜歡亂掛名。

=============
這個事我說Tom也是有責任吧。通訊作者至少需要知道文章的主要結論是什麼吧,知道這麼浮誇的結論應該會產生懷疑好好check吧


我聽過在一個conference上他的presentation, 他的一個名言就是 " According to my expertises, ......", 在場的人一臉黑線.


WeTag的聯合創始人

項目被ks停了

https://www.kickstarter.com/projects/yuansong84/ifind-the-worlds-first-battery-free-item-locating


這讓我想起了日本的小保方晴子,共同點就在於總想搞個大新聞。數據是啥就是啥,不對就別吹得太厲害,差不多得了


八一下,所以現在是什麼結果?


推薦閱讀:

對於 Quant 來說, Financial Modeling 和傳統的機器學習方法有什麼聯繫和區別?
Softmax 函數的特點和作用是什麼?
如何評價rcnn、fast-rcnn和faster-rcnn這一系列方法?
有誰給解釋一下流形以及流形正則化?
計算機視覺中,目前有哪些經典的目標跟蹤演算法?

TAG:機器學習 | 學術紛爭 | 學術倫理 | 深度學習(Deep Learning) |