CV/ML頂級會議上的灌水文都有哪些特徵?如何快速判斷頂會論文是在灌水?
有一個觀點我在不同場合講過很多次:評價一個工作需要取決於評價者所佔的立場以及背景。做理論的人覺得做應用的太水,做應用的人覺得做理論的毫無用處。所謂屁股決定腦袋,學會換位思考很重要。
貼一個我PhD畢業時總結里寫的一部分:
問題八:什麼是好的research?
首先說,這是一個見仁見智的問題,和每個人背景尤其相關。例如一個常見的鄙視環就是做理論的會鄙視做應用的,覺得毫無新意。做應用的反而覺得做理論的大多證明了一些毫無意義的定理,都不work。首先,懂得尊重別人的research,對自己不懂的東西不亂髮表意見是一種美德。其次任何一個research可以至少從方法的創新性和性能這兩方面劃分,所以我們會有四種劃分(為了方便表述,下面的好和差都是相對而言):
- 創新性低,性能差:這樣的research應該是每個人避免的,除了浪費自己和他人的寶貴時間,沒有任何意義。 可惜就算在頂級會議里這樣的工作還是不少。
- 創新性低,性能好:這也可以算作一個solid的work,尤其是可以講清楚為什麼一些小的改動會提升性能,這些不起眼的trick往往包含著對問題本身的insight。工業界尤其歡迎這樣的工作。
- 創新性高,性能差:俗稱的「挖坑」的工作。這樣的工作包括提出一個全新的問題或者對一個已有問題的全新解法。這樣的工作雖然可能在文章中只提出了非常簡單的baseline,或性能並不能比過最好的已有方法,但是可以啟發大量後續的research。這是典型的學術界中的好工作。例如CVPR中的oral paper大多屬於這個類型。
- 創新性高,性能好:這樣的research自然是最好,不過大多數時候是可遇不可求的,往往需要「時勢造英雄」。
就算是同一個人,在不同階段對於什麼是好的research的定義也會變化。例如我自己,在接觸research的初期會比較喜歡fancy的模型,然後逐漸強調一個工作的性能,對一切性能達不到state-of-the-art的統統不感興趣,再到現在能夠相對客觀地評價一個paper的優缺點,能從前面提到的第二類第三類的paper里分別汲取營養。我想這個過程也應該是PhD成長的必經經歷吧。
講真,現在小學生reviewer越來越多了,上來就噴,人云亦云。如果以後我有機會帶學生的話,一定會把客觀公正地評判別人工作作為重要畢業標準之一。
學術會議除了交流學術成果外,還有一個重要功能是培養新人。雖然存在super star登場就是開創性的工作,但絕大部分人還是從小白文開始,慢慢積累經驗。
小白文一般來說是基於前面的工作,做一點細微的改動,然後有理有據的把結果寫下來。這樣一方面通過實際動手熟悉這個領域,另一方面練習寫作。但從讀者的角度來說,這些小白文十有八九是灌水。
更一般的來說,隨便找個頂會翻翻10年前的論文集,會發現目前還有啟發意義的工作也是極少。90%論文的主要是給作者練手,剩下的9%可能會啟發數個人,真正能啟發很多人的論文就是那1%。
所以對於研究者來說,一方面既不要覺得灌水是恥辱也不要覺得這就是目標,比較好的心態是總是保證下一篇文章比上一篇要好。另一方面也如 @周博磊 所說,讀別人文章時放平心態。與其去糾結為什麼這麼水的論文也能中也有人引用,不如去學習如何在茫茫論文集里找到閃光的idea。神經網路加層,圖模型加圈,優化目標加正則。
說說我這幾年看文章的體驗:
一開始時候,我總是從difficulty的角度想問題,比如這個idea是否足夠新穎(我自己能不能獨立想出來);這個motivation是不是足夠強,以至於對某一領域應用做出足夠的新貢獻;這套求解方法是不是足夠non-trivial,等等。這麼想需要花費很多時間,如果到最後發現是一篇價值不大的文章,讀文章的人自然會比較沮喪。
後來我覺得這麼去讀文章存在問題,其一就是這些評價是無法足夠客觀的,很多時候取決於你知道多少,而文章里又新告訴了你多少。如果一篇文章玩套路你又沒有察覺,你說不定還覺得人家高大上呢。所以以此來判斷水或者不水本來就是相對的。
這麼讀文章還存在一大更嚴重的問題,那就是忽略experimental setup,related work和motivation部分。尤其是看自己領域內的文章,這部分內容都是很容易直接跳過的或者只是粗略看一眼。然後從自己的角度「傲慢」地去審視文章的其他部分。
一旦這麼做,很多人就喜歡走極端了,比如覺得這東西不能直接解決實際問題,比如覺得這東西演算法上沒什麼新貢獻,比如覺得實驗結果比以前方法提升不多,比如覺得計算量太大不實用等等——總是能找一些文章的weakness。
但是反過來想沒有一篇文章從各個角度看都是完美的,所以我的觀點是首先還是要看這篇文章是否是有效的backup它自己claim的contribution,而這些contribution是不是適合被投稿的venue接收。只要滿足這兩個條件,我覺得就是可以的。如果一篇文章沒有claim自己在演算法上有創新,那麼就沒有必要計較它倒是是不是演算法上做了一點或有或無的改進;如果一篇文章沒有claim自己在應用中解決了實際問題,就沒有必要計較它實驗是不是比其他不相干的方法好了幾個百分點。以前很計較,老評論這篇論文很水那篇論文很水的。現在看開了,大家出來混都不容易何必呢,you can you up。歡喜的論文多看兩眼,不喜的論文得過且過。問道之人自己一畝三分地管好已經不易,還是多去發現別人論文里的好和值得自己借鑒的地方吧。
了解一篇paper是否灌水,主要是為了節約自己有限的時間,把時間更多得分配到創新度更高的工作中去,而不是評價他人。
個人判斷 「CV/ML頂級會議上的灌水文都有哪些特徵」的標準: 沒有為讀者提供新的認識。
舉例說明:
CV/ML中最好的一類自然是創新性、實用性都超高的paper,然而這種paper實際上少之又少。
大部分paper在做
1. 組合,A 方法(或問題) 和 B 方法組合
2. 統一多個模型
3. 小改進(發現原模型在一個方面有缺陷,做一點修正)
4. 理論解釋
這幾種paper既可能有實際貢獻,也有可能做得沒有太大價值。
關於組合:第一個把某個方法B組合方法A(或結合某一個問題A)的paper顯然有貢獻,讓讀者知道 「原來這個問題A可以用這個方法B打開思路」。但是如果世面上已經有 「A、B、C」 「A、C、D」,「A、D、E」的組合,再搞個「A、B、D」的組合,又沒有明確的依據或證明來說明這種組合方案好,只是說做了一種前人沒嘗試過的組合,實際上很可能價值不大。
關於統一多個模型:統一模型的目的在於為相關的研究提供完善的理解角度,從一個簡單漂亮的框架出發把其他若干種模型作為特例,並且從這個框架還能啟發得到尚未提出的其他模型,貢獻就很大。這類paper中,比較沒貢獻的是 「強行歸納型」 paper,這種讀起來往往也是make sense,然而「統一模型」本身過於複雜,強行組合了A,B,卻解釋成A,B的統一框架。
關於理論解釋:這類paper逼格較高,數目相對也比較少,大部分都有一定貢獻。其中個別沒貢獻的常常是:過度假設(假設了一些根本不合理的條件),牽強附會。牽強附會這一類是從某個地方拿了一個理論過來,然而這個理論卻並不真的解釋模型為什麼好。例外:過度假設中有一類是有價值的,比如一個問題難度極高,完美解決目前沒戲,所以,往往可以做一些較強的假設。
優化問題換個loss 換個regularization 把2範數換1範數,1範數換非凸。參見幾年前cv ml用lasso系列的灌水。
貝葉斯和概率圖模型加邊加節點,把優化問題變成概率圖模型。參見lda系列灌水,參見pca、svm的概率化。
幾年前nlp問題套lda,現在套word2vec。
deep learning灌水套路我沒掌握,請更專業的人來解答。說一個CV類水文在文章標題上的常見特徵: (但符合特徵的不一定是水文)
一些表述寬泛的定語(如{consistent/robust/joint/regularized/generalized/discriminated/structured}) + {learning/coding/dictionary/representation} + {based/for} + 經典保留曲目(如{image segmentation/verification/identification})
隨便舉個例子: robust structure-regularized representation for cell identification
neneralized (不知道有沒有中槍的。。。)
這種文章通常都是換個loss 、換個範數、換個regularization的灌水工作。
至於deep learning灌水文命名套路,通常是「 deep feature for/based XXXX」,這類文章通常自帶state-of-the-art的結果,但往往能在兩三年前的頂會裡找到hand-craft特徵的版本。
後一類工作其實還好,親自動手做過dl的都知道把網路調work的過程中會遇到各種各樣的技術細節,為了解決這些問題所做的努力並不一定會在文章中體現出來。而有些人沒完沒了地灌第一類水文則是非常地不體面。- 換數據集:把自然圖像數據換成醫學/光譜/深度圖和視頻。同一套演算法,不同的數據,low-rank從二維圖像塊用到三維張量啊什麼的
- 同一個問題換模型:以前Sparse Coding的模型現在簡單套用Deep Learning的模型來處理同一個問題,又可以水一堆文章,超分辨、去噪、去模糊、平滑、JPEG Deblocking、壓縮感知...low level的都是這樣...
- 把現有的模型/求解方法組合嵌套:各種優化演算法都試著往模型里套,進化計算求解神經網路、ADMM求解神經網路、神經網路套字典學習
學術界文人相輕的現象一直很嚴重。從讀PhD開始就經常聽說,Prof.A特別看不起Prof.B的工作,Prof.C要是review到Prof.D的submission一定會kill掉。其實,「灌水」也是需要技術的!與其鄙視其水,不若師其長技。一篇文章發出來,總有他的shining point,innovative ideas, solid methodology, comprehensive experiments都可以成為他們被選中的原因。更多的關注並學習他們的長處,對將來更好的展示自己的work都是有好處的!記得當年word2vec的文章剛出來的時候,就聽到過很多人說這個文章好水,但不妨礙這種簡樸的方法被各個IT公司應用到了無數實際場景中。
居然有想提升分類器性能但懶得提特徵跑知乎來問的人,哈哈哈。
水paper就是你看完標題和摘要就知道怎麼做的,然後特別嫉妒作者,一種手沒別人快的沮喪感隨之而來,轉而表現為憤怒或失望的。
水和不水是相對的,主要看你自己什麼水平。你變成大牛時,你會感覺到會議的洪荒之力...私以為只要paper本身有insight,即使實驗結果一般,都不是灌水
稍微偏一下題,10年有人訓了個分類器去自動review一篇CV文章的好壞:Paper Gestalt。
文章的訓練樣本來自CV三大會的正會(正樣本)和Workshop(負樣本),最終分析得到一些結論,分析了和圖表、頁數、排版等的關係,有興趣可以看一下。
如果你是小白,每篇你都會覺得很厲害
但如果你是業內精英,那麼大部分都是灌水文。。
會議文章每年快上千篇,每篇區區8,9頁,能有真正impact還是很少的。如果每篇都要求有開天闢地的contribution的話,那singularity也真是不遠了。。
很多都是大家覺得差不多能做的,有人把它認真的做出來了。難道其他人就做不出來了嗎?不是,說不定還做得更好,只是精力有限,重點不同而已。
也有不少是提一些有趣的小問題,解決的很聰明。這種看著很有趣,不過實際影響大嗎?我看也未必。
難道這些就都是水文了嗎?well...和nature science什麼的相比而言卻是有點水。不過,有趣而且可能有用,應該也算是滿足最低標準了吧。
當然真的水文也有一些,畢竟審稿模式限制太大,看下author,一笑而過就好。。換個網路,換個數據集(鳥啊,花啊,服裝啊,草圖啊,行人啊,車倆啊),換個損失函數(尤其是triplet loss和contrastive loss,簡直泛濫)
看到大家都是來批評水文的我就放心了,默默的學了幾招回去開始灌
NLP裡面以前是玩LSTM。。。CNN-LSTM, CNN-GRU
現在是換著法子玩attention
上世紀九十年代的演算法換個名字就可以發ICML。
說下我自己的ECCV投稿心得: 得分244,倆給弱拒意見的審稿人,其中一位指出我們的模型的結果,用rnn可以得到相同的結果,然後又指出我們沒有在大資料庫上做validation,另外一個審稿人也指出實驗結果沒有在大的資料庫上validation……但是我看到eccv上有一條,如果是理論研究的論文,可以不用validation。我想這就是做應用的同學的赤裸裸鄙視。這篇論文經過擴展已經被SIAM imaging sciences一輪小修接受,並不算渣論文。
這就是所謂的做application同學眼中的灌水論文。所謂水不水主要看motivation和解決的問題,有些問題確實可以用所謂的nn解決,但是這不意味著傳統的PDE或者variational的方法沒有研究價值了。所以在一些nner眼裡,cnn早已經一統天下,千秋萬世。推薦閱讀:
※如何評價 Kaiming He 最新的 Mask R-CNN?
※怎麼及時掌握/把握深度學習的發展動向和狀態?
※Instance Segmentation 比 Semantic Segmentation 難很多嗎?
※如何評價李飛飛和李佳加盟谷歌?
※如何通俗易懂地講解 Photoshop 中的「通道」概念?