Ian Goodfellow談GANs論文評審:有這些跡象的論文要懷疑
AI 科技評論按:谷歌大腦研究員、「GANs」之父、《Deep Learning》課本作者之一的 Ian Goodfellow 自上次的線上直播里回答了網友們提出的種種問題之後,昨天也在 Twitter 上發表了很多關於 GANs 論文評審、GANs 研究現狀的想法。作為一直以來投入了大量精力在 GANs 上的研究者,以及作為參與了許多論文評審的審稿人, Ian Goodfellow 自然為 GANs 的進步感到開心,但他現在也同樣對領域內的現狀有諸多憂慮。AI 科技評論把相關內容整理如下。
「越是好論文,越是資深審稿人在看」
我想談談學術會議的論文評審的事。最近我看到很多人講「很明顯,好的論文都給資深審稿人看了」,或者「要記得去占論文,不然分給你的都是質量不高的論文」這樣的話。既然我現在也算是資深審稿人了,我想很多人應該願意聽到我說這句話:我自己不會主動要求去審那些明顯的好論文。
審稿人希望審哪些論文可能會出於各種各樣的目標。每個審稿人都應該想好自己的目標,並且了解一些其它審稿人可能會抱有的目標。我參與論文評審一般有兩個目標:
1.確保論文的質量足夠高;
2.減少我自己作為審稿人的工作量。
基於我的這兩個目標,我希望評審的論文多數時候都是可能需要拒掉的,但其它的審稿人不一定能看出來其中的原因。有一些非常忙的審稿人甚至會要求只看那些明顯質量很糟糕的論文,就是為了盡量減輕自己的工作量。
審稿人們其它可能的目標還包括:比一般大眾更早地看到有意思的研究(不過現在論文都傳 arXiv 了,這樣的人就沒那麼多了)、確保好的研究成果不會被拒、審閱他們自己做過深入研究的某幾個課題下的論文,等等。當然也有一些審稿人的做法很消極、很自私。比如,審稿人和某篇論文的作者有私人恩怨,那他就可能會要求審這篇論文,以便給它打個低分。現在大量論文都會先傳到 arXiv 上,論文投稿的匿名性大打折扣,這種事情也就變得常見了。
不過也有一件需要說明的是,審稿人搶佔論文的作用不一定有你想像的那麼明顯。區域主席一般都會把審稿人列表手動整理到比較高的水平上。起碼我自己做區域主席的時候確實這樣做了。自動審稿人分配系統經常需要忽略很多指定審稿的要求,以保證每一篇論文都會有人審。我自己就確實遇到過這樣的情況,之前已經選了「不想審」的文章結果還是分配給我了,我的好幾個朋友也跟我講他們也遇到過。
如果我做區域主席的話,基本可以肯定我會給每篇論文分一個在那個課題上稱得上絕對專家的審稿人,有必要的時候我甚至會邀請新的審稿人加入。比如我就經常從安全社區邀請審稿人來看機器學習安全性的論文。
如何評審對 GANs 做出通用改進的論文
對於 GANs 工作原理的理論和實證研究論文都已經有很多,關於如何把 GANs 用在一些有意思的或者奇怪的新任務的論文也有很多(比如第一篇用 GANs 做無監督翻譯的),還有很多研究模型的評價指標的。我沒打算談這些。也有很多論文把 GANs 作為一個大系統當中的一部分,比如用 GANs 做半監督學習、差分隱私、數據增強等等。這些也不是我想談的——這都需要在那個所在的大系統的應用領域中進行評價。
我下面想聊的是能夠普遍地讓 GANs 的訓練變得更穩定,或者能讓 GANs 產生更好的樣本等等的改進 GANs 表現的新方法。我首先推薦 GANs 論文的審稿人都應該讀一讀《Are GANs Created Equal》這篇論文,它解釋了為什麼這個領域的實證研究非常難做,要做的話如何才能做對。另一篇很適合閱讀的背景知識論文是《A Note on the Evaluation of Generative Models》,它解釋了為什麼有的模型可以同時具有很棒的樣本和很糟糕的似然,又或者同時有很糟糕的樣本和很高的似然,以及其它生成式模型會遇到的評價指標方面的問題。
GANs 的論文寫作有一大難點,就是如何有新穎性。現在大家已經提出了許許多多的 GANs 改進模型,很難把它們全都追蹤到,很難弄清自己的一個新的想法是不是真的以前沒有人做過。最好嘗試在谷歌上把它的四五種不同的叫法都搜搜試試,看看會不會有人已經提過了。已經有人把各種 GANs 的變體總結出了資源,可以到這個GAN ZOO看看。即便論文里提出的新方法不是全新的,它可能還是有一些價值的,但是審稿人應當確保論文作者充分了解之前的研究中的內容。
評價指標發展到現在,Frechet Inception Distance(或者它的類別內版本)大概是現有方法里衡量通用的 GANs 表現最好的一種方法了。對於 ImageNet 之外的數據集,定義距離的時候用模型而不是 Inception 是很合理的做法。有一些研究特殊情況的論文可能也會包括其它的一些評價指標(比如帶有 real NVP(real-valued non-volume preserving,無體積真值保留)的 GANs 可以報告準確的似然),但是如果一篇論文里沒有包括 Frechet Inception Distance,那麼我就很想了解一下這是為什麼了。
有很多論文希望讀者多觀察生成的樣本,並以此為主要依據形成論文所提方法的印象。這通常是一個不好的信號。以我的了解,有的領域的問題用以往的方法從來沒有解決過,然後 GANs 帶來了明顯的提升、能生成樣本了,這才是通過樣本展示方法效果這種做法主要適合的地方。比如說,用單個 GANs 模型生成 ImageNet 中各種內容不同的圖像曾經很難做,許多論文嘗試解決這個問題但結果基本都是失敗的。SN-GAN 成功地為所有類別都生成了可以辨認的樣本,那麼從這一點就可以看到 SN-GAN 是一項重大改進。(雖然這種提升也可能是所提的方法之外的因素帶來的,比如新的、更大的架構等等)
相比之下,很多論文中展示了來自 CIFAR-10 或者 CelebA 數據集生成的樣本,然後希望審稿人被這些樣本折服。對於這樣的情況,我作為審稿人其實根本不清楚他們希望我在其中找到哪些亮點。這都是一些已經基本得到解決的任務,那我也基本就對這些論文失去了興趣。同時,對於一些有某種小缺陷的圖像,和其它定性地有另一種小缺陷的圖像之間,我也不知道應該如何排序,也許這種時候擲骰子或者畫十字格可能會更合適一點?出於這些原因我一般不會把來自 CelebA 和 CIFAR-10 等等的生成樣本當一回事,它們也就只能佐證一下這個方法沒有大的紕漏而已。
對於任何一個實現了自己的模型作為基準模型的人,審稿人都應當很小心。有很多細小的改動都可以讓深度學習演算法出問題,而論文作者也有充分的動機不去仔細檢查自己的基準模型。一般來說,各個基準模型里至少要有一個是在別的論文中展示過的,因為那一篇論文的作者會有一些主動性得到好的結果。這樣做的話,對模型的評價起碼不會過於自私。
審稿人也應當檢查一下實現了一樣的模型、做了一樣的任務的其它論文,其中都分別得到了什麼分數。引用一篇論文,但是展示的圖像/分數比原論文實際寫的要差,很多人都在這樣做。當然了,其它研究領域內也有這種故意打壓別人的基準模型的做法,但是我覺得在 GANs 的論文中這種情況尤為嚴重。
有一些情況下,一篇論文研究的是一個全新的任務,或者是以前別人研究過的任務的某個罕有關注的方面,作者可能會有必要自己實現一個基準模型。在這種情況下,我覺得這篇論文可能需要花差不多一半的篇幅論證自己的基準模型是正確的才比較合適。
所有超參數的取值都來自哪裡也非常重要,一定要解釋。經常發生的情況是,新提出的方法之所以有更好的表現,真正的原因其實是作者花了更多時間、想了各種辦法為新方法優化超參數。
許多深度學習演算法,尤其是 GANs 和強化學習,每一次運行得到的結果都會有非常大的區別。論文里展示結果的時候,對於同樣的超參數應當至少展示三次運行得到的結果,才能對結果的隨機性有個初步的感受。有很多論文,從結果看來似乎是有所改進,但其實就是從新方法的結果里挑出比較好的,然後從老方法的結果里挑出比較差的,最後再放在一起比而已。即便有一些不能明顯看出在挑選結果的論文,通常在報告學習率曲線的時候也是用一根線表示新方法,一根線表示老方法,然後這兩根線之前的區別並不大。對於這樣的情況,我敢說同一個方法跑兩次的結果都會大相徑庭。
對於解釋超參數是如何優化的,說明選擇這樣的超參數是為了優化最大值、最小值、還是多次運行之後的平均值非常重要。還有一件需要注意的是,針對某種好的方法寫出一篇糟糕的論文是完全有可能的。有時候我們看到一篇論文里提出的新方法有很好的表現,但同時文中還有很多想法是沒有科學的依據的。後面這樣的做法審稿人應當嘗試駁回。
如果你是區域主席,我非常希望你可以對審稿人-論文之間的匹配做一些仔細的調節。我覺得這世界上沒有哪個人完全懂得 GANs 的方方面面。舉例說明,如果你拿到了一篇論文,內容是帶有編碼器的 GANs,那你應該試著找寫過 ALI、BiGAN、alpha-GAN、AVB 論文的作者來看這篇論文。即便是我,對於 GANs 下面的許多子課題的了解也是非常有限、無能為力。
如果你審的論文是關於模式崩潰的,然後論文作者認為模式崩潰意味著模型記住了訓練樣本的一個子集的話,你需要有所懷疑。模式崩潰的實際狀況要邪門得多。比如,模式崩潰得到的結果經常是一些奇怪的垃圾點,而且和實際數據一點都不像。在訓練過程中這樣的點還會在空間中來回移動。模式崩潰也有一種表現是對圖像中某種紋理或者背景的重複,其中有一些細微的改變,但對的情況在人眼看來應當有很大的變化。
今天講給大家的思考題就這麼多吧。對於各位 GANs 論文的審稿人來說,你們也可以考慮下給別人提出的意見在自己身上是不是適用。
via Twitter @goodfellow_ian,AI 科技評論編譯。
推薦閱讀: