Google AI：如何破解AI學術研究的贏者詛咒？

03-03

AI 科技評論按：當我們為各種測評任務中取得的分數歡欣鼓舞時，可能我們已經受到了「贏者詛咒」。

贏者詛咒：贏得拍賣品的中標者出價高於其他競標者，但他很可能對拍賣品估價過高，支付了超過其價值的價格，從而贏得的拍賣品的收益會低於正常收益甚至為負。換句話說，就是當你一心想要贏得競標時，卻偏離了你原本的目的。

機器學習領域在過去的十年時間裡取得了非常了不起的進步。從機器翻譯，到語言理解，到計算機視覺，到自動駕駛，到 AlphaGo，到電子遊戲（例如 DOTA）等等。

這一系列的快速進步背後最大的推力可能就是，學術研究領域越來越強調所謂的「win」文化：新發表的方法必須在某個給定的任務或基線上超過之前別的方法。這意味著我們已經把學術社區逐漸變成了一個有著明確判定輸贏的場地。

反思一下，科學的目的不是為了勝利，而是為了知識。

因此，當我們不斷在各種測評中取得越來越高的分數時，或許是時候該警惕了：我們已經受到「贏者詛咒」。

近期，來自 Google AI 的 D. Sculley, Jasper Snoek, Ali Rahimi, Alex Wiltschko 在 http://OpenReview.net 上提交的一篇文章《Winners Curse? on Pace, Progress, and Empirical Rigor》[1] 給我們明確指出了這點，作者認為實證嚴謹（empirical rigor）對於現在的 AI 學術社區變得越來越重要，他們針對當前的問題給出了一些頗具革命性的建議。

[1]註：這篇文章是提交給ICLR 2018的workshop track的。

最近一年的重點案例研究

如果回顧一下過去一年的論文，就會發現一個明顯的趨勢（許多研究組從不同的角度做出了相同的發現）：由於當前快速發展的研究工作大多只是簡單的調整參數或者進行消融研究（ablation studies）[2]，我們錯過了許多可能的改進或深度的見解。下面是過去一年中幾個研究組的一些發現：

[2] 註：消融研究，通常是指去除模型或演算法的某些「特徵」，並查看這會如何影響性能。例如你提出了某個結構，若想確定這個結構是否有利於最終的效果，就要將去掉該結構的網路與加上該結構的網路所得到的結果進行對比。

Lucic et al.(2017) 對 GAN 的近期創新工作進行了大規模實證比較。一個主要發現是，最近的大多數方法經過足夠的超參優化後都能夠達到相似的分數。
Henderson et al.(2017) 表明，他們只需要對基線 LSTM 進行更好的超參調整，就可以超過一系列最新的 seq2seq 學習方法的表現，在比較熱門的 Penn Treebank 數據集上獲得最優的性能。
Vaswani et al. (2017) 極好地進行了使用 attention 的獨特編-解碼器風格網路（exotic encoder-decoder style networks）的消融研究，它表明只需要加上 attention 模塊，你就能獲得更好的表現。
Rikelme et al. (2018) 對貝葉斯深度神經網路中使用近似推理進行決策的各種近期的方法進行了比較。他們發現，在決策任務中許多最近提出的方法都只是在努力超越基線。
Henderson et al. (2017) 評估了深度強化學習的可重複性，他們發現近期的工作在同一個任務的不同的基線上模型會有顯著的變異。

以上這幾例研究說明了一個問題，即如果這些領域採用更高水平的實證嚴謹，那麼那些看似在快速發展的研究可能要比它看起來的樣子慢得多。

誘因和現狀

從目前的情況來看，誘使機器學習研究急劇增長的原因可能有以下幾點：

公開可用的數據集增多，例如 Kaggle 上現在已經擁有了超過 10000 個公共數據集。
計算的成本降低，並且伴有大量如雲計算這樣的大型計算資源；
在該領域工作的研究人員數量劇增，這為大規模合作創造了機會；
TensorFlow、PyTorch 等開源 ML 平台的興起，以及由此帶來的開源代碼和模型的普及。

這些因素是否真的能給 ML 的研究帶來真正有用的結果，可能需要歷史來告訴我們了。從表面上看，這些因素本來應該促進更加強健的實證工作的，但實際情況卻朝著相反的方向走去。

理想情況下，處理真實數據的目的是為了調整和檢查演算法在各種抽樣分布下的行為，以便了解演算法的優缺點。但現在實證研究已經變成了一個純粹為了「win」（而不是為了深入研究和理解）而進行的挑戰賽。
計算的價格雖然在不斷的降低，但也是相對的。大型的研究組（通常是企業）可能擁有更多的資源，而個人研究者可能就會受到比較大的壓力。
隨著這個領域的參與者數量逐年增長，頂會的接受率卻基本上保持不變；此外培養優秀的審稿人通常需要數年時間，熟練的審稿人數量增長遠遠落後於投稿人的數量增長。而另一方面發表論文又關係著事業前景，於是就會有越來越多的研究人員害怕被競爭對手拋棄，並希望能夠迅速地在某個領域豎立旗幟。這種競爭所帶來的恐懼感可能會抑制研究人員去花時間進行細緻地實證分析。
當許多研究人員在某一問題或相關問題中並行工作時，即使每個人都在儘力避免，但這個領域也會出現多種假設檢驗的問題。

改革建議

久病難醫，Ali Rahimi 等人在文中表示：「我們提出幾條建議，拋磚引玉，希望以後大家以後多多討論。」

實證評估標準：在目前的做法上，以下標準應當被鼓勵、獎勵，並最終成為實證工作中的要求：

調優方法：應該通過網格搜索或引導優化方法對包括基線在內的所有模型進行關鍵超參調優，這應當作為出版物的一部分進行分享。
切片分析：在整個測試集上進行精確度或 AUC 等性能的測量可能會掩蓋其他重要結果，例如在一個區域的質量較高，而在另外一個區域的質量則較低。根據數據的不同維度或類別來分解評測指標，這是完整的實證分析的關鍵部分。
消融研究：研究中應包括對以前基線的所有變化進行全面的消融研究，對每個組分的變化進行單獨測試和組合測試。
完整性檢查和反事實：對模型行為的解釋應有意識地進行完整性檢查，例如對測試分布之外的反事實數據或反常數據進行分析。模型對具有不同背景的圖像或具有不同人口統計分布的用戶的數據的表現有多好？
至少一個負例：由於「沒有免費的午餐」理論仍然有效，研究人員去發現和報告新方法相比舊方法表現不好的區域非常重要。只展示成功的論文應當被質疑，甚至可能因此而拒絕接收。

共享實驗筆記和記錄：ML 研究人員大多不會像物理等領域那樣把所有的結果記錄下來。但作者建議研究人員將有關論文研究期間進行的所有實驗的細節和時間都保存在電子文檔中，這有助於追蹤研究的發現、探索和結論的全過程；同時它也可以抵消多重假設檢驗和事後解釋的問題。

改變論文格式：在一個以創新而著稱的領域，我們的主要檔案傳播媒介仍然以優化紙張印刷為目的，這實在令人驚訝。讓我們改變這種紙張格式吧！像 iPython 和 Colaboratory 1 這樣的智能筆記本，不僅可以包含代碼、數據，還可以包含文字的分析，我們為什麼不採用這些來作為一流的出版媒介。

會議中論文頁面往往限制了作者展示更完整的實證分析的能力，或者需要花費很多頁面才能完成。如果不再讓紙張印刷格式限制我們，那麼對於評審員來說就可以查看更豐富的內容。為了避免泛濫使用這種自由格式，要求對每個實證結果的額外頁面進行一次額外的審查以及適當的審查標準質量要求。

協作和貢獻分配：要實現更加完整的實證評估和分析，一般需要大量的工作，可能更多的是一大組合作者共同完成。在目前的這種通過作者先後順序來評定每個人做出貢獻的大小顯然是不夠的。因此建議在每篇論文中有一個附錄，簡要概述每位作者的貢獻，作為激勵這種協作的解決方案之一。

評審和評審人員標準：評審質量是提高一個領域實證嚴謹性的關鍵因素。因此建議通過為評審人員創建更好的工具來幫助他們以及領域主席來執行更高要求的評審標準，例如可以直接在文本中添加註釋，創建更完整的評審評論。另外還可以為那些由於資金短缺不能參加會議的優秀的評審員提供免費註冊作為獎勵。

場地選擇：目前會議論文的接收率通常與會議場館的實際大小有關。因此建議通過其他媒介（包括視頻和視頻會議）來進行更具創造性的工作，這樣就可以更為靈活地為那些不是為了「wins」而是專註於其他問題（例如深度元分析）的論文提供了接收機會。

後記

參加過 NIPS 2017 的人應該都清晰地記得當時人山人海的壯觀。Ali Rahimi 當時在 NIPS 演講中將這稱為「large waves」。也許我們真的需要坐下來認真地討論這些問題了。

可以想見，如果 Ali Rahimi 等人提出的這套建議真的得以執行，很多 ML 文章都會被拒絕，意味著很多人發不了 papers，畢不了業，找不到工作。但是，人工智慧領域的成長或許真的需要壯士斷腕了，當然最好是少流一點血。