【谷歌大腦團隊GAN生態權威報告】各種聲稱state-of-the-art的GAN演算法，基本處於同一水平

01-28

谷歌大腦團隊的研究者發表題為《Are GANs Created Equal? A Large-Scale Study》的論文，對MM GAN、NS GAN、WGAN、WGAN GP、LS GAN、DRAGAN、BEGAN等近期出現的優秀GAN模型進行了客觀的性能比較，發現這些模型並沒有像它們聲稱的那樣優於原始GAN。
GAN的發明人Ian Goodfellow在推特評論此工作：ML的研究人員，審稿人和有關ML的新聞報道需要對結果的統計穩健性和超參數的效果進行更認真的研究。這項研究表明，過去一年多的很多論文只是觀察抽樣誤差，而不是真正的改進。

論文：Are GANs Created Equal? A Large-Scale Study

摘要

生成對抗網路（GAN）是生成模型的一個強大的子類。儘管這一領域的研究活動非常豐富，產生了許多有趣的GAN演算法，但仍然很難評估哪個（哪些）演算法比其他演算法更好。在本研究中，我們對那些聲稱state-of-the-art的模型和評估方法進行了一個中立的、多角度的大規模實證研究。我們發現，大多數模型可以通過足夠的超參數優化和隨機重啟獲得差不多的得分。這表明，改進可能是來自更高的計算預算和比基本的演算法變化更多的調參。為了克服當前的指標（metric）的一些限制，我們還提出了幾個可以計算精度（precision）和召回率（recall）的數據集。我們的實驗結果表明，未來的GAN研究應該建立在更系統、客觀的評估程序基礎上。最後，我們沒有發現本研究所測試的任何一個演算法一直優於原始演算法的證據。

IS 和 FID 指標評估GAN模型性能

生成對抗網路（GAN）是生成模型的一個強大的子類，並且已經成功地應用於圖像生成和編輯，半監督學習和域適應（domain adaptation）。在GAN框架中，模型學習一個簡單分布的確定性變換G，其目標是匹配數據分布。這個學習問題可以被看作是兩個玩家之間的博弈，一個是學習如何生成與真實數據相似的樣本的生成器，另一個是學習如何區分真實數據和假數據的判別器。雙方的目標都是將自己的成本降到最低，而博弈的解決方案是納什均衡，即雙方都不能單方面提高成本。

最近很多研究者提出了各種不同的GAN，包括無監督的（如Wasserstein GAN、BEGAN）以及有條件的（如CGAN）。雖然這些模型在特定的領域取得了令人矚目的成果，但是客觀地看，哪些GAN演算法比其他演算法性能更好，這仍然沒有明確的共識。這在一定程度上是由於缺乏強大和一致的指標（metric），以及很少有比較能夠將所有演算法放在相同的條件上，包括用於在所有超參數上進行搜索的計算預算。這為什麼重要？首先，能夠幫助實踐者從很多演算法中選擇一個更好的演算法。其次，為了得到更好的演算法和演算法理解，清楚地評估哪些修改是關鍵的，哪些修改只是在論文層面表現好，但在實踐中並沒有太大的差別，這樣的研究很有幫助。

評估的主要問題是由於不能明確地計算概率。因此，不能評估一些經典度量，例如在測試集上的對數似然性。作為一種補救方法，許多研究者都把重點放在定性比較上，例如比較樣本的視覺效果。但是，這種方法是主觀的，甚至可能是誤導性的[7]。

在本研究中，我們提出了兩個評估指標來定量評估GAN的性能。兩個指標都假定可以訪問預訓練的分類器。Inception Score（IS）[20]基於這樣一個事實：一個好的模型應該生成這樣樣本，當被分類器評估時，類分布的熵要低。同時它應該生成各種各樣的樣本，涵蓋所有的類。相反，通過考慮真實數據和假數據的嵌入差異，可以計算Frechet Inception Distance（FID）。假設編碼層遵循多變數高斯分布，則分布之間的距離被減小到相應高斯之間的Frechet距離。

本研究的主要貢獻：

我們對state-of-the-art的一些GAN模型進行了公平、全面的比較，並且根據經驗證明，在有足夠高的計算預算的情況下，幾乎所有這些GAN都可以達到相似的FID值。
我們提供了強有力的實驗證據（重現這些實驗的計算預算大約是60K P100 GPU小時），證明為了比較GAN的性能，有必要報告其結果分布的一個summary，而不是只報告最好的結果，因為優化過程存在隨機性和模型不穩定性。
我們評估了FID對mode dropping的魯棒性，使用了不同的編碼網路，並提供了在經典數據集上可實現的最佳FID估計。
我們提出了一系列難度增加的任務，可以近似計算廣為接受的度量，例如精確度和召回率。
我們將很快開源我們的實驗設置和模型實現。

具體的相關研究背景和實驗過程請查閱原論文。

圖1：在mode dropping下，FID快速下降

圖3：不同精確度和召回率下的模型的樣本

綜合考慮各維度，以下是該研究的實驗選擇：

架構：我們對所有模型使用相同的架構，該架構足夠實現良好的性能。
超參數：對於訓練超參數（例如學習率）以及特定模型的（例如gradient penalty multiplier），有兩種有效的方法：（i）對每個數據集執行超參數優化，或（ii）在一個數據集上執行超參數優化，並推斷在其他數據集上使用的超範圍參數。
隨機種子：即使其他條件都固定，改變隨機種子也可能對結果產生很大的影響。我們研究這個特定影響，並報告了相應的置信區間。
數據集：我們從各種GAN文獻中選擇了四個流行的數據集，並對每個數據集分別報告結果。
計算預算：根據預算來優化參數，不同的演算法可以達到最好的結果。我們探索了不同計算預算下結果的變化。

表2：數據集

圖5：大範圍超參數搜索（每個模型100個超參數樣本）。我們觀察到，GAN訓練對超參數設置是非常敏感的，沒有特別穩定的模型。

結論

在這個研究中，作者就如何中立、公平地比較GAN進行了討論。本研究主要關注兩個評估指標：Frechet Inception Distance（FID）和（ii）精確度、召回率以及F?。我們提供的實證表明，FID是一個合理的指標，因為它在mode dropping和編碼網路選擇方面有魯棒性。

基於FID的比較。

我們的主要觀點是，在比較模型時，報告實現的最小FID是沒有意義的。相反，應該比較固定計算預算的FID分布。實際上，本文提供的實證表明，當計算預算增加時，各種最優的GAN的在演算法上的差異變得不那麼重要。此外，由於預算有限（例如只有一個月的計算時間），「好」演算法可能會比「差」演算法的表現更好。

基於精確度，召回率和F? score的比較。

我們這個簡單的三角形數據集使我們能夠計算很好理解的精度和召回指標，從而得出F? score。我們觀察到，即使對於這個看起來很簡單的任務，許多模型也很難獲得高的F?得分。在提高F? 得分時，NS GAN和WGAN同時有高精度和高召回率。其他的模型，例如DRAGAN和WGAN GP未能達到高召回值。最後，我們觀察到在這個任務上可以實現高精度和高召回率（參見附錄E）。

與原始GAN的比較。

雖然很多演算法都聲稱優於原始GAN模型，但我們在所有數據集上都沒有發現支持這種聲稱的實驗證據。實際上，NS GAN與大多數其他模型的性能相當，在MNIST上達到了最好的總體FID。而且，它在三角形數據集的F?得分優於其他模型。

開放性問題

在更徹底地改變編碼的情況下，例如使用在不同任務上訓練的網路，FID是否穩定還有待檢驗。另外，FID不能檢測訓練數據集的過擬合，而只需要記住所有訓練樣本，演算法就能表現得非常好。最後，FID很可能被嵌入網路未檢測到的偽像所「欺騙」。

三角形數據集可以通過以下方式變得更加複雜：（i）同時引入多個凸多邊形，（ii）在多邊形中加上顏色或紋理，以及（iii）逐漸提高解析度。儘管假如由更多的訓練時間和更大的模型容量，現有模型的性能可能會得到提高，但是我們認為，演算法改進能夠帶來更好的性能提升。有了這些更複雜的任務，將會大大有利於研究界。

正如在論文第4章所討論的那樣，在比較不同的模型時，必須考慮多個維度，而這項工作只探討了一部分選擇。我們不能排除在目前尚未探索的條件下某些模型顯著優於其他模型的可能性。

最後，這項研究有力地表明，未來的GAN研究應該更注重實驗上的系統性，應該在中立的基礎上進行模型比較。

論文地址：https://arxiv.org/pdf/1711.10337.pdf

號外：歡迎加入新智元讀者群交流討論，請加微信：akubineko_（備註姓名+學校/企業+研究領域）