如何評價CVPR best paper simGAN?

01-05

Learning from Simulated and Unsupervised Images through Adversarial Training

今年的cvpr看不懂，densenet這種結果比較一般的work也能best，各種刷點不高的paper是oral，反倒是一些poster性能奇高。

那我給你們爆點料?

蘋果這篇paper的第一作者是本次cvpr general chair Rama Chellappa的學生，另有若干作者是Rama的長期親密合作夥伴。本次cvpr最後的錄取決定工作是把area chair們全部拉到馬里蘭大學完成的。best paper award comittee里也有馬里蘭大學的人。

沒有人討論一下這篇工作本身嗎？拋開best paper的爭論，我覺得這篇工作還是值得一看的啊。

回到正題，這篇工作主要的一個思想就是：如何讓人工合成的圖像真實化，來幫助神經網路的訓練。前半句話是手段，後半句話是目的。從論文最後給的結果來看，在不需要任何真實數據標註的情況下，單純利用「真實化」過的人工合成圖片，就能夠把網路訓練到state-of-art的結果。個人覺得，在這個數據為王的年代裡，這篇工作應該還是很有現實意義的。

simGAN是在學習人工合成圖片（synthetic images）數據分布到真實圖片（real images）數據分布的一個映射。從實現的手法上來看，simGAN和前段時間大火的pix2pix非常像，都利用了conditional GAN的結構，D網路也都是按patch去計算loss。其實本質上，simGAN和pix2pix，CycleGAN要解決的問題都差不多，都是學習某一種圖片到另外一種圖片的映射。

個人其實比較好奇，如果應用CycleGAN這類框架（或者一些style transfer的工作）去做這件事情，能夠做到什麼樣的效果。或者更進一步的，既然能夠學習合成圖片到真實圖片的映射，那麼能不能學習真實圖片到合成圖片的映射，這樣讓訓練更簡單呢？

我覺得simGAN的目的是希望刻畫一個真實圖片的雜訊分布。這樣用合成圖+雜訊的方式就能生成無窮無盡的訓練數據了。不過單純利用這個框架並不能做到這一點。這篇文章中的生成網路並不能控制雜訊的類型（光照、模糊、形變、紋理等等）和大小。後續應該還是有不少內容值得繼續挖掘的。

作為剛入門的小白，說得如果有什麼不對，還請大家指正。謝謝！

拋開技術部分不說（或許和之前的工作有諸多相似點），這篇文章的立意清晰且關鍵，可以說有可能給很多老大難的問題（至於哪些問題我當然不會告訴你們啦）打開了一扇門。

作為一篇以小見大的文章，我是非常喜歡看到的，個人評價它是高於另一篇Best Paper的。當然不足的地方也有，比如這篇文章做的實驗相對比較受限制，但是我覺得發一篇會議論文完全夠用了。

看了下paper。。。說實話我覺得沒啥insight，惡意揣測下，蘋果第一篇paper就拿了best paper，我感覺有黑幕啊……

那我也來爆點料，這篇論文的初始review是兩個boardline 和一個weakly accept. 也不知道怎麼就成best paper了。。。。

首先寫作表達技巧上學到了不少

第二生成方法這個課題做過一段，感覺本篇論文有啟發和給我不少可做的下一步

第三難道不該給GAN一篇嗎

個人認為這篇文章還是有應用價值的，至少受這篇文章啟發在我的一個實際應用中確實提升了performance

但是作為best paper感覺還是缺了點contribution，比如patch loss實際的表現並沒有文章描述得那麼美好

由於我做gaze，和文章所要解決的問題一致，所以用pytorch實現了一下。

1. 個人感受真是難訓，既要保持synthetic data的結構和語義信息，又要讓synthetic data更接近於目標數據的分布，反正我調了不少參，試了很多網路結構也沒做到比較好的結果。文章展示的一些圖片可能篩選成分太重，我的結果里大概有40%~50%是做不到那樣的效果的。

2. 文章實驗部分槽點很多，對比實驗也沒對比最新的實驗結果。Implementation detail中還有一些前後矛盾的描述。

以上。

最近看了一下paper，還是有很多亮點的。

1. L1自正則化，保持合成數據的原有標註信息

2. 使用patch GAN得到local loss。消除偽影等問題。

3. 利用歷史生成信息來更新判別模型。

就網路結構來看比較像pix2pix的模型（pix2pix 在arxiv上發表比simGAN早一個月）。但是pix2pix用的是成對的數據，simGAN是沒有成對的數據的，也就是無監督的。在這樣的條件下能夠將合成數據映射成真實數據的分布，並且保持原有的標籤，還是很贊的。

當然，放在今天看， CycleGAN，DiscoGAN，DualGAN應該都能搞定這樣的事情（雖然沒有測試，附大佬一張從莫奈繪畫到真實照片的結果圖以表信心）。其中CycleGAN也借鑒了sinGAN的第三點創新。

最後，simGAN的這個思路清奇啊，論文里也給出了使用這些數據的performance還是很驚人的。

Unsupervised 比 Supervised更被看重。

Supervised: SRGAN, pix2pix

Unsupervised: simGAN, CycleGAN

我認為分量不夠，但是GAN方面沒有其他好的paper了。

一般般吧，偏應用的工作

不過裡面幾個trick還是很有用的