如何評價CVPR best paper simGAN?

Learning from Simulated and Unsupervised Images through Adversarial Training


今年的cvpr看不懂,densenet這種結果比較一般的work也能best,各種刷點不高的paper是oral,反倒是一些poster性能奇高。


那我給你們爆點料?

蘋果這篇paper的第一作者是本次cvpr general chair Rama Chellappa的學生,另有若干作者是Rama的長期親密合作夥伴。本次cvpr最後的錄取決定工作是把area chair們全部拉到馬里蘭大學完成的。best paper award comittee里也有馬里蘭大學的人。


沒有人討論一下這篇工作本身嗎?拋開best paper的爭論,我覺得這篇工作還是值得一看的啊。

回到正題,這篇工作主要的一個思想就是:如何讓人工合成的圖像真實化,來幫助神經網路的訓練。前半句話是手段,後半句話是目的。從論文最後給的結果來看,在不需要任何真實數據標註的情況下,單純利用「真實化」過的人工合成圖片,就能夠把網路訓練到state-of-art的結果。個人覺得,在這個數據為王的年代裡,這篇工作應該還是很有現實意義的。

simGAN是在學習人工合成圖片(synthetic images)數據分布到真實圖片(real images)數據分布的一個映射。從實現的手法上來看,simGAN和前段時間大火的pix2pix非常像,都利用了conditional GAN的結構,D網路也都是按patch去計算loss。其實本質上,simGAN和pix2pix,CycleGAN要解決的問題都差不多,都是學習某一種圖片到另外一種圖片的映射。

個人其實比較好奇,如果應用CycleGAN這類框架(或者一些style transfer的工作)去做這件事情,能夠做到什麼樣的效果。或者更進一步的,既然能夠學習合成圖片到真實圖片的映射,那麼能不能學習真實圖片到合成圖片的映射,這樣讓訓練更簡單呢?

我覺得simGAN的目的是希望刻畫一個真實圖片的雜訊分布。這樣用合成圖+雜訊的方式就能生成無窮無盡的訓練數據了。不過單純利用這個框架並不能做到這一點。這篇文章中的生成網路並不能控制雜訊的類型(光照、模糊、形變、紋理等等)和大小。後續應該還是有不少內容值得繼續挖掘的。

作為剛入門的小白,說得如果有什麼不對,還請大家指正。謝謝!


拋開技術部分不說(或許和之前的工作有諸多相似點),這篇文章的立意清晰且關鍵,可以說有可能給很多老大難的問題(至於哪些問題我當然不會告訴你們啦)打開了一扇門。

作為一篇以小見大的文章,我是非常喜歡看到的,個人評價它是高於另一篇Best Paper的。當然不足的地方也有,比如這篇文章做的實驗相對比較受限制,但是我覺得發一篇會議論文完全夠用了。


看了下paper。。。說實話我覺得沒啥insight,惡意揣測下,蘋果第一篇paper就拿了best paper,我感覺有黑幕啊……


那我也來爆點料,這篇論文的初始review是兩個boardline 和一個weakly accept. 也不知道怎麼就成best paper了。。。。


首先寫作表達技巧上學到了不少

第二生成方法這個課題做過一段,感覺本篇論文有啟發和給我不少可做的下一步

第三難道不該給GAN一篇嗎


個人認為這篇文章還是有應用價值的,至少受這篇文章啟發在我的一個實際應用中確實提升了performance

但是作為best paper感覺還是缺了點contribution,比如patch loss實際的表現並沒有文章描述得那麼美好


由於我做gaze,和文章所要解決的問題一致,所以用pytorch實現了一下。

1. 個人感受真是難訓,既要保持synthetic data的結構和語義信息,又要讓synthetic data更接近於目標數據的分布,反正我調了不少參,試了很多網路結構也沒做到比較好的結果。文章展示的一些圖片可能篩選成分太重,我的結果里大概有40%~50%是做不到那樣的效果的。

2. 文章實驗部分槽點很多,對比實驗也沒對比最新的實驗結果。Implementation detail中還有一些前後矛盾的描述。

以上。


最近看了一下paper,還是有很多亮點的。

1. L1自正則化,保持合成數據的原有標註信息

2. 使用patch GAN得到local loss。消除偽影等問題。

3. 利用歷史生成信息來更新判別模型。

就網路結構來看比較像pix2pix的模型(pix2pix 在arxiv上發表比simGAN早一個月)。但是pix2pix用的是成對的數據,simGAN是沒有成對的數據的,也就是無監督的。在這樣的條件下能夠將合成數據映射成真實數據的分布,並且保持原有的標籤,還是很贊的。

當然,放在今天看, CycleGAN,DiscoGAN,DualGAN應該都能搞定這樣的事情(雖然沒有測試,附大佬一張從莫奈繪畫到真實照片的結果圖以表信心)。其中CycleGAN也借鑒了sinGAN的第三點創新。

最後,simGAN的這個思路清奇啊,論文里也給出了使用這些數據的performance還是很驚人的。


Unsupervised 比 Supervised更被看重。

Supervised: SRGAN, pix2pix

Unsupervised: simGAN, CycleGAN

我認為分量不夠,但是GAN方面沒有其他好的paper了。


一般般吧,偏應用的工作

不過裡面幾個trick還是很有用的


推薦閱讀:

如何解讀論文《Generalization in Deep Learning》?
如何開發一個特定領域的自動問答機器人(Chat Bot)?
在人工智慧這麼火的情況下,做程序開發一定要學習機器學習演算法嗎?
機器學習(machine learning)在心理學上可能有哪些運用?
工作後想換機器學習方向,需要學到什麼程度去找工作?

TAG:機器學習 | 計算機視覺 | 計算機圖形學 | 深度學習DeepLearning | CVPR |