如何進行更細緻的圖像到圖像翻譯? | CVPR 2018
論文:DA-GAN: Instance-level Image Translation by Deep Attention Generative Adversarial Network
論文下載地址:https://arxiv.org/abs/1802.06454
本文為2018 年 5 月 11 日,在微軟亞洲研究院舉辦的CVPR 2018論文宣講會報告中「GAN and Synthesis」環節的第4個報告,報告人為微軟亞洲研究院傅建龍。
本文是另外一篇將 Attention 機制與 GAN 相結合,以生成更高質量目標的工作。
1、啟發
傅建龍在報告中認為,CV 中的圖像到圖像的翻譯任務(Image2Image Translation)是一個比較廣泛的概念,即根據 source domain 中的圖像生成 target domain 中的對偶圖像,同時在翻譯過程中約束生成的樣本和 source 中的樣本有盡量一致的分布。事實上有許多基本的 CV 問題都屬於圖像到圖像的翻譯問題,例如白天到黑夜的圖像轉換、黑白照到彩色照的轉換、低像素到高像素的轉換、去除水印、圖像分割、2D 到 3D、梵高風格化、木炭風格、缺失部分復原等。
更高級的如下圖這些:
在這所有的任務中,根據是否是一對一的學習對,將這些任務劃分為 pair data 任務和 unpair data 任務。(如下圖所示)
其中前者在訓練數據集中具有一對一的數據對,x 作為輸入,y 用來計算輸出的 loss 函數,目前效果最好的網路是 Pix2Pix 網路;而後者則是兩個獨立的數據集之間的訓練,模型應該能夠從兩個集合中自動地發現集合之間的關聯,從而來學習出映射函數,其中目前效果最好的網路是 CycleGAN 模型。
但是以上這些都是基於圖像級的特徵學習,若想完成更高質量要求的生成任務(例如要求改變圖像區域的風格)則較為困難。於是有人便提出了基於 instance-level 的圖像到圖像的翻譯方法——PatchGAN:
如傅建龍所說,做研究就是要找到前人所沒有填補的空缺。通過畫出上圖,可以很明白地看出,對應的也應該有基於 unpaired instance-level 的圖像到圖像的翻譯方法。這正是本文的工作,即能否自動地發現 source domain 和 target domain 的 instance 之間的關聯,同時這是一種 unpair 的方法,不需要任何人類標註。
2、模型
既然是基於 instance-level 的方法,那麼首先就要問:什麼是 instance?
事實上,這是一個比較寬泛的概念,在不同的任務中可以有不同的定義。例如在生成鳥的任務中,鳥本身是一個 instance,鳥的嘴、腿、翅膀、尾巴等也都可以是 instance;如果想要建立更細緻的生成模型,也可更加細緻地去定義更多種 instance。
介紹了以上的思路後,模型本身的構建就很清晰了。如上圖所示,首先通過一個深度 Attention 編碼器(DAE)來自動地學習各個 instance,然後將不同的部分分別投射到一個「隱空間」,最後通過 GAN 網路進行生成。
3、實驗結果
定量的比較可以看出,DA-GAN 相比於其他方法有較大的提升。
在定性比較方面,有下面三種:
Text to Image
object configuration
pose morphing
從左到右分別為 source bird、target bird 和 DA-GAN 生成的鳥。一個疑問是:鳥腿缺失是因為什麼呢?
4、結論
本文提出了一種無監督的圖像翻譯的方法,即通過更細緻化的 instance-level 的 GAN 生成來獲得更高質量的翻譯圖像。通過實驗結果可以很明顯地看出 DA-GAN 相較於其他網路在性能上的提升。但是需要注意的是,在生成結果中仍然存在一些失敗的地方(例如前面提到的「缺失的鳥腿」),這可能由於模型中的 instance 是通過弱監督 Attention 機制學到的,這與完全監督下的學習還是有一定的差距。如何彌補,或許要靜等傅建龍團隊接下來的工作了。
相關文章:
[1] DA-GAN技術:計算機幫你創造奇妙「新物種」
CVPR 2018論文宣講會,由微軟亞洲研究院、清華大學媒體與網路技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。研討會共包含了 6 個 session(共 22 個報告),1 個論壇,以及 20 多個 posters,AI 科技評論將為您詳細報道。
六個Session分別為:
Session 1:GAN and Synthesis
Session 2: Deep Learning
Session 3: Person Re-Identification and Tracking
Session 4: Vision and Language
Session 5: Segmentation, Detection
Session 6: Human, Face and 3D Shape
推薦閱讀:
※資訊理論(1)——熵、互信息、相對熵
※機器學習基石筆記10:邏輯斯蒂(Logistic)回歸 上
※推導 | SVM詳解(1)SVM基本型
※1.4 機器學習中的一些基本概念
※個人機器學習(深度學習)主機配置
TAG:深度學習DeepLearning | 計算機視覺 | 機器學習 |