如何進行更細緻的圖像到圖像翻譯? | CVPR 2018

如何進行更細緻的圖像到圖像翻譯? | CVPR 2018

論文:DA-GAN: Instance-level Image Translation by Deep Attention Generative Adversarial Network

論文下載地址:arxiv.org/abs/1802.0645

本文為2018 年 5 月 11 日,在微軟亞洲研究院舉辦的CVPR 2018論文宣講會報告中「GAN and Synthesis」環節的第4個報告,報告人為微軟亞洲研究院傅建龍。

本文是另外一篇將 Attention 機制與 GAN 相結合,以生成更高質量目標的工作。

1、啟發

傅建龍在報告中認為,CV 中的圖像到圖像的翻譯任務(Image2Image Translation)是一個比較廣泛的概念,即根據 source domain 中的圖像生成 target domain 中的對偶圖像,同時在翻譯過程中約束生成的樣本和 source 中的樣本有盡量一致的分布。事實上有許多基本的 CV 問題都屬於圖像到圖像的翻譯問題,例如白天到黑夜的圖像轉換、黑白照到彩色照的轉換、低像素到高像素的轉換、去除水印、圖像分割、2D 到 3D、梵高風格化、木炭風格、缺失部分復原等。

更高級的如下圖這些:

在這所有的任務中,根據是否是一對一的學習對,將這些任務劃分為 pair data 任務和 unpair data 任務。(如下圖所示)

其中前者在訓練數據集中具有一對一的數據對,x 作為輸入,y 用來計算輸出的 loss 函數,目前效果最好的網路是 Pix2Pix 網路;而後者則是兩個獨立的數據集之間的訓練,模型應該能夠從兩個集合中自動地發現集合之間的關聯,從而來學習出映射函數,其中目前效果最好的網路是 CycleGAN 模型。

但是以上這些都是基於圖像級的特徵學習,若想完成更高質量要求的生成任務(例如要求改變圖像區域的風格)則較為困難。於是有人便提出了基於 instance-level 的圖像到圖像的翻譯方法——PatchGAN:

如傅建龍所說,做研究就是要找到前人所沒有填補的空缺。通過畫出上圖,可以很明白地看出,對應的也應該有基於 unpaired instance-level 的圖像到圖像的翻譯方法。這正是本文的工作,即能否自動地發現 source domain 和 target domain 的 instance 之間的關聯,同時這是一種 unpair 的方法,不需要任何人類標註。

2、模型

既然是基於 instance-level 的方法,那麼首先就要問:什麼是 instance?

事實上,這是一個比較寬泛的概念,在不同的任務中可以有不同的定義。例如在生成鳥的任務中,鳥本身是一個 instance,鳥的嘴、腿、翅膀、尾巴等也都可以是 instance;如果想要建立更細緻的生成模型,也可更加細緻地去定義更多種 instance。

介紹了以上的思路後,模型本身的構建就很清晰了。如上圖所示,首先通過一個深度 Attention 編碼器(DAE)來自動地學習各個 instance,然後將不同的部分分別投射到一個「隱空間」,最後通過 GAN 網路進行生成。

3、實驗結果

定量的比較可以看出,DA-GAN 相比於其他方法有較大的提升。

在定性比較方面,有下面三種:

Text to Image

object configuration

pose morphing

從左到右分別為 source bird、target bird 和 DA-GAN 生成的鳥。一個疑問是:鳥腿缺失是因為什麼呢?

4、結論

本文提出了一種無監督的圖像翻譯的方法,即通過更細緻化的 instance-level 的 GAN 生成來獲得更高質量的翻譯圖像。通過實驗結果可以很明顯地看出 DA-GAN 相較於其他網路在性能上的提升。但是需要注意的是,在生成結果中仍然存在一些失敗的地方(例如前面提到的「缺失的鳥腿」),這可能由於模型中的 instance 是通過弱監督 Attention 機制學到的,這與完全監督下的學習還是有一定的差距。如何彌補,或許要靜等傅建龍團隊接下來的工作了。

相關文章:

[1] DA-GAN技術:計算機幫你創造奇妙「新物種」


CVPR 2018論文宣講會,由微軟亞洲研究院、清華大學媒體與網路技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。研討會共包含了 6 個 session(共 22 個報告),1 個論壇,以及 20 多個 posters,AI 科技評論將為您詳細報道。

六個Session分別為:

Session 1:GAN and Synthesis

Session 2: Deep Learning

Session 3: Person Re-Identification and Tracking

Session 4: Vision and Language

Session 5: Segmentation, Detection

Session 6: Human, Face and 3D Shape

推薦閱讀:

資訊理論(1)——熵、互信息、相對熵
機器學習基石筆記10:邏輯斯蒂(Logistic)回歸 上
推導 | SVM詳解(1)SVM基本型
1.4 機器學習中的一些基本概念
個人機器學習(深度學習)主機配置

TAG:深度學習DeepLearning | 計算機視覺 | 機器學習 |