如何進行更細緻的圖像到圖像翻譯？ | CVPR 2018

05-29

論文：DA-GAN: Instance-level Image Translation by Deep Attention Generative Adversarial Network

論文下載地址：https://arxiv.org/abs/1802.06454

本文為2018 年 5 月 11 日，在微軟亞洲研究院舉辦的CVPR 2018論文宣講會報告中「GAN and Synthesis」環節的第4個報告，報告人為微軟亞洲研究院傅建龍。

本文是另外一篇將 Attention 機制與 GAN 相結合，以生成更高質量目標的工作。

1、啟發

傅建龍在報告中認為，CV 中的圖像到圖像的翻譯任務（Image2Image Translation）是一個比較廣泛的概念，即根據 source domain 中的圖像生成 target domain 中的對偶圖像，同時在翻譯過程中約束生成的樣本和 source 中的樣本有盡量一致的分布。事實上有許多基本的 CV 問題都屬於圖像到圖像的翻譯問題，例如白天到黑夜的圖像轉換、黑白照到彩色照的轉換、低像素到高像素的轉換、去除水印、圖像分割、2D 到 3D、梵高風格化、木炭風格、缺失部分復原等。

更高級的如下圖這些：

在這所有的任務中，根據是否是一對一的學習對，將這些任務劃分為 pair data 任務和 unpair data 任務。（如下圖所示）

其中前者在訓練數據集中具有一對一的數據對，x 作為輸入，y 用來計算輸出的 loss 函數，目前效果最好的網路是 Pix2Pix 網路；而後者則是兩個獨立的數據集之間的訓練，模型應該能夠從兩個集合中自動地發現集合之間的關聯，從而來學習出映射函數，其中目前效果最好的網路是 CycleGAN 模型。

但是以上這些都是基於圖像級的特徵學習，若想完成更高質量要求的生成任務（例如要求改變圖像區域的風格）則較為困難。於是有人便提出了基於 instance-level 的圖像到圖像的翻譯方法——PatchGAN：

如傅建龍所說，做研究就是要找到前人所沒有填補的空缺。通過畫出上圖，可以很明白地看出，對應的也應該有基於 unpaired instance-level 的圖像到圖像的翻譯方法。這正是本文的工作，即能否自動地發現 source domain 和 target domain 的 instance 之間的關聯，同時這是一種 unpair 的方法，不需要任何人類標註。

2、模型

既然是基於 instance-level 的方法，那麼首先就要問：什麼是 instance？

事實上，這是一個比較寬泛的概念，在不同的任務中可以有不同的定義。例如在生成鳥的任務中，鳥本身是一個 instance，鳥的嘴、腿、翅膀、尾巴等也都可以是 instance；如果想要建立更細緻的生成模型，也可更加細緻地去定義更多種 instance。

介紹了以上的思路後，模型本身的構建就很清晰了。如上圖所示，首先通過一個深度 Attention 編碼器（DAE）來自動地學習各個 instance，然後將不同的部分分別投射到一個「隱空間」，最後通過 GAN 網路進行生成。

3、實驗結果

定量的比較可以看出，DA-GAN 相比於其他方法有較大的提升。

在定性比較方面，有下面三種：

Text to Image

object configuration

pose morphing

從左到右分別為 source bird、target bird 和 DA-GAN 生成的鳥。一個疑問是：鳥腿缺失是因為什麼呢？

4、結論

本文提出了一種無監督的圖像翻譯的方法，即通過更細緻化的 instance-level 的 GAN 生成來獲得更高質量的翻譯圖像。通過實驗結果可以很明顯地看出 DA-GAN 相較於其他網路在性能上的提升。但是需要注意的是，在生成結果中仍然存在一些失敗的地方（例如前面提到的「缺失的鳥腿」），這可能由於模型中的 instance 是通過弱監督 Attention 機制學到的，這與完全監督下的學習還是有一定的差距。如何彌補，或許要靜等傅建龍團隊接下來的工作了。

[1] DA-GAN技術：計算機幫你創造奇妙「新物種」

CVPR 2018論文宣講會，由微軟亞洲研究院、清華大學媒體與網路技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會，數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。研討會共包含了 6 個 session（共 22 個報告），1 個論壇，以及 20 多個 posters，AI 科技評論將為您詳細報道。

六個Session分別為：

Session 1：GAN and Synthesis

Session 2: Deep Learning

Session 3: Person Re-Identification and Tracking

Session 4: Vision and Language

Session 5: Segmentation, Detection

Session 6: Human, Face and 3D Shape