《Image-to-Image Translation with Conditional Adversarial Networks》閱讀筆記

01-29

轉載請註明出處：西土城的搬磚日常

原文鏈接：《Image-to-Image Translation with Conditional Adversarial Networks》

文章來源：2016年11月21日發表於arxiv 已投CVPR 2017

一、本文簡介

根據cGAN提出可以用於Image-to-Image Translation中多個任務的通用框架。

二、相關工作介紹

Generative Adversarial Networks 和 Conditional Adversarial Networks 的詳細介紹在《Conditional Generative Adversarial Nets》閱讀筆記

cGAN結構：

本文cGAN結構：

三、本文工作介紹

本文主要在三個部分改進了cGAN，包括目標函數，生成器的網路結構和判別器的判別方式。

1.對目標函數的修改

加入了 $L_{1}$ 約束項，使生成圖像不僅要像真實圖片，也要更接近於輸入的條件圖片。

2.在生成器中，用U-net結構代替encoder-decoder

在Image-to-Image Translation的大多任務中，圖像的底層特徵同樣重要，所以利用U-net代替encoder-decoder。

3.提出PatchGAN

通常判斷都是對生成樣本整體進行判斷，比如對一張圖片來說，就是直接看整張照片是否真實。而且Image-to-Image Translation中很多評價是像素對像素的，所以在這裡提出了分塊判斷的演算法，在圖像的每個 $Ntimes N$ 塊上去判斷是否為真，最終平均給出結果。

四、實驗

AMT perceptual studies:

AMT 是 Amazon Mechanical Turk 的縮寫。AMT 是Amazon旗下的一個網站，可以發布任務，會有人來人工完成。由於對於圖像是否真實，實驗結果不易評價，所以需要人工判斷照片是否為真。

FCN-score:

利用 FCN-8s 對生成的圖片做圖像分割，其中能識別出的物體越多則說明圖片越真實。

1. Objective function

當只用 $L_{1}$ 約束的時候，給出的圖片很模糊。用cGAN後，生成了更清晰的圖片，但是圖片中有很多空想的不存在於約束圖片中的物體。 $L_{1}$ +cGAN 後，圖片清晰的同時，更接近於輸入圖像，少了很多空想的成分。

FCN-scores 越高，表示圖片中有更多可辨認的物體。作者同樣嘗試了去掉cGAN的條件，就相當於不去判斷這個圖片是否與輸入圖片相似，只需要關注圖片是否像真實照片，但是這樣的效果並不好。

上面是各種方法在Lab Color Space里對顏色分布的匹配情況（LAB color Space: 用L*a*b即明度值*紅/綠*黃/藍表示任意一種顏色）。

後面的表格是表示生成圖片與真實圖片的顏色直方圖相似性。

2. Generator Architecture

3. PatchGAN

4.所有任務實驗結果

（1）Photos to semantic segmentation

（2） Cityscapes labels to photos

（3）Colorization

上圖可以看出，本文提出的方法能生成色彩豐富的圖像，但是如果用於圖像去飽和度，效果不是很好。

（4） Facades labels to photo

（5） Day to night

（6） The edges to photo

（7）Example failure cases

五、簡評

傳統的這些圖像問題都需要不同的模型，同時需要人工設置不同的目標函數，而如果用GAN來解決這些問題，我們就只需要設置一個目標，即使生成的圖像更接近真實圖像即可，這樣就不需要們自己設置目標函數，較少了目標函數可能造成的誤差。正是由此本文作者提出了這個能在多個圖像任務領域下通用的模型。自己認為這種對GAN的解釋很新穎。另外，這篇文章把多個Image-to-Image問題統一，利用一個通用的模型結構，很有意義。

六、附錄（網路結構和數據集詳情）

源碼在這裡

1. Generator architectures

encoder-decoder：

u-net:

2. Discriminator architectures

3. Datasets