《Image-to-Image Translation with Conditional Adversarial Networks》閱讀筆記
原文鏈接:《Image-to-Image Translation with Conditional Adversarial Networks》
文章來源:2016年11月21日發表於arxiv 已投CVPR 2017
一、本文簡介
根據cGAN提出可以用於Image-to-Image Translation中多個任務的通用框架。二、相關工作介紹
Generative Adversarial Networks 和 Conditional Adversarial Networks 的詳細介紹在《Conditional Generative Adversarial Nets》閱讀筆記
cGAN結構:
本文cGAN結構:
三、本文工作介紹
本文主要在三個部分改進了cGAN, 包括目標函數,生成器的網路結構和判別器的判別方式。
1.對目標函數的修改
加入了約束項,使生成圖像不僅要像真實圖片,也要更接近於輸入的條件圖片。
2.在生成器中,用U-net結構代替encoder-decoder
3.提出PatchGAN
通常判斷都是對生成樣本整體進行判斷,比如對一張圖片來說,就是直接看整張照片是否真實。而且Image-to-Image Translation中很多評價是像素對像素的,所以在這裡提出了分塊判斷的演算法,在圖像的每個塊上去判斷是否為真,最終平均給出結果。
四、實驗
AMT perceptual studies:
AMT 是 Amazon Mechanical Turk 的縮寫。AMT 是Amazon旗下的一個網站,可以發布任務,會有人來人工完成。由於對於圖像是否真實,實驗結果不易評價,所以需要人工判斷照片是否為真。
FCN-score:
利用 FCN-8s 對生成的圖片做圖像分割,其中能識別出的物體越多則說明圖片越真實。
1. Objective function
當只用約束的時候,給出的圖片很模糊。用cGAN後,生成了更清晰的圖片,但是圖片中有很多空想的不存在於約束圖片中的物體。
+cGAN 後,圖片清晰的同時,更接近於輸入圖像,少了很多空想的成分。
後面的表格是表示生成圖片與真實圖片的顏色直方圖相似性。
2. Generator Architecture
(1)Photos to semantic segmentation
(3)Colorization
上圖可以看出,本文提出的方法能生成色彩豐富的圖像,但是如果用於圖像去飽和度,效果不是很好。
(4) Facades labels to photo
(5) Day to night
(6) The edges to photo
五、簡評
傳統的這些圖像問題都需要不同的模型,同時需要人工設置不同的目標函數,而如果用GAN來解決這些問題,我們就只需要設置一個目標,即使生成的圖像更接近真實圖像即可,這樣就不需要們自己設置目標函數,較少了目標函數可能造成的誤差。正是由此本文作者提出了這個能在多個圖像任務領域下通用的模型。自己認為這種對GAN的解釋很新穎。另外,這篇文章把多個Image-to-Image問題統一,利用一個通用的模型結構,很有意義。
六、 附錄(網路結構和數據集詳情)
源碼在這裡
1. Generator architectures
encoder-decoder:
3. Datasets
推薦閱讀:
※CAMA-LAB 機器學習暑期研討班(2017)
※分類及離散度量指標
TAG:机器学习 |