Valse2018參會小結——生成對抗網路系列1

05-03

Valse2018參會小結——生成對抗網路系列

1 引言

2 面向人臉的生成對抗網路

2.1基於GAN的人臉生成及修復

2.2基於生成對抗網路的超解析度重建

2.3基於生成對抗網路的人臉配准

2.4基於條件生成對抗網路的圖像遷移—人臉屬性

3 面向行人的生成對抗網路

3.1 基於GAN的行人檢測

3.2 基於感知生成對抗網路PGAN的行人再識別

3.3 人體解析—人體姿態估計

3.4 基於不同ReID數據集的行人圖片遷移PTGAN

4 面向醫學影像的生成對抗網路

4.1 醫學圖像分割

4.2 醫學圖像分類

4.3 醫學圖像重構

4.4 醫學圖像識別

1 引言

近年來，深度學習在計算機視覺、自然語言處理等諸多應用領域中取得突破性進展。現有的深度學習的模型可大致分為卷積神經網路（Convolutional Neural Networks, CNNs）、循環神經網路（Recurrent Neural Networks, RNNs）、和生成對抗網路（Generative Adversarial Nets, GANs）等。現有深度學習方法對真實世界進行建模需要大量先驗知識，而建模的好壞直接影響生成模型的性能。鑒於此問題，Goodfellow 所提出生成對抗網路GAN逐步受到廣大學者和專家們的關注。GAN由生成網路和對抗網路組成，採用對抗訓練機制進行訓練，並使用優化器（如隨機梯度下降（SGD,stochastic gradient descent），自適應時刻估計方法（Adam，Adaptive Moment Estimation）等）實現優化，二者交替訓練，直到達到納什均衡後停止訓練。目前，GAN已成功應用於圖像生成、圖像分類、圖像分割、圖像理解，圖像超解析度等領域，同樣，深度學習和增強學習的交叉應用不容忽視，諸多研究工作表明GAN能夠與強化學習很好的結合。在應用落地方面，Google、Facebook和 Twitter 等知名人工智慧企業紛紛投入大量精力研究和拓展GAN的應用。

本文首先介紹GAN在面向人臉、行人、醫學影像等方面的最新研究進展，然後分析與總結GAN在建模、訓練策略選擇等方面值得借鑒之處，最後指出生成式對抗網路研究中亟待解決的問題。

2 面向人臉的生成對抗網路

在監控視頻、移動多媒體應用等領域，人臉對象作為重要的研究對象，具有重要的研究意義。現有的面向人臉的技術主要分為預處理與後處理兩個大的方向。其中人臉預處理包括人臉檢測、人臉配准、人臉修復等方向，人臉後處理則包括人臉超解析度重建、人臉屬性轉換、人臉美化、人臉識別等方向。下面將對這幾類演算法進行詳細介紹。

2.1 基於GAN的人臉生成及修復

圖像修復任務主要基於圖像中已有信息，去還原圖像中的缺失部分。傳統演算法主要採用圖像塊匹配（PatchMatch），從已給數據集中搜尋相似圖片塊（Patch）來進行圖像補全和合成殘缺圖片，這類演算法計算速度慢且效果較差。相比於這種方法，深度學習的方法採用「先驗知識＋CNN」的策略合成圖像殘缺部分的內容。為了解決圖像修復問題，基於生成對抗網路的方法相繼被提出，其中，CVPR 2017文獻[1]最具有代表性，該方法的整體結構如下圖所示，整個模型主要由三個模塊構成：一個生成器（G，Generator），兩個鑒別器（D，Discriminator），一個語義解析網路（SP，Semantic Parsing network），三個模塊的損失函數分別對應於重建損失（a reconstruction loss）、對抗損失（global and local adversarial losses）、感知稀疏損失（a semantic parsing loss）。

生成器G：採用一個VGG-19 的自動編碼器得到人臉重建圖像。該網路的編碼層結構encoder與解碼層decoder結構相對稱，其優勢在於：1）自動編碼器的特徵提取能力較強，2）殘缺圖片通過編碼層encoder映射成隱藏特徵，得到很好的隱式表達，3）編碼器的使用能夠避免圖像重建過程中雜訊的干擾。但是生成器生成的圖像往往會非常模糊，僅獲得粗略的人臉輪廓。

判別器D：為了解決以上問題，演算法採用兩個判別器（local discriminator和global discriminator）對生成圖片的細節進行完善，使得生成的圖片更加真實。其優勢在於，局部判別器能夠讓生成器生成圖片中補全的部分更加真實，而整體判別器則使得整個生成的圖片看起來更加真實。但是，以上生成器與判別器的組合方式仍存在局限性，例如生成圖像不包含人臉圖像正確屬性。

語義解析網路SP：受文獻[2]啟發，演算法採用語義解析網路改進上述生成對抗網路生成的圖片，其生成的人臉圖像具有更加自然的形態。

2.2 基於生成對抗網路的超解析度重建

受多種因素影響，視頻監控中得到的人臉圖像往往含有模糊、雜訊、低解析度、壓縮失真等降質因素。大多數基於卷積神經網路的方法僅對正面人臉圖像進行超解析度重建，當面對不同姿態的低解析度圖像時，這些方法重建人臉圖像的質量較大，呈現姿態不可控的現象。為了解決人臉姿態可控的問題，哈工大左旺孟老師提出一種指導人臉重建的網路(GFRNet, guided facerestoration network)。該方法的整體結構如下圖所示，整個模型主要由兩個模塊構成：一個圖像扭曲網路(WarpNet, warpingsubnetwork) 和一個重建網路（RecNet，reconstruction subnetwork）。

圖像扭曲網路WarpNet：主要用於指導生成圖像，使重建圖像具有合適的姿態與表情。WarpNet具有encoder-decoder的網路結構，如下圖所示，它還整合了landmark loss和TV regularizer。它的優勢在於演算法可以進行可控姿態下的人臉重建。

下圖第一列是待處理圖像，第二列是指導圖像，通過觀察可以看出，與傳統的CNN方法（第三、四列）相比，GFRNet（最後一列）能夠更好地重建人臉圖像。

2.3 基於生成對抗網路的人臉配准

在人臉識別任務中，非正面人臉識別的性能較低，如何根據側面照片合成正面人臉一直是個難題。為了解決人臉配准、人臉合成的問題，中科院自動化所（CASIA）提出了雙路徑GAN（TP-GAN，Two Path GAN）[3]，該方法綜合考慮了人臉整體和局部信息的整合，通過單一側面照片合成正面人臉圖像，取得了較好的結果。TP-GAN的結構示意圖如下圖所示，主要包括生成網路，判別網路和人臉識別網路。

生成器包含兩個路徑，分別處理人臉全局信息及局部變換信息，通過融合特徵圖得到合成圖像；而判別器則用於合成正面人臉與真實人臉圖像；最後由人臉識別網路對生成圖像進行人臉驗證。

該方法的創新在於：它將從數據分布（對抗訓練）得來的先驗知識和人臉領域知識（對稱性、身份保留損失）結合起來，將對抗性損失（adversarial loss）、對稱性損失（symmetry loss）和身份保留損失（identity preserving loss）組合。這一損失的組合能夠利用正面臉部的分布和預訓練識別深度臉部模型（pre-trained discriminative deep face models），以此指導身份保留推理從正面臉部視圖合成側面照。如下圖所示，TP-GAN能夠將人臉圖像的面部特徵保留，包括鬍鬚、眼鏡，且將人臉遮擋的前額和臉頰部分恢復。

2.4 基於條件生成對抗網路的圖像遷移—人臉屬性

人臉圖像含有多種屬性信息，包括年齡、性別、微笑程度、情緒、顏值、視線、嘴部狀態、頭部姿態、眼睛狀態、皮膚狀態、人種等。在人臉屬性編輯任務中，傳統生成對抗網路的方法為了實現在k個不同的風格域上進行遷移，需要構建k?(k?1)個生成器，人臉屬性編輯更加精確，但多模型會造成圖像編輯慢的問題。為了解決此問題，文獻[4]提出一種屬性生成對抗網路（AttGAN，Attribute GAN），AttGAN的結構示意圖如下圖所示，主要包括生成網路G，判別網路D。在演算法實現過程中，該方法採用單組的生成器G和判別器D學習人臉圖像在多個不同屬性域中的轉換。

生成網路G：包含一個編碼器和兩個解碼器。其中，兩個解碼器分別完成原圖屬性、目標屬性人臉圖像的重建；這樣的網路有利於多屬性人臉圖像重新組合。

判別網路D：包括一個判別器和分類器。通過一個判別器決策重建圖像真偽，通過屬性約束網路調優屬性生成的準確性。

如下圖所示，該方法可實現多屬性人臉圖像的編輯，並且效果較好。

以上方法從圖像生成、圖像修補、超解析度重建、人臉圖像配准人臉屬性編輯等方法深入探索了生成對抗網路潛在的優勢，為廣大學者帶來啟示。

參考文獻

[1]LiY, Liu S, Yang J, et al. Generative Face Completion[J]. 2017.https://github.com/Yijunmaverick/GenerativeFaceCompletion

[2]Yang,Jimei, et al. "Object contour detection with a fully convolutionalencoder-decoder network." Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. 2016.

[3]Huang R, Zhang S,Li T, et al. Beyond Face Rotation: Global and Local Perception GAN forPhotorealistic and Identity Preserving Frontal View Synthesis[J].2017:2458-2467.

[4] Z.He, W. Zuo, M. Kan, S. Shan, X. Chen, Arbitrary Facial Attribute Editing: OnlyChange What You Want, arXiv:1711.10678, 2017.