[CVPR2018筆記]Synthesizing Images of Humans in Unseen Poses

CVPR2018 ORAL

pose 合成

網路的輸入是original img, original pose, target pose,並預設original img和target img背景一樣,人是同一個。

首先前後景分離,然後針對前景(即人),針對身體的不同部分做細緻的segment

Pose Representation

人身體的pose用14個dots表示,在dots處還加入了高斯雜訊,有利於regularization,且有利於網路更快學習到這個特徵。

Source Image Segmentation

分前後景,前景又對應著已經定義好了的身體部分(10個)。

採用u-net,輸入是original img和pose的concat,輸出是各個部分的mask。

Foreground Spatial Transformation

這一過程則是將分割後的segment和target pose一一對應起來,並作相應的旋轉,放縮等。

Foreground Synthesis

前一階段我們已經根據target pose將各個segment位置變換好了,簡言之,就是把人的是個部分拆開來,然後根據目標姿勢重新組合,這一步則是將其徹底的合成,使其具備和真實照片一眼的一致性。

也是用的u-net,輸入為target pose和已經segments,輸出時foreground和target mask。

Background Synthesis

這部分則是處理新的target之間的孔洞,無新意。

Loss Function

兩部分組成

VGG LOSS: 將VGG19的前16層的輸出concat並計算L1距離

傳統的GAN loss。

推薦閱讀:

TAG:CVPR | 生成對抗網路GAN | 計算機視覺 |