[CVPR2018筆記]Synthesizing Images of Humans in Unseen Poses
05-14
CVPR2018 ORAL
pose 合成
網路的輸入是original img, original pose, target pose,並預設original img和target img背景一樣,人是同一個。
首先前後景分離,然後針對前景(即人),針對身體的不同部分做細緻的segment
Pose Representation
人身體的pose用14個dots表示,在dots處還加入了高斯雜訊,有利於regularization,且有利於網路更快學習到這個特徵。
Source Image Segmentation
分前後景,前景又對應著已經定義好了的身體部分(10個)。
採用u-net,輸入是original img和pose的concat,輸出是各個部分的mask。
Foreground Spatial Transformation
這一過程則是將分割後的segment和target pose一一對應起來,並作相應的旋轉,放縮等。
Foreground Synthesis
前一階段我們已經根據target pose將各個segment位置變換好了,簡言之,就是把人的是個部分拆開來,然後根據目標姿勢重新組合,這一步則是將其徹底的合成,使其具備和真實照片一眼的一致性。
也是用的u-net,輸入為target pose和已經segments,輸出時foreground和target mask。
Background Synthesis
這部分則是處理新的target之間的孔洞,無新意。
Loss Function
兩部分組成
VGG LOSS: 將VGG19的前16層的輸出concat並計算L1距離
傳統的GAN loss。
推薦閱讀: