[CVPR2018筆記]Synthesizing Images of Humans in Unseen Poses

05-14

CVPR2018 ORAL

pose 合成

網路的輸入是original img， original pose， target pose，並預設original img和target img背景一樣，人是同一個。

首先前後景分離，然後針對前景（即人），針對身體的不同部分做細緻的segment

Pose Representation

人身體的pose用14個dots表示，在dots處還加入了高斯雜訊，有利於regularization，且有利於網路更快學習到這個特徵。

分前後景，前景又對應著已經定義好了的身體部分（10個）。

採用u-net，輸入是original img和pose的concat，輸出是各個部分的mask。

這一過程則是將分割後的segment和target pose一一對應起來，並作相應的旋轉，放縮等。

前一階段我們已經根據target pose將各個segment位置變換好了，簡言之，就是把人的是個部分拆開來，然後根據目標姿勢重新組合，這一步則是將其徹底的合成，使其具備和真實照片一眼的一致性。

也是用的u-net，輸入為target pose和已經segments，輸出時foreground和target mask。

這部分則是處理新的target之間的孔洞，無新意。

兩部分組成

VGG LOSS: 將VGG19的前16層的輸出concat並計算L1距離

傳統的GAN loss。