[CVPR2018筆記]Semi-parametric Image Synthesis
CVPR 2018 ORAL 來自CUHK
這裡設計的模型以semantic layout以輸入,輸出真實的相片般的圖片。
模型的訓練基於是由layout和color img組成的pair,用這樣的pair生成memory bank
notation:我們用M表示memory bank
test的時候,對於一個semantic label map,我們的模型將其segment,並從M中基於形狀等信息找到對應的component。match的塊的填充將要被填充到一個canvas上,由一個網路完成;為了預防重疊,設計了另一個網路來設計填充的順序。
canvas 和 input layout作為synthesis network的輸入,生成最終的輸出。
M的表示
所謂的memo bank就是segments的一個bank,基於semantic label map生成。
每一個segment定義了三個屬性,顏色,binary mask,semantic map(該segment周圍的context,並在一個bounding box範圍內)
Retrieval
對於一個新的semantic layout,對於每一個segment,計算出上面提到的三個屬性,基於下面的score計算方法, 從M選出最match的塊:
Transformation
在本階段,通過旋轉,放縮等變換,將選取的segment變得更加match
test的時候segment之間不是完美契合的,所以訓練的時候我們的訓練數據也應當是不完全契合的,故直接用mask來做map是不行的,這裡作者用random affine transformation。
Canvas
這一階段則是將transform後的segment放到一個canvas上,為了解決重疊問題,設計了一個ordering network,這裡的思路挺讓人耳目一新的,為了訓練這樣一個網路,使用了深度信息,對於沒有深度信息的數據集,則是使用預測depth信息的網路生成。
Image Synthesis
The image synthesis network f takes as input the semantic layout L, the canvas C, the target semantic layout and a binary mask that indicates missing pixels in the canvas.
推薦閱讀:
※從CVPR2017 看多樣目標檢測
※簡單自編碼器實現zero-shot learning (CVPR 2017)--論文筆記
※CVPR—II | 經典網路再現,全內容跟蹤
※CVPR 2018 | Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀