[CVPR2018筆記]Semi-parametric Image Synthesis

CVPR 2018 ORAL 來自CUHK

這裡設計的模型以semantic layout以輸入,輸出真實的相片般的圖片。

最上面一排是輸入,下面是輸出

模型的訓練基於是由layout和color img組成的pair,用這樣的pair生成memory bank

notation:我們用M表示memory bank

test的時候,對於一個semantic label map,我們的模型將其segment,並從M中基於形狀等信息找到對應的component。match的塊的填充將要被填充到一個canvas上,由一個網路完成;為了預防重疊,設計了另一個網路來設計填充的順序。

canvas 和 input layout作為synthesis network的輸入,生成最終的輸出。

M的表示

所謂的memo bank就是segments的一個bank,基於semantic label map生成。

每一個segment定義了三個屬性,顏色,binary mask,semantic map(該segment周圍的context,並在一個bounding box範圍內)

Retrieval

對於一個新的semantic layout,對於每一個segment,計算出上面提到的三個屬性,基於下面的score計算方法, 從M選出最match的塊:

兩個iou分別衡量的是segment本身shape,該segment周圍context

Transformation

在本階段,通過旋轉,放縮等變換,將選取的segment變得更加match

objective

test的時候segment之間不是完美契合的,所以訓練的時候我們的訓練數據也應當是不完全契合的,故直接用mask來做map是不行的,這裡作者用random affine transformation。

Canvas

這一階段則是將transform後的segment放到一個canvas上,為了解決重疊問題,設計了一個ordering network,這裡的思路挺讓人耳目一新的,為了訓練這樣一個網路,使用了深度信息,對於沒有深度信息的數據集,則是使用預測depth信息的網路生成。

Image Synthesis

The image synthesis network f takes as input the semantic layout L, the canvas C, the target semantic layout and a binary mask that indicates missing pixels in the canvas.


推薦閱讀:

從CVPR2017 看多樣目標檢測
簡單自編碼器實現zero-shot learning (CVPR 2017)--論文筆記
CVPR—II | 經典網路再現,全內容跟蹤
CVPR 2018 | Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

TAG:CVPR | 計算機視覺 |