[CVPR2018筆記]Semi-parametric Image Synthesis

05-13

CVPR 2018 ORAL 來自CUHK

這裡設計的模型以semantic layout以輸入，輸出真實的相片般的圖片。

最上面一排是輸入，下面是輸出

模型的訓練基於是由layout和color img組成的pair，用這樣的pair生成memory bank

notation：我們用M表示memory bank

test的時候，對於一個semantic label map，我們的模型將其segment，並從M中基於形狀等信息找到對應的component。match的塊的填充將要被填充到一個canvas上，由一個網路完成；為了預防重疊，設計了另一個網路來設計填充的順序。

canvas 和 input layout作為synthesis network的輸入，生成最終的輸出。

M的表示

所謂的memo bank就是segments的一個bank，基於semantic label map生成。

每一個segment定義了三個屬性，顏色，binary mask，semantic map（該segment周圍的context，並在一個bounding box範圍內）

Retrieval

對於一個新的semantic layout，對於每一個segment，計算出上面提到的三個屬性，基於下面的score計算方法，從M選出最match的塊：

兩個iou分別衡量的是segment本身shape，該segment周圍context

Transformation

在本階段，通過旋轉，放縮等變換，將選取的segment變得更加match

objective

test的時候segment之間不是完美契合的，所以訓練的時候我們的訓練數據也應當是不完全契合的，故直接用mask來做map是不行的，這裡作者用random affine transformation。

Canvas

這一階段則是將transform後的segment放到一個canvas上，為了解決重疊問題，設計了一個ordering network，這裡的思路挺讓人耳目一新的，為了訓練這樣一個網路，使用了深度信息，對於沒有深度信息的數據集，則是使用預測depth信息的網路生成。

Image Synthesis

The image synthesis network f takes as input the semantic layout L, the canvas C, the target semantic layout and a binary mask that indicates missing pixels in the canvas.