標籤:

CVPR 2018 | Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

選自arxiv,作者:Patrick Esser等,機器之心編譯。

由於深度生成模型通常是直接生成目標圖像,沒有對本質形狀和外觀之間的相互影響建模,導致在空間轉換時出現性能退化。來自德國海德堡大學的研究者提出了條件 U-Net,將變分自編碼器輸出的外觀條件化。實驗證明,這個模型能夠完成條件圖像生成和轉換。在多個數據集上進行的定性和定量實驗表明,該方法比目前最先進的方法都有所提升。

研究展示頁:compvis.github.io/vunet

簡介

最近用於圖像合成的生成模型備受關注 [7, 12, 18, 24, 49, 51, 32]。生成目標的圖像需要對它們的外觀和空間布局的詳細理解。因此,我們必須分辨基本的目標特徵。一方面,與觀察者視角相關的有目標的形狀和幾何輪廓(例如,一個人坐著、站著、躺著或者拎著包)。另一方面,還有由顏色和紋理為特徵的本質外觀屬性(例如棕色長捲髮、黑色短平頭,或者毛茸茸的樣式)。很明顯,目標可以自然地改變其形狀,同時保留本質外觀(例如,將鞋子弄彎曲也不會改變它的樣式)。然而,由於變換或者自遮擋等原因,目標的圖像特徵會在這個過程中發生顯著變化。相反,衣服的顏色或者面料的變化對其形狀是沒有影響的,但是,它還是很清晰地改變了衣服的圖像特徵。

圖 1:變分 U-Net 模型學習從左邊的查詢中進行推理,然後生成相同外觀的目標在第一行所示的不同姿態下的圖像。

由於深度學習的使用,生成模型最近有很大的進展,尤其是生成對抗網路 (GAN) [1, 8, 10, 27, 38]、變分自編碼器 [16],以及它們的組合 [2, 17]。儘管有著引人注目的結果,但是這些模型在有著較大空間變化的圖像分布上還是面臨著性能較差的問題:儘管在完美註冊的人臉數據集(例如對齊的 CelebA 數據集 [22])上能夠生成高解析度的圖像 [19,13],然而從像 COCO[20] 多樣化的數據集中合成整個人體仍然是一個開放性的問題。導致這個問題的主要原因是,雖然這些生成模型能夠直接合成一個目標的圖片,但是它無法對生成圖像的外觀和形狀之間複雜的相互影響進行建模。所以,它們可以容易地向一張人臉添加鬍鬚和眼鏡,因為這相當於給那些圖像區域重新著色。將這個與人物移動胳膊相比,後者相當於給舊的位置的胳膊用背景顏色著色,並且將新位置的背景轉變為一隻胳膊。我們所缺失的就是一個能夠改變物體形狀,而不是僅能夠調整顏色的生成模型。

所以,在生成圖像的過程中,我們要對外觀、形狀以及兩者之間的複雜影響進行建模。對於通用的適用性,我們希望能夠僅從靜態的圖像數據集中進行學習,而不需要展示同一目標不同形狀的一系列圖片。為此,研究者提出了條件 U-Net[30] 架構,這個架構用於從形狀到目標圖像的映射,以及將關於外觀的變分自編碼器的潛在表徵條件化。為了解耦形狀和外貌,我們允許利用與形狀相關的簡單可用信息,例如邊緣或者身體關節位置的自動估計。然後該方法能實現條件圖像生成和轉換:為了合成不同的幾何輪廓或者或者改變目標的外觀,一個查詢圖片的外觀或者形狀會被保留,同時未被保留的那一部分就會被自由改變,甚至從其他圖像導入。此外,模型也允許在不改變形狀的情況下對外觀分布進行採樣。

圖 2: 條件 U-Net 與變分自編碼器相結合。x:查詢圖像,y hat:形狀估計,z:外觀。

圖 3: 僅僅將邊緣圖像作為輸入時的生成圖像(左側的 GT 圖像被保留了)。研究者在鞋子數據集 [43] 和挎包數據集 [49] 上將本文的方法與 pix2pix 進行了對比。在圖的右側是從變分 U-Net 的潛在外觀分布中的採樣。

表 1: 在 DeepFashion 和 Market1501 數據集上重建圖像的結構相似性(SSIM)和 Inception score(IS)。本文的方法要比 pix2pix[12] 和 PG^2[24] 具有更好的 SSIM 性能,至於 IS 性能,本文的方法要比 pix2pix 好一些,並且和 PG^2 有著相當的結果。

圖 4:僅僅將曲棍球擊球手作為輸入的生成圖像(GT 圖像被保留)。在 Deepfashion 和 Market-1501 數據集上將本文的方法與 pix2pix[12] 進行比較。圖像右側是從潛在外觀分布中所得的採樣。

圖 5: 草圖著色:比較 pix2pix[12] 和本文的模型的生成能力,本文的模型是在實際圖像上進行的訓練。任務是為鞋子和挎包的手繪草圖生成合理的外觀 [9]。

圖 6: Market-1501 數據集上的外觀轉換。外觀由左側底部的圖像提供。y?(中間)是從頂部圖像中自動提取,並向底部進行轉換。

圖 7: DeepFashion 數據集上外觀轉換的穩定性。每一行都是使用最左側圖像的外觀信息合成的,每一列都是對應於第一行的姿態的合成。需要注意的是,推理得到的外觀在很多視角上都是不變的。

圖 8:圖像轉換與 PG^2 的比較。左側:Market 數據集上的結果。右側:DeepFashion 數據集上的結果。外觀是從條件圖像中推理得到的,姿態是從目標圖像中推理的得到的。要注意,本文的方法不需要關於人物身份的標籤。

論文:A Variational U-Net for Conditional Appearance and Shape Generation(用於條件式生成外貌和形狀的變分 U-Net)

論文鏈接:arxiv.org/abs/1804.0469

深度生成模型在圖像合成領域展現了優異的性能。然而,由於它們是直接生成目標的圖像,而沒有對其本質形狀和外觀之間的複雜相互影響進行建模,所以在空間轉換時就會存在性能退化。我們針對形狀指導圖像生成提出了條件 U-Net,將變分自編碼器輸出的外觀條件化。這個方法在圖像數據集上進行端到端的訓練,不需要同一個物體在不同的姿態或者外觀下的採樣。實驗證明,這個模型能夠完成條件圖像生成和轉換。所以,查詢圖像的外觀或者形狀能夠被保留,同時能夠自由地改變未被保留的另一個。此外,在保留形狀的時候,由於外觀的隨機潛在表徵,它可以被採樣。在 COCO、 DeepFashion,、shoes、 Market-1501 以及 handbags 數據集上進行的定性和定量實驗表明,我們的方法比目前最先進的方法都有所提升。


推薦閱讀:

CVPR—II | 經典網路再現,全內容跟蹤
CVPR論文《Face Alignment at 3000 FPS 》閱讀筆記
從CVPR2017 看多樣目標檢測
多風格生成網路——實時風格轉換

TAG:人工智慧 | CVPR |