英偉達新研究：「狗生貓，貓生萬物」的多模態無監督圖像轉換

05-01

林鱗編譯整理
量子位出品 | 公眾號 QbitAI

英偉達最近的一項研究看起來有點神奇。

一張普通的貓咪圖像，可以被轉換成一隻老虎、一頭獅子或一隻美洲豹。

還是一張普通的貓咪圖，還能被轉換成不同品種的狗。

這種實時轉換技術不僅能用於圖像，還能用於視頻~

這是英偉達最新創造的一項技術。在最近發布的論文Multimodal Unsupervised Image-to-Image Translation中，研究人員提出了一種多模態無監督的圖像到圖像（image to image）轉換框架。

這個框架的神奇之處在於，一張貓的圖像可以同時轉換成多種動物，能夠進行一對多的圖像轉換，打破了原來一對一轉換的限制。

△ 「狗生貓，貓生萬物」

△ 冬夏場景轉換

此外，這個框架還支持用戶通過提供示例樣式的圖像控制轉換輸出的風格。

這是一項有趣的技術，不僅能夠幫助遊戲開發者和電影製作者減少工作量和花費，還能讓自動駕駛領域更快、更容易地產生多樣化的訓練數據。

△ 道路的冬夏轉換

論文介紹

在論文Multimodal Unsupervised Image-to-Image Translation中，奈爾大學的Xun Huang、Serge Belongie聯合英偉達的Ming-Yu Liu與Jan Kautz提出了一種多模態無監督的圖像到圖像轉換問題的標準框架。

研究人員首先假設圖像的潛在空間能夠分解為內容空間和樣式空間，之後再進一步假設，不同領域的圖像內容空間相同，但樣式空間不同。

為了將一張圖像轉換為指定領域的圖像，研究人員在目標樣式空間中將圖像的內容代碼和隨機的樣式代碼重新組合。這樣，內容代碼編碼的信息在轉換過程中將被保留，而樣式代碼代表了與輸入圖像無關的剩餘的變體。

通過抽取不同風格的代碼，這個模型可以輸出風格多樣且多模態的圖像。

實驗表明，這個模型在建立多模態輸出分布時非常高效，並且和目前最先進的方法相比圖像質量更高。

△ 與現有的樣式轉換模型的對比

這並不是英偉達在圖像轉換領域的首次探索，這篇論文是在去年英偉達的NIPS論文Unsupervised Image-to-Image Translation Networks中提出的模型基礎上改進的。