多風格生成網路——實時風格轉換

語言:English

讓我們看看藝術家眼裡的世界吧! 我們訓練了一個深度學習網路學習多個名家的畫風,並且可以讓它模仿各種風格來」畫「新的圖片。 請看一下我們的演示視頻,優酷地址:用藝術家的眼光看世界-在線播放-優酷網,視頻高清在線觀看 (YouTube 地址 youtube.com/watch?

這是基於 ICCV2017 投稿的論文 (Multi-style Generative Network for Real-time Transfer),在這裡簡單說一下原理,因為筆者是到美國之後才接觸的科研,所以術語使用不當之處還請多包涵(實在是捉急,請多指正)。在此論文之前,已經有比較優秀的工作(Ulyanov和Johnson)實現了實時的(real-time)風格轉換(Style Transfer),他們的工作主要是受Gatys工作的啟發,用相同的損失函數訓練一個生成網路,從而將複雜的運算負擔(burden)放在了訓練的過程在,實現了實時的畫風轉換。但是這種演算法的可擴展性(scalability)很局限,需要對每一種風格,訓練不同的生產網路。

那麼是什麼限制了已有的演算法,使其不能夠生成多樣的風格呢?根據Gatys的理論,風格和紋理信息可以用特徵的統計信息 feature statistics來描述,已有的生產網路的框架下,這個風格圖片的統計信息是通過損失函數隱含地(implicitly)傳達給生產網路,而不是直接讓生成網路來明確地(explicitly)與風格圖片的特徵相匹配(match)。本文提出了一個靈感層(Inspiration Layer),保留原有特徵的內容信息,並且匹配代表風格和紋理的統計信息。我們在不同的尺度下進行特徵匹配,從而實現了多種風格的轉換。我們將運算的負擔留在了訓練中,從而實現了實時的轉換。

最後展示一下我們方法的效果,以下多樣的圖片全部由一個生成網路生成的:

文章中的圖片裡面很多我身邊的元素,我老婆的頭像,我的故鄉瀋陽,iccv 2017開會的城市威尼斯,我可能要去生活幾年的城市亞特蘭大,以及中國的特徵長城和古建築等,凱奇那張圖原本是川普,老闆說太敏感,讓換掉了……

我么提供基於Torch的代碼(zhanghang1989/MSG-Net)和基於PyTorch的代碼(zhanghang1989/PyTorch-Style-Transfer)。歡迎關注我的工作 Hang Zhang (張航)。隱約覺得這篇可能會引起關注,因為課題比較熱門吧。我想藉此機會提一下我CVPR 2017的論文 深度紋理編碼網路 (Deep TEN: Texture Encoding Network),感興趣的朋友可以看一下。


推薦閱讀:

CVPR 2018 大家覺得什麼會火?
【關於立體視覺的一切】視覺SLAM專用術語的一句話介紹
商湯科技 SenseTime 有哪些牛人?
歡迎來到實力至上主義的CS231n教室(二)
無痛理解Local binary pattern(LBP)

TAG:深度学习DeepLearning | 计算机视觉 | CVPR |