超級變變變:喵星人汪星人還有街景神奇變身|Paper+Code

夏乙 千平 發自猴姆

量子位 出品 | 公眾號 QbitAI

只會賣萌的貓主子分分鐘變身百獸之王?

白天能不能懂夜的黑?

你的汪星人如果是其他品種會是什麼樣?

不用想像,有個AI已經(完全不用人插手)「腦補」一切。先展示結果:

給一張小貓咪的圖像(左邊),AI就能自動讓它變身獅子王(右邊)。

給一張白天的圖像(左邊),AI就能自動腦補出夜晚的樣子(右邊),還把燈效加上了~

給一張冬天的圖像(左邊),AI就能腦補夏天會是什麼景象(右邊),還把葉子加上了~

UNIT

上面這些神奇的變身,都屬於「圖像到圖像翻譯」的問題。

這些結果都來自Nvidia研究團隊的一篇NIPS 2017論文:UNsupervised Image-to-image Translation networks。

Ming-Yu Liu(劉洺堉)等研究員提出了一種基於耦合生成對抗網路(Coupled GAN)和變分自動編碼器(VAE)的無監督圖像到圖像翻譯框架,他們還根據首字母縮寫(強行)給「無監督圖像到圖像翻譯」起了個名字:UNIT。

論文中提到,從概率模型的角度來分析圖像到圖像的翻譯問題,會發現其中的關鍵挑戰是學習不同領域圖像的聯合分布。

共享潛在空間假設

為了推斷聯合分布,Ming-Yu Liu等使用了「共享潛在空間假設」,假設不同領域的一對對應圖像(x1、x2)可以映射到共享潛在空間(z),UNIT框架就建立在這個假設的基礎之上。

上圖中的E1和E2是兩個編碼函數,可以將圖像映射到潛在編碼,而G1和G2是兩個生成函數,從潛在編碼映射到圖像。

UNIT框架結構

在UNIT框架中,研究人員用VAE-GAN對每張圖像建模,其中抗性訓練目標與權重共享約束相互作用,實施共享空間,以在兩個域中生成相對應的圖像,而VAE將翻譯的圖像與相應域中的輸入圖像關聯起來。他們用卷積神經網路(CNN)重建了E1、E2和G1、G2,並通過權重共享限制來實現了共享潛在空間假設。

搞定這個框架之後,研究人員們把它用到了各類無監督圖像到圖像翻譯任務上,比如說……

能完成街景在晴天雨天、白天黑夜、夏景雪景之間的轉換,支持640×480的圖片;也能在合成圖像和真實照片之間進行轉換:

還可以在各種狗狗品種之間轉換,只要養一隻狗,發朋友圈的時候就可以在哈士奇、德牧、柯基、薩摩耶、英國牧羊犬可以變來變去:

除了狗,還有貓,但不是你家的各類長毛短毛主子,而是在家貓、老虎、獅子、美洲獅、美洲虎、獵豹之間互相轉換:

當然,最常見的人臉變換這個模型也能搞定,可以生成出金髮、微笑、山羊鬍、戴眼鏡等等特徵:

要想說自己的模型好,當然還得和別人的作品比較一下。

幾位研究員用街景門牌號數據集SVHN、MNIST和USPS數據集之間的變換測試了模型性能,和SA、DANN、DTN、CoGAN等模型進行了比較。

UNIT框架在SVHN→MNIST任務上的準確率達到0.9053%,遠高於同類模型。

Paper+Code

如果你對這篇論文感興趣,可以直接閱讀原文。Paper地址:arxiv.org/abs/1703.0084

另外,Nvidia研究團隊還放出了這項研究的代碼。這是一個無監督圖到圖翻譯的Coupled GAN演算法PyTorch實現。

GitHub地址:github.com/mingyuliutw/

更多這個項目的圖像變換結果,可以在以下地址查看。

photos.app.goo.gl/5x7oI

我們還挑了幾段視頻,直接貼在這裡。比方冬天變夏天:

還有小貓和獸王互相變身:

研究團隊

Ming-Yu Liu(劉洺堉)

劉洺堉是Nvidia Research的研究員,專註於計算機視覺和機器學習方向。此前先後供職於英特爾和三菱。劉洺堉2003年在台灣交通大學獲得學士學位,2012年在馬里蘭大學帕克分校獲得博士學位。

劉洺堉個人主頁的信息顯示,今年他已經發布了9篇論文,除了上面這篇中NIPS(Spotlight)之外,他還有一篇論文中了IJCAI,有兩篇中了CVPR(包括一篇Oral):

  • Tactics of Adversarial Attack on Deep Reinforcement Learning Agents

Yen-Chen Lin, Zhang-Wei Hong, Yuan-Hong Liao, Meng-Li Shih, Ming-Yu Liu, Min Sun

International Joint Conference on Artificial Intelligence (IJCAI), 2017 Melbourne, Australia

Paper:arxiv.org/abs/1703.0674

Project:yclin.me/adversarial_at

  • Deep 360 Pilot: Learning a Deep Agent for Piloting through 360 Sports Videos

Hou-Ning Hu, Yen-Chen Lin, Ming-Yu Liu, Hsien-Tzu Cheng, Stanley Chang, Min Sun

Conference on Computer Vision and Pattern Recognition (CVPR) Oral, 2017, Honolulu, Hawaii

Paper:arxiv.org/abs/1705.0175

  • CASENet: Deep Category-Aware Semantic Edge Detection

Zhiding Yu, Chen Feng, Ming-Yu Liu, Srikumar Ramalingam

Conference on Computer Vision and Pattern Recognition (CVPR), 2017, Honolulu, Hawaii

Paper:arxiv.org/abs/1705.0975

Thomas Breuel

Thomas Breuel是Nvidia的傑出研究科學家(Distinguished Research Scientist)。去年10月加入Nvidia之前,他在Google擔任研究科學家的工作。他還長期在德國凱澤斯勞騰大學任教,以及供職於施樂、IBM等公司。

Thomas Breuel本碩畢業於哈佛大學,1992年在麻省理工獲得博士學位。來自Google Scholar的信息顯示,Thomas Breuel今年除了這篇論文,還有一份專利申請獲批。

Jan Kautz

Jan Kautz是Nvidia視覺計算和機器學習研究的高級總監,領導整個視覺計算研發小組。此外他還一直擔任倫敦大學學院的教職。

他本科畢業於德國埃爾朗根-紐倫堡大學,隨後在滑鐵盧大學獲得碩士學位,2003年Jan Kautz在德國馬克思·普朗克計算機科學研究所獲得博士學位。

今年以來,Jan Kautz還發布了十幾篇論文,其中包括:

  • Learning Affinity via Spatial Propagation Networks

S. Liu, S. De Mello, J. Gu, M.-S. Yang, J. Kautz

Neural Information Processing Systems (NIPS)

Paper:arxiv.org/abs/1710.0102

  • Intrinsic3D: High-Quality 3D Reconstruction by Joint Appearance and Geometry Optimization with Spatially-Varying Lighting

R. Maier, K. Kim, D. Cremers, J. Kautz, M. Niessner

IEEE International Conference on Computer Vision (ICCV)

Paper:arxiv.org/abs/1708.0167

  • A Lightweight Approach for On-The-Fly Reflectance Estimation

K. Kim, J. Gu, S. Tyree, P. Molchanov, M. Niessner, J. Kautz

IEEE International Conference on Computer Vision (ICCV,Oral)

Paper:arxiv.org/abs/1705.0716

  • Mixed-primary Factorization for Dual-frame Computational Displays

F.-C. Huang, D. Pajak, J. Kim, J. Kautz, D. Luebke

ACM Transactions on Graphics (Proceedings SIGGRAPH 2017)

Paper:research.nvidia.com/pub

  • Dynamic Facial Analysis: From Bayesian Filtering to Recurrent Neural Network

J. Gu, S. De Mello, X. Yang, J. Kautz

IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Paper:research.nvidia.com/pub

  • GA3C: GPU-based A3C for Deep Reinforcement Learning

M. Babaeizadeh, I. Frosio, S. Tyree, J. Clemons, J. Kautz

International Conference on Learning Representations(ICLR)

Paper:arxiv.org/abs/1611.0625

Code:github.com/NVlabs/GA3C

  • Pruning Convolutional Neural Networks for Resource Efficient Transfer Learning

P. Molchanov, S. Tyree, T. Aila, T. Karras, J. Kautz

International Conference on Learning Representations(ICLR)

arxiv.org/abs/1611.0644

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI


推薦閱讀:

搶佔智能家居入口,中興智能鎖眾籌2200多萬背後的秘密是什麼?
金融科技可能被「玩壞」了
面對人工智慧帶來的失業危機,人人都應該學點編程
Hinton傳奇:退學當木匠,辭職反軍方,終成一代AI教父

TAG:人工智能 | 神经网络 | 机器学习 |