超級變變變:喵星人汪星人還有街景神奇變身|Paper+Code
夏乙 千平 發自猴姆
量子位 出品 | 公眾號 QbitAI
只會賣萌的貓主子分分鐘變身百獸之王?
白天能不能懂夜的黑?
你的汪星人如果是其他品種會是什麼樣?
不用想像,有個AI已經(完全不用人插手)「腦補」一切。先展示結果:
給一張小貓咪的圖像(左邊),AI就能自動讓它變身獅子王(右邊)。
給一張白天的圖像(左邊),AI就能自動腦補出夜晚的樣子(右邊),還把燈效加上了~
給一張冬天的圖像(左邊),AI就能腦補夏天會是什麼景象(右邊),還把葉子加上了~
UNIT
上面這些神奇的變身,都屬於「圖像到圖像翻譯」的問題。
這些結果都來自Nvidia研究團隊的一篇NIPS 2017論文:UNsupervised Image-to-image Translation networks。
Ming-Yu Liu(劉洺堉)等研究員提出了一種基於耦合生成對抗網路(Coupled GAN)和變分自動編碼器(VAE)的無監督圖像到圖像翻譯框架,他們還根據首字母縮寫(強行)給「無監督圖像到圖像翻譯」起了個名字:UNIT。
論文中提到,從概率模型的角度來分析圖像到圖像的翻譯問題,會發現其中的關鍵挑戰是學習不同領域圖像的聯合分布。
△ 共享潛在空間假設
為了推斷聯合分布,Ming-Yu Liu等使用了「共享潛在空間假設」,假設不同領域的一對對應圖像(x1、x2)可以映射到共享潛在空間(z),UNIT框架就建立在這個假設的基礎之上。
上圖中的E1和E2是兩個編碼函數,可以將圖像映射到潛在編碼,而G1和G2是兩個生成函數,從潛在編碼映射到圖像。
△ UNIT框架結構
在UNIT框架中,研究人員用VAE-GAN對每張圖像建模,其中抗性訓練目標與權重共享約束相互作用,實施共享空間,以在兩個域中生成相對應的圖像,而VAE將翻譯的圖像與相應域中的輸入圖像關聯起來。他們用卷積神經網路(CNN)重建了E1、E2和G1、G2,並通過權重共享限制來實現了共享潛在空間假設。
搞定這個框架之後,研究人員們把它用到了各類無監督圖像到圖像翻譯任務上,比如說……
能完成街景在晴天雨天、白天黑夜、夏景雪景之間的轉換,支持640×480的圖片;也能在合成圖像和真實照片之間進行轉換:
還可以在各種狗狗品種之間轉換,只要養一隻狗,發朋友圈的時候就可以在哈士奇、德牧、柯基、薩摩耶、英國牧羊犬可以變來變去:
除了狗,還有貓,但不是你家的各類長毛短毛主子,而是在家貓、老虎、獅子、美洲獅、美洲虎、獵豹之間互相轉換:
當然,最常見的人臉變換這個模型也能搞定,可以生成出金髮、微笑、山羊鬍、戴眼鏡等等特徵:
要想說自己的模型好,當然還得和別人的作品比較一下。
幾位研究員用街景門牌號數據集SVHN、MNIST和USPS數據集之間的變換測試了模型性能,和SA、DANN、DTN、CoGAN等模型進行了比較。
UNIT框架在SVHN→MNIST任務上的準確率達到0.9053%,遠高於同類模型。
Paper+Code
如果你對這篇論文感興趣,可以直接閱讀原文。Paper地址:https://arxiv.org/abs/1703.00848
另外,Nvidia研究團隊還放出了這項研究的代碼。這是一個無監督圖到圖翻譯的Coupled GAN演算法PyTorch實現。
GitHub地址:https://github.com/mingyuliutw/UNIT
更多這個項目的圖像變換結果,可以在以下地址查看。
https://photos.app.goo.gl/5x7oIifLh2BVJemb2
我們還挑了幾段視頻,直接貼在這裡。比方冬天變夏天:
還有小貓和獸王互相變身:
研究團隊
Ming-Yu Liu(劉洺堉)
劉洺堉是Nvidia Research的研究員,專註於計算機視覺和機器學習方向。此前先後供職於英特爾和三菱。劉洺堉2003年在台灣交通大學獲得學士學位,2012年在馬里蘭大學帕克分校獲得博士學位。
劉洺堉個人主頁的信息顯示,今年他已經發布了9篇論文,除了上面這篇中NIPS(Spotlight)之外,他還有一篇論文中了IJCAI,有兩篇中了CVPR(包括一篇Oral):
- Tactics of Adversarial Attack on Deep Reinforcement Learning Agents
Yen-Chen Lin, Zhang-Wei Hong, Yuan-Hong Liao, Meng-Li Shih, Ming-Yu Liu, Min Sun
International Joint Conference on Artificial Intelligence (IJCAI), 2017 Melbourne, Australia
Paper:https://arxiv.org/abs/1703.06748
Project:http://yclin.me/adversarial_attack_RL
- Deep 360 Pilot: Learning a Deep Agent for Piloting through 360 Sports Videos
Hou-Ning Hu, Yen-Chen Lin, Ming-Yu Liu, Hsien-Tzu Cheng, Stanley Chang, Min Sun
Conference on Computer Vision and Pattern Recognition (CVPR) Oral, 2017, Honolulu, Hawaii
Paper:https://arxiv.org/abs/1705.01759
- CASENet: Deep Category-Aware Semantic Edge Detection
Zhiding Yu, Chen Feng, Ming-Yu Liu, Srikumar Ramalingam
Conference on Computer Vision and Pattern Recognition (CVPR), 2017, Honolulu, Hawaii
Paper:https://arxiv.org/abs/1705.09759
Thomas Breuel
Thomas Breuel是Nvidia的傑出研究科學家(Distinguished Research Scientist)。去年10月加入Nvidia之前,他在Google擔任研究科學家的工作。他還長期在德國凱澤斯勞騰大學任教,以及供職於施樂、IBM等公司。
Thomas Breuel本碩畢業於哈佛大學,1992年在麻省理工獲得博士學位。來自Google Scholar的信息顯示,Thomas Breuel今年除了這篇論文,還有一份專利申請獲批。
Jan Kautz
Jan Kautz是Nvidia視覺計算和機器學習研究的高級總監,領導整個視覺計算研發小組。此外他還一直擔任倫敦大學學院的教職。
他本科畢業於德國埃爾朗根-紐倫堡大學,隨後在滑鐵盧大學獲得碩士學位,2003年Jan Kautz在德國馬克思·普朗克計算機科學研究所獲得博士學位。
今年以來,Jan Kautz還發布了十幾篇論文,其中包括:
- Learning Affinity via Spatial Propagation Networks
S. Liu, S. De Mello, J. Gu, M.-S. Yang, J. Kautz
Neural Information Processing Systems (NIPS)
Paper:https://arxiv.org/abs/1710.01020
- Intrinsic3D: High-Quality 3D Reconstruction by Joint Appearance and Geometry Optimization with Spatially-Varying Lighting
R. Maier, K. Kim, D. Cremers, J. Kautz, M. Niessner
IEEE International Conference on Computer Vision (ICCV)
Paper:https://arxiv.org/abs/1708.01670
- A Lightweight Approach for On-The-Fly Reflectance Estimation
K. Kim, J. Gu, S. Tyree, P. Molchanov, M. Niessner, J. Kautz
IEEE International Conference on Computer Vision (ICCV,Oral)
Paper:https://arxiv.org/abs/1705.07162
- Mixed-primary Factorization for Dual-frame Computational Displays
F.-C. Huang, D. Pajak, J. Kim, J. Kautz, D. Luebke
ACM Transactions on Graphics (Proceedings SIGGRAPH 2017)
Paper:http://research.nvidia.com/publication/2017-06_Mixed-primary-Factorization-for
- Dynamic Facial Analysis: From Bayesian Filtering to Recurrent Neural Network
J. Gu, S. De Mello, X. Yang, J. Kautz
IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
Paper:http://research.nvidia.com/publication/dynamic-facial-analysis-bayesian-filtering-recurrent-neural-networks
- GA3C: GPU-based A3C for Deep Reinforcement Learning
M. Babaeizadeh, I. Frosio, S. Tyree, J. Clemons, J. Kautz
International Conference on Learning Representations(ICLR)
Paper:https://arxiv.org/abs/1611.06256
Code:https://github.com/NVlabs/GA3C
- Pruning Convolutional Neural Networks for Resource Efficient Transfer Learning
P. Molchanov, S. Tyree, T. Aila, T. Karras, J. Kautz
International Conference on Learning Representations(ICLR)
https://arxiv.org/abs/1611.06440
— 完 —
歡迎大家關注我們的專欄:量子位 - 知乎專欄
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位 QbitAI
推薦閱讀:
※搶佔智能家居入口,中興智能鎖眾籌2200多萬背後的秘密是什麼?
※金融科技可能被「玩壞」了
※面對人工智慧帶來的失業危機,人人都應該學點編程
※Hinton傳奇:退學當木匠,辭職反軍方,終成一代AI教父