合成逼真圖像,試試港中大&英特爾的半參數方法 | CVPR 2018 oral
來自專欄量子位143 人贊了文章
Root 編譯整理
量子位 出品 | 公眾號 QbitAI
你可能不相信,上面這張圖是合成的。
CG要達到這樣真實的效果,目前主流的做法是先手動建模,把物體的表面結構搭建出來,然後再貼圖、定材質、上燈光,最後渲染。
深度神經網路的出現,給CG帶來一道曙光。
根據大致的草圖框架(也稱語義布局法),深度神經網路現在可以直接合成真實效果的圖片。
不過,主流圖像合成所用的模型大多是參數模型(parametric models)。這種模型,所有和逼真外觀有關的數據,都會體現在深度神經網路的權重里。
不過,這與人類畫畫的方式不太一樣。
我們在畫畫的時候,不是完全憑記憶復刻現實的。而是把外界真實的物體當作一個參考,然後細節上微調,進行再創作。
參數模型的優點是具有高度的表現力(highly expressive),可進行端對端訓練。而非參數模型(nonparametric models)的優點,是可以在測試時提取大型的真實圖片數據集里的素材。
為了集結這兩種模型的優勢,香港中文大學聯合英特爾視覺計算實驗室共同研究出了一種半參數模型,簡稱為SIMS,相關工作論文Semi-parametric Image Synthesis已被CVPR 2018接收為口頭彙報。
https://www.zhihu.com/video/976571781536079872他們工作的思路是:
1)先用大型真實圖像數據集先訓練非參數模型,相當於獲得了一個合成素材庫。
2)然後基於語義布局(Semantic layout),把這些素材填充進去,就像一張圖被分割成好幾個版塊之後,再往上打補丁充實細節。
接縫的地方,深度網路會自行融合,並計算好版塊之間物體的空間關係,進一步加強視覺的真實效果。
實驗結果非常不錯。
在Cityspaces、NYU、ADE20K等數據集上訓練得到的效果,真實程度比去年8月量子位報道過的合成方法提高了不少。
對比上下圖,你會發現,SIMS合成的圖在清晰度上,光線折射關係上,都有出色的表現。物體融合的時候也不會發生扭曲。
語義布局合成法,也正是本論文的兩位作者——英特爾實驗室視覺組主管Vladlen Koltun與的陳啟峰提出的。
換句話說,這篇論文是在陳啟峰和Koltun之前工作的基礎上,作出了進一步的優化。
圖片的合成流水線
首先,給一個草圖。告訴模型,你想合成的圖片布局是什麼樣的。就像下圖最左上的小圖那樣。
另外,也要砌一個素材庫。
巧婦難為無米之炊。模型並不能自己瞎開腦洞編造合成用的素材。得「吃」大量的真實圖片之後建一個記憶庫(External Memory Bank)。
這兩步完成後,模型就根據草圖切割的形狀,提取出記憶庫里能對上號的素材,比如說路邊的建築啊,停放好的車輛,以及樹啥的。如(b)圖所示。
合適的素材拎出來,Transformation網路負責微調,使得各版塊的素材之間二維融合的效果比較好,不至於看起來很突兀。
最後,Ordering網路計算出這些板塊的空間位置,給予適當的光影關係,合成一幅逼真的圖片。
OMT
這篇論文的一作和導師都很有來頭。
先來介紹一下一作,齊曉娟。
齊曉娟,香港中文大學計算機科學與工程系4年級博士生,本科就讀於上海交大電子科學與技術專業。
目前研究方向主要是計算機視覺,深度網路和醫學影像分析。目前攻克的課題集中在語義分割,3D場景理解和圖像合成上。
據GitHub上的資料介紹,她已有三篇文章被CVPR2018收錄。
除了半參數圖像合成這篇,另外兩篇分別是GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation,Referring Image Segmentation via Recurrent Refinement Networks。
齊曉娟曾在英特爾視覺計算實驗室(Intel Visual Computing Lab)實習過半年,師從Vladlen Koltun,研究課題就是圖像合成。Vladlen Koltun也是本篇論文的作者之一。
導師賈佳亞博士,不僅是香港中文大學計算機科學與工程系的終生教授,還是騰訊優圖實驗室的傑出科學家。
賈佳亞教授於去年5月加入騰訊優圖實驗室。隨後組建團隊,打造出了好幾個產品應用。那個刷爆了票圈的軍裝照,還有「一鍵卸妝」應用,都出自他們團隊。
在賈佳亞教授的帶領下,騰訊優圖實驗室在ICCV 2017頂會上取得了十分漂亮的成績單,共有12篇論文入圍。今年的CVPR,賈佳亞教授團隊一共中了6篇論文。
二作陳啟峰的經歷也十分傳奇。
曾放棄清華保送的資格。本科就讀於香港科技大學,並獲取2011年的ACM國際大學生程序設計競賽金牌。本科畢業後,一舉拿下九所名校全額獎學金offer,最後他選擇了斯坦福。現在英特爾實驗室任研究人員。
最後,附code:
https://github.com/xjqicuhk/SIMS以及論文:
http://vladlen.info/papers/SIMS.pdf— 完 —
歡迎大家關注我們的專欄:量子位 - 知乎專欄
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位 QbitAI · 頭條號簽約作者
?? ? 追蹤AI技術和產品新動態
推薦閱讀:
※有趣的圖像處理技術(二)
※[論文概覽] AAAI 2018 行為識別論文概覽
※圖像檢索(一):因緣際會與前瞻
※Path Aggregation Network for Instance Segmentation
※caffe 編譯bug匯總
TAG:深度學習DeepLearning | 機器學習 | 計算機視覺 |