計算機視覺與影視業邂逅

02-14

前言

記得2010年那年，居然莫名其妙的選了一個電影首映去看，還是零點的，那個就是《阿凡達》，當時說實話，並沒有那麼懂，也不知道他作為電影行業的一個里程碑的意義，後來當然是懂了，因為這是一個全3D拍攝的電影，從此，可以說開創了3D電影的新時代，今年，剛好是8周年。

影視行業簡單列舉一下和人工智慧的一些結合，首當其衝的就是2D轉3D，直接在拍攝時候就用3D製作去拍攝，成本和投入都非常的大，後期製作複雜，於是，隨著技術的發展就衍生出來了另一個「偽3D」，直接用技術手段把2D的video轉換為3D。還有就是做一些觀感的觀眾反饋分析和給動畫換臉的例子，例如前段時間的一個給AV換臉的例子。

這次給大家介紹的還是一個「偽3D」的技術，其中介紹的是一篇有Ross Girshick大神參與的論文，不過issue裡面有不少同學說效果好像有點不理想，這個就要大家自己去驗證了哈（代碼參考[2]）！

技術

2D轉3D其實很好想像，其實就是3D因為是兩隻「眼睛」看的效果，所以圖像是有深度信息的，所以，2D轉3D的核心就是，如何把深度信息給準確的估計處理或者說重構出來。

為了實現自動2D和3D轉換，可以通過學習得到一個演算法模型。目前已經有一些工作是基於 DNN 實現的單張 2D 圖像的深度估測。然而還需要用圖像和深度圖數據對來進行訓練。由於這種數據對收集起來很困難，所以使用的資料庫都比較小，比如 NYU 深度資料庫和 KITTI，這類資料庫中只包含幾百張樣例。此外，這些數據集只有靜態場景，很難想像如何將這項技術應用到人物照片里。

相比之下，Deep3D 可以直接在具有數千萬幀的 3D 電影的基礎上進行訓練。我們在進行訓練時，把深度圖作為一個網路內部的表示，而不是作為末端的預測輸出。所以Deep3D的方法並不是先預測一張深度圖，然後用這張深度圖通過一個單獨的演算法去重建缺失的視角，而是在同一神經網路中重新創建端到端的方法來訓練它。

從Deep3D模型架構看，模型結合了來自多層級的信息，用端到端的方式訓練了從左眼視圖到右眼視圖的生成模型。基本網路預測了用了一個概率差分和DIBR（Depth Image-Based Rendering）。同樣方法現在也常常用在圖像填充上。

編者總結

記得我上計算機視覺（Computer Vision）的Ph.D course, Professor曾經解釋過，"Image processing is about 2D to 2D, computer graphic is about 3D to 2D and computer vision is about 2D to 3D." 然而在今天這個深度學習橫流的人工智慧世界，2D to 3D和DNN結合到一起，再加上端到端的實現方式可以說是很好的一種技術結合，在影視製作領域也有這非常重要的意義。

論文鏈接

[1]Deep3D: Fully Automatic 2D-to-3D Video Conversion with Deep Convolutional Neural Networks

[2]Deep3d Github Code

---人工智慧應用系列·介紹---

本系列介紹各領域的一些有趣的人工智慧應用，原理可能並沒有那麼複雜，目的是開拓大家的視野和思路，也許人工智慧能做的事情比我們想像的還要多。

專欄地址：人工智慧應用系列 - 知乎專欄（歡迎投稿和關注）

---關於極視角---

極視角獲華潤領投A+輪融資，為每個場景定製人工智慧mp.weixin.qq.com