標籤:

【奧維雲網】AI看世界之3D攝像頭

【奧維雲網】AI看世界之3D攝像頭

人類有83%的信息是通過眼睛獲得的。我們所在的三維空間包含了三個維度的視覺信息,人類的雙眼在記錄了二維信息後,由大腦根據其連續變化在巨量運算後推導出第三維深度視覺信息。那麼AI呢?很遺憾傳統2D攝像頭即使在記錄二維信息時依然有斷檔,最先進的人工神經網路晶元此時在人腦面前不值一提,因此3D攝像頭應運而生。

3D攝像頭,即記錄三維信息的攝像頭。目前的主要技術方案包括:結構光(structure light)方案,光飛時間(TOF)方案,雙攝(或多攝)方案。前兩者是主動式探測方案,即主動發射探測信號根據信號變化判斷被探測物;後者是被動式探測方案,即直接對被探測物發射的信號進行檢測。下圖是三種方案的結構簡圖:

結構光方案

隨著Apple 率先推出跨時代產品Face ID ,其採用的結構光方案正處於爆發性成長階段。結構光方案的本質是運用探測信號彌補2D攝像頭接收信號時的缺失,然後推導出深度信息。目前的結構光方案基本為「散斑結構光「,光源經DOE光柵衍射後(理論上在空間中的任意一點不會產生相同的點陣),根據反射點陣可以判斷反射位置的相對空間坐標,將所有反射位置連接,從而得出物體的三維結構。

iPhone X 結構光方案

iPhone X 結構光點陣

光飛時間方案

早已在手機前置距離感測器與後置激光對焦上大規模的使用,其大規模爆發的時機基本可以確定為手機端AR功能的爆發。提到移動AR就不得不提谷歌的Tango項目,Tango雖然已經暫停但是其提出的三大理念-運動追蹤,區域學習,深度感知基本包含了AR技術的核心。這裡面的深度感知部分就是由TOF攝像頭負責。TOF即根據發射光與反射光的時間差就算距離,但是短距離時反射時間將會到10-12級,如何保證精度一直是困擾業界多年的難題。幸運的是,隨著半導體行業的發展計算力的提高以及新的計算方法的提出,目前TOF方案已經逐漸開始進行大規模商業應用,預計2019年將猛烈爆發。

TOF 示意圖

Tango 手機 聯想Phab 2 Pro

雙目方案

之所以放到最後,是因為以筆者的觀點看,雙目方案在移動端的大規模應用目前處在一個非常尷尬的地位。後置雙攝已經成為了中高端手機的標配。在光學與結構層別,幾乎與傳統2D攝像頭沒有任何區別,也是最像人類空間識別模式的方案,所以被最早應用於背景虛化。背景虛化最難的是主體與邊緣的分離,如果是有了深度信息,運算的難度就大大降低了,所以雙攝手機人像模式背景虛化效果比美圖秀秀要好。之後隨著晶元運算能力的提升與攝像頭sensor寬容度的提升,我們發現好像僅用雙攝就可以實現AR 功能了,蘋果用iPhone X 為我們展示的AR Kit效果著實讓人驚艷。但是就像文章開頭所提到信息的斷檔與巨量的運算極大的限制了它的發展前景,導致了一定精度的前提下它的識別距離非常有限,同時如果物體的顏色與紋理對比度不大,甚至沒有辦法推算深度信息(著名的自動駕駛第一撞,白色貨車沒有和天空分離)。因此雙目3D攝像頭方案後續在移動端很難大規模推廣,目前最火的是做手勢識別配件的Leap Motion 但是控制距離也只有60cm。

手機雙攝模組

Leap Motion手勢識別控制器

對三種3D攝像頭方案分析,目前手機3D攝像頭方案業界已經基本形成了共識(或者說大家都覺得蘋果就打算這麼做),前置攝像頭採用結構光方案,後置攝像頭採用TOF方案。前置Face ID 與後置AR 這兩大應用將推進3D攝像頭的飛速發展,在後續的文章中筆者會針對這兩大技術方案進行更深度的分享。

推薦閱讀:

懋特3D地圖,可視化讓一切盡在掌握
遊戲建模怎麼學比較好?
問題:為什麼我覺得網上的3D圖片都不是3D的?「裸眼3D」存在嗎?PPTV發布裸眼3D手機是不是噱頭?

TAG:3D | AI技術 | 相機 |