可測深度攝像頭(TOF Camera)原理是什麼?

微軟的Project Natal上攝像頭為何沒有在科研中廣泛應用?請問監視攝像頭運用這種技術豈不是可以更準確檢驗出目標了?對於計算機視覺,人類通過雙眼的的合成影像可以判斷事物的遠近,那麼增加深度檢測功能對於攝像頭來說是不是很重要,這樣才能通過計算機視覺模擬人類視覺?


首先,深度攝像頭不等於ToF攝像頭,ToF全稱是Time of Flight,是深度攝像頭的一種而已。深度攝像頭有很多不同的方式去實現,例如雙攝像頭的視差,單個攝像頭通過移動在不同角度捕捉同一場景,photometric stereo等等,甚至還有ML的方式重建場景模型,或者通過多次不同距離的對焦計算距離,具體原理就不一一講解了,但是簡單描述一下ToF的工作方式,就是在每個像素點,除了記錄光線強度信息之外,也記錄下來光線從光源到該像素點的時間,因此ToF相機一般需要使用特定人造光源,順便提一下,最新的Kinect就是用的ToF相機,使用的光源是紅外線,這也就解釋了為什麼它只能在室內使用,因為太陽光下紅外線過強,會造成明顯的干擾。至於如何記錄時間,簡單的說就是通過測量光波的相位改變數,但是在此不做深究。你在問題中有一點描述得很正確,就是在攝像頭中增加深度信息感知可以大大增強攝像頭的功能,但是至於為什麼這項技術還沒有完全普及,原因也很多,首先是經濟成本,深度攝像頭遠高於一般的攝像頭,此外,還有攝像頭需要的空間和功率限制,手機攝像頭已經可以做到很小的體積和很小的功率,但是深度攝像頭還很難,特別是如果希望能達到比較高的精度,目前還很難做到。並且,很多深度攝像頭,如Kinect,是需要額外光源的,因此Kinect中還有專門的散熱設備。還有一個很重要的原因,就是目前軟體匹配的不好,即使得到比較準確的深度數據,也需要有專門的軟體來分析,從而得到有用的信息,但是目前針對三維圖像的軟體還很少,特別是面向一般用戶的軟體


感覺這其實是一個很大的問題,一般很難用一兩句話說清楚,一項技術如果沒有得到廣泛的應用,極有可能是因為還有太多制約因素(例如說成本,Kinect成本下來了用的人也就多了;技術本身的一些瓶頸,比如適用場合,有沒有對環境的特殊要求之類的,尤其是相機,一般光照影響較大,Kinect就無法在強光環境下使用吧;還有市場因素,能夠達到同樣目的的其他技術產品工作得較好,已基本滿足市場需求了。)

深度檢測只是計算機視覺中一個基本而又核心的任務,要準確地檢測目標,可能還需要做很多圖像分割,識別,跟蹤方面的工作。人類雙眼的基本原理就是stereo vision的主要依據,依靠視差(disparity)來估計深度。本身沒有深度檢測功能的攝像頭,可以使用立體視覺的原理(stereo,MVS)來估計深度,比如這款產品Bumblebee2 FireWire stereo vision camera systems Point Grey USB 3.0, Gigabit Ethernet and FireWire Machine Vision Cameras。而有深度檢測的攝像頭,比如說Kinect,也常常是利用視差原理來求取深度的,投射一個pattern,然後比較;ToF是另外一個原理,基本是測飛行時間,從縮寫就可以看出,Time of Flight。當然最開始求取深度的,還有廣泛使用的激光雷達(RangeFinder),只是成本很高,軍用,工業用比較多。每種方案各有利弊,需要根據應用場景具體分析。

如果想深究ToF的原理,建議讀讀這個:

https://hal.inria.fr/hal-00725654/PDF/TOF.pdf

如果覺得上面這個學術氣息太濃重了,可以看看下面兩個比較簡潔的slides,對於了解基本原理,足夠了:

http://www.ti.com/lit/wp/sloa190b/sloa190b.pdf

http://staff.ustc.edu.cn/~lgliu/Courses/SummerSchool_2012/slides/0628_JingTong_Kinect.pdf


首先,TOF 只是 3D 深度攝像技術中的一種方案。目前主流的 3D 深度攝像主流有三種方案:結構光、TOF、雙目成像。

  • 結構光(Structured Light):結構光投射特定的光信息到物體表面後,由攝像頭採集。根據物體造成的光信號的變化來計算物體的位置和深度等信息,進而復原整個三維空間。(蘋果iPhone X 用的就是這個方案)
  • TOF(Time Of Flight):TOF 系統是一種光雷達系統,可從發射極向對象發射光脈衝,接收器則可通過計算光脈衝從發射器到對象,再以像素格式返回到接收器的運行時間來確定被測量對象的距離。
  • 雙目成像(Stereo System):利用雙攝像頭拍攝物體,再通過三角形原理計算物體距離。

這三種方案中,雙目測距成像因為效率低、演算法難、精度差、容易受到環境因素干擾;TOF 方案同樣有精度缺陷,感測器體積小型化之後對解析度影響大

結構光、TOF、雙目成像方案的對比,資料由深圳灣整理

更多 3D 深度攝像的技術解讀,點擊鏈接可以查看深圳灣特稿:起底 3D 深度攝像技術,看智能手機廠商如何攻下爆發前夜第一城 | 特稿


先簡單回答一下,後面再整理補充。

TOF 相機是利用飛行時間(Time Of Flight)進行測距的。理論上,TOF相機有兩種:單點測距;多點測距。

單點測距就是一次只能測一個點的距離。利用激光+振鏡照射物體某個點,然後利用光敏二極體(PIN)或者雪崩二極體(APD)測量光線來回時間測距。激光連續掃描物體+光敏管連續測距,可得物體的3D成像。單點測距根據測量時間的方式分為脈衝式與相位式,前者測量速度快,精度一般,後者特點則相反。目前汽車自動駕駛上的激光雷達就是基於單點測距實現的(固態相控雷達本質也是單點測距),其特點是有效距離遠。

基於多點測距的設備基本上默認為題主所說的TOF相機。其原理與基於脈衝的單點測距類似,但是其收光器件為CCD,即帶電荷保持的光敏二極體陣列、對光響應具有積分特性。基本原理是激光源發射一定視野角激光,其中激光時長為dt(從t1到t2),CCD每個像素利用兩個同步觸發開關S1(t1到t2)、S2(t2到t2+dt)來控制每個像素的電荷保持元件採集反射光強的時段,得到響應C1、C2。物體距離每個像素的距離L=0.5*c*dt*c2/(c1+c2),其中c是光速(該公式可以去除反射物反光特性差異對測距的影響)。依據此原理,光源、CCD同步發光、採光一次可以直接對物體進行3D成像。

TOF相機測距最遠距離為0.5*c*dt。理論上dt越長,相機可測的最大距離越長,與此同時,激光管上電時間越長,越有燒壞激光管的可能性。TOF相機需要在測距距離與激光管壽命之間權衡。


當然。現在商業化的產品 手機 中的lg g3 應用了激光自動對焦感測技術 ,這種技術就類似 TOF camera的可測技術初淺應用,可以更准更快對焦,不過對於非專業人員,這個時間差比較難感知出來。

另外監控的應用 就是可測技術的一個重要的應用場景

3D和AR的需求會促進類似這些技術的成熟和商用

遊戲,監控、人機互動 都是類似技術的應用場

原理是什麼,我建議看這個鏈接:幾種深度攝像頭簡介


對於樓主的第二個問題,格林深瞳的皓目行為分析儀正是運用深度攝像頭進行監控視頻中人的行為分析,http://www.deepglint.com/haomu,比如應用在銀行自助區的視頻監控。我看過現場演示,效果還可以。


說沒有在科研中被廣泛應用應該不準確,基於KINECT的科研方面的應用非常多。但問題也就在於僅在科研中應用了,並沒有多少被轉化成實際的產業化成果。可以肯定的是深度攝像頭獲取的深度信息有非常廣泛的應用,但目前仍存在一些問題,我覺得最為核心的兩個方面:一是測量範圍;二是應用環境。目前深度相機的測量範圍也就幾米,對應用環境的要求也比較苛刻(主要受環境光影響嚴重)。所以,目前的深度相機應用在監控上還有非常遙遠的路要走。計算機視覺的範圍就太廣了,除了通過相機獲取信息之外,更重要更複雜的是對獲取的信息進行理解:包含三維信息提取、物體識別、分類、運動跟蹤等等。雙目視覺是目前深度測量的一種方法,這種方法同樣面臨很多問題,比如要求場景有明顯的特徵,演算法複雜等等。

總之,現在離深度攝像頭被廣泛應用還有很長的路要走。


推薦閱讀:

如何評價索尼手機的成像質量?是否存在「最好的攝像頭,最差的優化」?
攝像頭的入侵是否可以繞過指示燈(如果有)?
小米非常執著於把攝像頭做平對小米和消費者來說到底是好事還是壞事?
為什麼國產手機中只有魅族使用2000w像素的攝像頭?
為什麼英國衛報要騙人報道「」武昌理工學院在本科寢室安裝攝像頭,為了鼓勵學生好好學習"?

TAG:人工智慧 | 攝像頭 | 計算機視覺 | 監視 |