基於計算機視覺的無人駕駛感知系統

06-18

作者簡介：吳雙，原百度研究院矽谷人工智慧實驗室高級研究員，百度美國研發中心高級架構師。美國南加州大學物理博士，加州大學洛杉磯分校博士後，研究方向包括計算機和生物視覺，互聯網廣告演算法，互聯網文本和視頻的推薦系統，語音識別和自然語言處理，曾在NIPS等國際會議中發表文章。劉少山，PerceptIn聯合創始人。加州大學歐文分校計算機博士，研究方向包括智能感知計算、系統軟體、體系結構與異構計算。現在PerceptIn主要專註於SLAM技術及其在智能硬體上的實現與優化。曾在百度美國研發中心負責百度無人車系統架構與產品化。劇透：劉少山將在MDCC 2016移動開發者大會上分享無人駕駛通用技術乾貨。

本文為《程序員》原創文章，未經允許不得轉載，更多精彩文章請訂閱2016年《程序員》

本文是無人駕駛技術系列的第三篇，著重介紹基於計算機視覺的無人駕駛感知系統。在現有的無人駕駛系統中，LiDAR是當仁不讓的感知主角。但是由於LiDAR的成本高等因素，業界有許多是否可以使用成本較低的攝像頭去承擔更多感知任務的討論。本文探索了基於計算機視覺的無人駕駛感知方案。首先，驗證一個方案是否可行需要一個標準的測試方法，我們介紹了廣泛被使用的無人駕駛視覺感知數據集KITTI。然後，我們討論了在無人駕駛場景中使用到的具體計算機視覺技術，包括Optical Flow和立體視覺、物體的識別和跟蹤以及視覺里程計演算法。

無人駕駛的感知

在無人駕駛技術中，感知是最基礎的部分，沒有對車輛周圍三維環境的定量感知，就有如人沒有了眼睛，無人駕駛的決策系統就無法正常工作。為了安全與準確的感知，無人駕駛系統使用了多種感測器，其中可視為廣義「視覺」的有超聲波雷達、毫米波雷達、激光雷達（LiDAR）和攝像頭等。超聲波雷達由於反應速度和解析度的問題主要用於倒車雷達，毫米波雷達和激光雷達承擔了主要的中長距測距和環境感知，而攝像頭主要用於交通信號燈和其他物體的識別。

LiDAR由於出色的精度和速度，一直是無人駕駛感知系統中的主角，是厘米級的高精度定位中不可或缺的部分。但是正如本系列第一篇文章《光學雷達在無人駕駛技術中的應用》分析，LiDAR存在成本昂貴、空氣中的懸浮物影響精度等問題，毫米波雷達雖然相比LiDAR可以適應較惡劣的天氣和灰塵，但也需要防止其他通訊設備和雷達間的電磁波干擾。

傳統計算機視覺領域的主要研究方向是基於可見光的攝像頭的視覺問題，從攝像頭採集的二維圖像推斷三維物理世界的信息。那麼最常見、成本較低的攝像頭能不能承擔更多的感知任務呢?在本文中，我們將探索基於計算機視覺的無人駕駛感知方案。首先，要驗證一個方案是否可行，我們需要一個標準的測試方法。本文將介紹由德國卡爾斯魯厄技術研究院（KIT）和豐田芝加哥技術研究院（TTIC）共同開發的KITTI數據集。在有了標準的數據集之後，研究人員可以開發基於視覺的無人駕駛感知演算法，並使用數據集對演算法進行驗證。我們將介紹計算機視覺在無人駕駛感知方面的前沿研究，包括光流（Optical Flow）和立體視覺、物體的檢測和跟蹤以及視覺里程計演算法。

KITTI數據集

KITTI數據集是由KIT和TTIC在2012年開始的一個合作項目，網站在http://www.cvlibs.net/datasets/kitti/，這個項目的主要目的是建立一個具有挑戰性的、來自真實世界的測試集。他們使用的數據採集車配備了：

一對140萬像素的彩色攝像頭Point Grey Flea2（FL2-14S3C-C），採集頻率10赫茲。

一對140萬像素的黑白攝像頭Point Grey Flea2（FL2-14S3M-C），採集頻率10赫茲。

一個激光雷達Velodne HDL-64E。

一個GPS/IMU定位系統OXTSRT 3003。

圖1 數據採集車

圖1這輛車在卡爾斯魯厄的高速公路和城區的多種交通環境下收集了數據，用激光雷達提供的數據作為ground truth，建立了面向多個測試任務的數據集：

Stereo/Optical Flow數據集：如圖2，數據集由圖片對組成。一個Stereo圖片對是兩個攝像頭在不同的位置同時拍攝的，Optical Flow圖片對是同一個攝像頭在相鄰時間點拍攝的。訓練數據集有194對，測試數據集有195對，大約50%的像素有確定的偏移量數據。

圖2 Stereo/Optical Flow數據集

視覺里程測量數據集：如圖3，數據集由22個Stereo圖片對序列組成，一個4萬多幀，覆蓋39.2公里的里程。

圖3 視覺里程測量數據集

三維物體檢測數據集：手工標註，包含轎車、廂車、卡車、行人、自行車者、電車等類別，用三維框標註物體的大小和朝向，有多種遮擋情況，並且一張圖片通常有多個物體實例，如圖4。

圖4 三維物體檢測數據集

物體追蹤數據集：手工標註，包含21個訓練序列和29個測試序列，主要追蹤目標類型是行人和轎車，如圖5。

圖5 物體追蹤數據集

路面和車道檢測數據集：手工標註，包含未標明車道、標明雙向單車道和標明雙向多車道三種情況，289張訓練圖片和290張測試圖片，ground truth包括路面（所有車道）和自車道，如圖6。

圖6 路面和車道檢測數據集

和以往計算機視覺領域的數據集相比，KITTI數據集有以下特點：

由無人駕駛車上常見的多種感測器收集，用LiDAR提供高精度的三維空間數據，有較好的ground truth。

不是用計算機圖形學技術生成的，更加接近實際情況。

覆蓋了計算機視覺在無人駕駛車上應用的多個方面。

由於這些特點，越來越多的研究工作基於這個數據集開展，一個新的演算法在這個數據集上的測試結果有較高的可信度。

計算機視覺能幫助無人駕駛解決的問題

計算機視覺在無人車上的使用有一些比較直觀的例子，比如交通標誌和信號燈的識別（Google）、高速公路車道的檢測定位（特斯拉）。現在基於LiDAR信息實現的一些功能模塊，其實也可以用攝像頭基於計算機視覺來實現。下面我們介紹計算機視覺在無人駕駛車上的幾個應用前景。當然，這只是計算機視覺在無人車上的部分應用，隨著技術的發展，越來越多的基於攝像頭的演算法會讓無人車的感知更準確、更快速、更全面。

計算機視覺在無人車場景中解決的最主要的問題可以分為兩大類：物體的識別與跟蹤，以及車輛本身的定位。

物體的識別與跟蹤：通過深度學習的方法，我們可以識別在行駛途中遇到的物體，比如行人、空曠的行駛空間、地上的標誌、紅綠燈以及旁邊的車輛等。由於行人以及旁邊的車輛等物體都是在運動的，我們需要跟蹤這些物體以達到防止碰撞的目的，這就涉及到Optical Flow等運動預測演算法。

車輛本身的定位：通過基於拓撲與地標演算法，或者是基於幾何的視覺里程計演算法，無人車可以實時確定自身位置，滿足自主導航的需求。

Optical Flow和立體視覺

物體的識別與跟蹤，以及車輛本身的定位都離不開底層的Optical Flow與立體視覺技術。在計算機視覺領域，Optical Flow是圖片序列或者視頻中像素級的密集對應關係，例如在每個像素上估算一個2維的偏移矢量，得到的Optical Flow以2維矢量場表示。立體視覺則是從兩個或更多的視角得到的圖像中建立對應關係。這兩個問題有高度相關性，一個是基於單個攝像頭在連續時刻的圖像，另一個是基於多個攝像頭在同一時刻的圖片。解決這類問題時有兩個基本假設：

不同圖像中對應點都來自物理世界中同一點的成像，所以「外觀」相似。

不同圖像中的對應點集合的空間變換基本滿足剛體條件，或者說空間上分割為多個剛體的運動。從這個假設我們自然得到Optical Flow的二維矢量場片狀平滑的結論。

在今年6月於美國拉斯維加斯召開的CVRP大會上，多倫多大學的Raquel Urtasun教授和她的學生改進了深度學習中的Siamese網路，用一個內積層代替了拼接層，把處理一對圖片的時間從一分鐘左右降低到一秒以內。

圖7 Siamese結構的深度神經網路

如圖7所示，這個Siamese結構的深度神經網路分左右兩部分，各為一個多層的卷積神經網路（CNN），兩個CNN共享網路權重。Optical Flow的偏移矢量估計問題轉化為一個分類問題，輸入是兩個9x9的圖片塊，輸出是128或者256個可能的偏移矢量y。通過從已知偏移矢量的圖片對中抽取的圖片塊輸入到左右兩個CNN，然後最小化交叉熵（cross-entropy）：

我們可以用監督學習的方法訓練整個神經網路。

i是像素的指標。

y_i是像素i可能的偏移矢量。

p_gt是一個平滑過的目標分布，用來給一兩個像素的預估誤差反饋一個非0的概率，gt表示ground truth。

p_i (y_i,w)是神經網路輸出的給定w時y_i的概率。

在KITTI的Stereo2012數據集上，這樣一個演算法可以在0.34秒完成計算，並達到相當出色的精度，偏移估計誤差在3-4像素左右，對大於3像素的偏移估計誤差在8.61像素，都好於其他速度慢很多的演算法。

在得到每個像素y_i上的分布後，我們還需要加入空間上的平滑約束，這篇文章試驗了三種方法：

最簡單直接的5x5窗口平均。

加入了相鄰像素一致性的半全局塊匹配（Semi Global Block Matching，SGBM）。

超像素+3維斜面。

這些平滑方法一起，能把偏移估計的誤差再降低大約50%，這樣一個比較準確的2維偏移矢量場就得到了。基於它，我們就能夠得到如圖8所示場景3維深度/距離估計。這樣的信息對無人駕駛非常重要。

圖8 深度信息圖物體的識別與追蹤

從像素層面的顏色、偏移和距離信息到物體層面的空間位置和運動軌跡，是無人車視覺感知系統的重要功能。無人車的感知系統需要實時識別和追蹤多個運動目標（Multi-ObjectTracking，MOT），例如車輛和行人。物體識別是計算機視覺的核心問題之一，最近幾年由於深度學習的革命性發展，計算機視覺領域大量使用CNN，物體識別的準確率和速度得到了很大提升，但總的來說物體識別演算法的輸出一般是有噪音的：物體的識別有可能不穩定，物體可能被遮擋，可能有短暫誤識別等。自然地，MOT問題中流行的Tracking-by-detection方法就要解決這樣一個難點：如何基於有噪音的識別結果獲得魯棒的物體運動軌跡。在ICCV 2015會議上，斯坦福大學的研究者發表了基於馬爾可夫決策過程（MDP）的MOT演算法來解決這個問題，下面我們就詳細介紹這個工作。

運動目標的追蹤用一個MDP來建模（圖9）：

圖9 DMM狀態圖

運動目標的狀態：s∈S=S_active∪S_tracked∪S_lost∪S_inactive,這幾個子空間各自包含無窮多個目標狀態。被識別到的目標首先進入active狀態，如果是誤識別，目標進入inactive狀態，否則進入tracked狀態。處於tracked狀態的目標可能進入lost狀態，處於lost狀態的目標可能返回tracked狀態，或者保持lost狀態，或者在足夠長時間之後進入inactive狀態。

作用a∈A，所有作用都是確定性的。

狀態變化函數T:S×A→S定義了在狀態s和作用a下目標狀態變為s"。

獎勵函數R:S×A→R定義了作用a之後到達狀態s的即時獎勵，這個函數是從訓練數據中學習的。

規則π:S→A決定了在狀態s採用的作用a。

如圖10，這個MDP的狀態空間變化如下：

圖10 狀態轉換實例

在active狀態下，物體識別演算法提出的物體候選通過一個線下訓練的支持向量機（SVM），判斷下一步的作用是a_1還是a_2，這個SVM的輸入是候選物體的特徵向量，空間位置大小等，它決定了在S_active中的MDP規則π_active。

在tracked狀態下，一個基於tracking-learning-detection追蹤演算法的物體線上外觀模型被用來決定目標物體是否保持在tracker狀態還是進入lost狀態。這個外觀模型（appearance model）使用當前幀中目標物體所在的矩形（bounding box）作為模板（template），所有在tracked狀態下收集的物體外觀模板在lost狀態下被用來判斷目標物體是否回到tracked狀態。另外在tracked狀態下，物體的追蹤使用上述外觀模型模板，矩形範圍內的Optical Flow和物體識別演算法提供的候選物體和目標物體的重合比例來決定是否保持在tracked狀態，如果是，那麼目標物體的外觀模板自動更新。

在lost狀態下，如果一個物體保持lost狀態超過一個閾值幀數，就進入inactive狀態；物體是否返回tracked狀態由一個基於目標物體和候選物體相似性特徵向量的分類器決定，對應了S_lost中的π_lost。

這個基於MDP的演算法在KITTI數據集的物體追蹤評估中達到了業界領先水平。

視覺里程計演算法

基於視覺的定位演算法有兩大分類：一種是基於拓撲與地標的演算法，另一種是基於幾何的視覺里程計演算法。基於拓撲與地標的演算法把所有的地標組成一個拓撲圖，然後當無人車監測到某個地標時，便可以大致推斷出自己所在的位置。基於拓撲與地標的演算法相對於基於幾何的方法容易，但是要求預先建立精準的拓撲圖，比如將每個路口的標誌物做成地標。基於幾何的視覺里程計演算法計算比較複雜，但是不需要預先建立精準的拓撲圖，這種演算法可以在定位的同時擴展地圖。以下著重介紹視覺里程計演算法。

視覺里程計演算法主要分為單目以及雙目兩種，純單目的演算法的問題是無法推算出觀察到的物體的大小，所以使用者必須假設或者推算出一個初步的大小，或者通過與其它感測器（如陀螺儀）的結合去進行準確的定位。雙目的視覺里程計演算法通過左右圖三角剖分（Triangulation）計算出特徵點的深度，然後從深度信息中推算出物體的大小。圖11展示了雙目視覺里程計演算法的具體計算流程：

圖11 雙目視覺里程計演算法的計算流程

雙目攝像機抓取左右兩圖。
雙目圖像經過Triangulation產生當前幀的視差圖（Disparity Map）。
提取當前幀與之前幀的特徵點，如果之前幀的特徵點已經提取好了，那麼我們可以直接使用之前幀的特徵點。特徵點提取可以使用Harris Corner Detector。
對比當前幀與之前幀的特徵點，找出幀與幀之間的特徵點對應關係。具體可以使用隨機抽樣一致（RANdom Sample Consensus，RANSAC）演算法。
根據幀與幀之間的特徵點對應關係，推算出兩幀之間車輛的運動。這個推算是最小化兩幀之間的重投影誤差（Reprojection Error）實現的。
根據推算出的兩幀之間車輛的運動，以及之前的車輛位置，計算出最新的車輛位置。

通過以上的視覺里程計演算法，無人車可以實時推算出自己的位置，進行自主導航。但是純視覺定位計算的一個很大問題是演算法本身對光線相當敏感。在不同的光線條件下，同樣的場景不能被識別。特別在光線較弱時，圖像會有很多噪點，極大地影響了特徵點的質量。在反光的路面，這種演算法也很容易失效。這也是影響視覺里程計演算法在無人駕駛場景普及的一個主要原因。一個可能的解決方法，是在光線條件不好的情況下，更加依賴根據車輪以及雷達返回的信息進行定位，這將會在後續的文章中詳細討論。

結論

在本文中，我們探索了基於視覺的無人駕駛感知方案。首先，要驗證一個方案是否可行，我們需要一個標準的測試方法。為此我們介紹了無人駕駛的標準KITTI數據集。在有了標準的數據集之後，研究人員可以開發基於視覺的無人駕駛感知演算法，並使用數據集對演算法進行驗證。然後，我們詳細介紹了計算機視覺的Optical Flow和立體視覺、物體的識別和跟蹤與視覺里程計演算法等技術，以及這些技術在無人駕駛場景的應用。視覺主導的無人車系統是目前研究的前沿，雖然目前各項基於視覺的技術還沒完全成熟，我們相信在未來五年，如果LiDAR的成本不能降下來，基於攝像機的視覺感知會逐步取代LiDAR的功能，為無人車的普及打好基礎。

從計算機視覺的角度，無人駕駛可能是一次難得的機遇，無人車產業爆髮帶來的資源、無人車收集的大量真實世界數據和LiDAR提供的高精度三維信息可能意味著計算機視覺將要迎來「大數據」和「大計算」帶來的紅利，數據的極大豐富和演算法的迭代提高相輔相成，會推動計算機視覺研究前進，並使之在無人駕駛中起到更加不可或缺的作用。

無人駕駛技術系列：

光學雷達（LiDAR）在無人駕駛技術中的應用

基於ROS的無人駕駛系統

基於計算機視覺的無人駕駛感知系統

2016 年 9 月 23-24 日，由 CSDN 和創新工場聯合主辦的「MDCC 2016 移動開發者大會· 中國」（Mobile Developer Conference China）將在北京· 國家會議中心召開，來自iOS、Android、跨平台開發、產品設計、VR開發、移動直播、人工智慧、物聯網、硬體開發、信息無障礙10個領域的技術專家將分享他們在各自行業的真知灼見。