感測器融合-任務篇

上次聊了聊數據層的感測器融合方法,這次談談高層的任務級融合:障礙物檢測/分類,跟蹤,分割和定位。有時候融合可能在某一級的特徵空間進行,這個也會隨任務不同而變化。

次序還是按照以前的,先說傳統方法,再分析深度學習方法。


傳統融合方法

傳統融合理論一般包括代數法(加權和算一種),卡爾曼濾波

,貝葉斯理論和證據理論,其中卡爾曼濾波是最常見的方法。

1。「Intersection Safety using Lidar and Stereo sensors「:一個法國INRIA雙目和激光雷達融合(其實有毫米波雷達,沒有用在融合模塊)做十字路口安全駕駛系統的障礙物檢測。

雙目視覺演算法如圖:

最後利用障礙物標記和位置信息做融合,統一起來做跟蹤。

2。對障礙物分類採用激光雷達和單攝像頭融合的方案 「LiDAR and Camera-based Pedestrian and Vehicle Detection」:用一個Bayesian分類器合併兩個檢測器的結果送進跟蹤器。

3。「2D/3D Sensor Exploitation and Fusion for Detection」:圖像數據的檢測器用DPM演算法,激光雷達點雲數據檢測採用自己提出的3D Morph演算法,融合方式如加權和

4。把激光雷達,攝像頭和毫米波雷達的數據在障礙物檢測任務進行融合「Multiple Sensor Fusion and Classification for Moving Object Detection and Tracking「:

其系統框架如下:DATMO=Detection and Tracking of Moving Objects

其中融合機制基於證據理論(Evidential framework):

註:FOP=Frontal Object Perception,MOC=Moving Object Detection

5。CMU融合方式有些不同 「A Multi-Sensor Fusion System for Moving Object Detection and Tracking in Urban Driving Environments」:

其中基於數據相關(data association)的跟蹤方法針對不同感測器數據有所不同:最終在EKF平台跟蹤進行融合。

6。西安交大毫米波雷達和單目相機的檢測融合「Integrating Millimeter Wave Radar with a Monocular Vision Sensor for On-Road Obstacle Detection「:需要對毫米波雷達和攝像頭標定,計算一個平面轉換homography。

融合演算法基於point alignment模塊

7。類似上面系統,融合做檢測和跟蹤「Vehicle Detection and Tracking Using MMW Radar and Monovision Fusion「:融合是在跟蹤的軌跡完成的。

8。毫米波雷達和雙目結合 「Radar and stereo vision fusion for multi-target tracking on the special Euclidean group「:融合還是卡爾曼濾波器方法,多目標跟蹤採用probabilistic data association filter (PDA)演算法.


9。做場景分割的感測器融合「Fusion Based Holistic Road Scene Understanding」:激光雷達點雲產生目標假設,基於CRF模型做語義分割級別的點雲-視覺融合,其中採用graph cut求解。


10。百度Apollo感測器融合用於車輛定位「Robust and Precise Vehicle Localization based on Multi-sensor Fusion in Diverse City Scenes」:感測器配置有激光雷達64線,雷達,攝像頭,GPS-IMU(RTK),還有HD Map輸入。

整個融合框架是基於EKF(擴展卡爾曼濾波器):估計最優的position, velocity, attitude (PVA)。

11. "Real-time Depth Enhanced Monocular Odometry". 該方法是在VO的基礎上增加激光雷達點雲信息。

這是系統框架:

12. "Visual-lidar Odometry and Mapping: Low-drift, Robust, and Fast". 在LOAM基礎上的融合SLAM工作。

其實先用VO估計的運動去配准激光雷達點雲,然後用點雲重新修正攝像頭的運動估計,隨後步進式實現地圖,如圖:

系統軟體的架構如下圖:


深度學習方法。

最常見的是障礙物檢測任務,最近激光雷達和攝像頭結合的深度學習模型推出不少。

1。「A General Pipeline for 3D Detection of Vehicles「:採用激光雷達投影到路面的鳥瞰圖,建立一個廣義車輛模型做3D Bounding Box的模型擬合,在圖像檢測之後在利用點雲投影數據做二次修正,所以訓練有兩個CNN模型。

2。「Combining LiDAR Space Clustering and Convolutional Neural Networks for Pedestrian Detection「:基本上是基於點雲提出region proposal,然後結合圖像數據訓練CNN模型。

3。「Fusing Bird』s Eye View LIDAR Point Cloud and Front View Camera Image for Deep Object Detection「:點雲產生frontal view和bird『s view,定義了一個sparse non-homogeneous pooling layer 在兩個view之間轉換,這樣一個CNN模型結合點雲的bird view和前向圖像實現目標檢測。

這是sparse non-homogeneous pooling layer :

而CNN模型如下:

4。「PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation「:激光雷達點雲採用PointNet處理,圖像基於CNN,然後二者在一個融合CNN模型實現3D Bounding Box預測。

5。「RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinement「:還是基於PointNet分析點雲數據得到3D region proposal,和圖像CNN模型估計的2-D Bounding Box和姿態合併。

這是如何處理圖像的CNN方法:左邊是以前的模型,右邊模型加了一個pose估計。

最終的模型結構是這樣的:

6。「Joint 3D Proposal Generation and Object Detection from View Aggregation「:定義了一個新模型AVODAggregate View Object Detection),採用two-stage方法,包括兩個模型,即region proposal network (RPN) 和detector network,激光雷達點雲還是投影到路面BEV再輸入模型。

7。「Frustum PointNets for 3D Object Detection from RGB-D Data「:不同的是,將2D檢測的結果投影到3D空間形成3D viewing frustum基於這樣的3Dfrustum proposals和PointNet結合。

圖示的3D viewing frustum:

其中採用的PointNet模型:

8。「Deep Continuous Fusion for Multi-Sensor 3D Object Detection「:還是用點雲的鳥瞰視圖(BEV),只是作者提出了一個 "Continuous fusion" layer,通過K-NN在BEV聚類點雲,將它們投影到圖像平面找到相應的圖像特徵,最後在MLP形成目標的融合特徵。

9。 「Multi-View 3D Object Detection Network for Autonomous Driving」:採用激光雷達點雲的鳥瞰圖和前視圖像兩個方向的投影和RGB圖像共同構成目標檢測的輸入,檢測器類似兩步法,其中region proposal被3D proposal導出的bird view/frontal view proposal和2D image proposal結合所取代。


一個深度學習做跟蹤層的融合例子。

10。「End-to-end Learning of Multi-sensor 3D Tracking by Detection「:還是採用tracking by detection思路,訓練了三個CNN模型,即detectionnet,matchingnet和scoringnet。


很少通過點雲和圖像融合做分割的例子,也許3-D點雲分割的確和2-D圖像分割似乎在兩個空間,無法講清楚如何融合。這裡以RGB-D分割為例,畢竟它們都在pixel level討論結果。

11. "FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture": 分割是一個pixel-to-pixel問題,這裡直接把depth在不同特徵圖上和圖像融合。


沒有找到基於深度學習在定位上融合圖像和3D點雲的例子,這裡用一個激光雷達灰度圖像(反射值)和點雲結合的例子代替。

12. "Learning to Localize Using a LiDAR Intensity Map": 這裡採用激光雷達掃描的地面反射圖來定位車輛,下面可以看到這種灰度圖的樣子。


---------End---------


推薦閱讀:

TAG:自動駕駛 | 數據融合 | 感知 |