翻譯——《SLAM的過去發展、現狀、及未來前景:面向魯棒-感知的新紀元》(二-完結)
Ⅵ. 表示Ⅱ:語義地圖模型
語義建圖包括將語義概念與機器人環境中的幾何實體相關聯。近年來,純幾何建圖的局限已經被認識到,並且已經促進了對環境進行語義建圖的很重要並且正在進行的工作,致力於加強機器人的自動化和魯棒性,從而滿足更複雜的任務需求(例如,在行駛中避開泥濘的道路),從路徑規划到任務規劃,並且促進先進的人機交互[10,27,217]。這些觀察催生了語義建圖的各種方法,其語義概念的數量和類型各不相同,以及將它們與環境的不同部分相關聯的方式也不盡相同。舉個例子,Pronobis和Jensfelt[206]為不同的房間進行標籤,而Pillai和Leonard[201]在地圖上分割了幾個已知的物體。除幾種方法外,基本上語義分析被當作是分類問題,其中感測器數據和語義概念之間的簡單映射已經被考慮。
A. 語義建圖與拓撲建圖
正如Ⅰ節中所提到的,拓撲建圖丟棄了度量信息,僅利用場景識別來構建其中節點表示可區分的「地點」的圖,而邊表示地點之間的到達能力。我們注意到,拓撲建圖與語義建圖完全不同。前者需要能夠識別之前已經到達過的地方(而不需要考慮這個地方到底是廚房還是走廊什麼的。),後者的興趣則在於根據語義標籤將地點進行分類。Lowry等人[160]提出了基於視覺的拓撲SLAM的全面調查。而這方面的一些挑戰我們已經在Ⅲ節中討論了。在本節的接下來部分,我們將重點放在語義建圖上。
B. 語義SLAM:概念的結構與細節
人類的概念的數量和關係之間存在無限的關係,這就開啟了一個更加哲學化,任務驅動的關於語義概念的層次和組織的決定。細節和組織取決於什麼樣的背景,以及哪裡的背景,機器人應該執行一項任務,並在不同階段影響問題的複雜性。通過定義以下幾個方面來構建語義表示:
1)語義概念的級別/細節:對於給定的機器人任務,如「從房間A到達房間B」,粗糙的類別(房間,走廊,門)可以使任務執行得很順利,而對於其他類型的例如「拿起茶杯」,則需要更精細的類別(桌子,茶杯,玻璃杯)。
2)語義概念的組織:語義概念並不是唯一的。更重要的是,一個實體可以擁有無限數量的屬性或概念。一個椅子可以說是「可移動的」和「可以坐的」;一個飯桌可以說是「可移動的」和「不可以坐的」。儘管椅子和飯桌都是傢具,它們共享可移動的這個屬性,但二者的可用性卻不相同。平面或分層的組織,共享或不共享一些屬性,必須被設計出來,從而處理這種多重概念。
C. 簡短的調查
有三種主要的方法來應付語義建圖,並將語義概念分配給數據。
1)SLAM幫助語義:從事語義建圖工作的第一批機器人研究人員率先使用將經典SLAM系統構建的度量圖分割成語義概念的直接方法。Mozos等人[176]是這方面的一個早期工作,用二維激光掃描儀建立一個幾何地圖,然後通過關聯馬爾科夫網路融合每個機器人姿態的分類語義地點。類似的,Lai等人[148]根據RGB-D序列建立一個三維地圖來執行一個離線的對象分類。隨後Pronobis等人[206]提出了一個在線語義建圖的系統,結合三層推理(感官,分類和地點),使用激光和相機感測器構建環境的語義地圖。最近,Cadena等人[27]採用運動估計,並將粗略的語義分割與不同的物體檢測器互連,以超越單個系統。Pillai和Leonard[201]使用單目SLAM系統來提升視頻中對象識別任務的性能。
2)語義幫助SLAM:在第一個語義建圖出來後不久,另一個趨勢就是利用已知的語義類或對象。思路是如果我們能夠識別地圖中的物體或其他元素,那麼我們可以使用我們關於它們幾何的先驗知識來改善對該地圖的估計。這方面的第一次嘗試是在小尺度上的,Castle等人[45]和Civera等人[51]使用稀疏特徵的單目SLAM來做的,而Dame等人[57]則使用了稠密地圖表示。Salas-Moreno等人[217]利用RGB-D感測器的優勢,提出了基於對環境中已知物體的識別的SLAM系統。
3)聯合SLAM和語義推理:具有計算機視覺和機器人技術專長的研究人員認識到,他們可以在聯合製作中執行單目SLAM和地圖分割。Flintetal等人的在線系統[80]提出了一種利用曼哈頓世界假設在室內場景的主平面中分割地圖的模型。Bao等人[10]提出了一種方法,在場景中使用幾何和語義屬性,同時估計相機參數、平面點,以及物體標籤。在它們的工作中,作者們以每個圖像對的20分鐘的運行時間為代價證明了改進的對象識別性能和魯棒性,並且對象類別的有限數量使得該方法對於在線機器人操作而言不切實際。同時,Hane等人[103]在戶外場景下解決更專門化的類相關優化問題。雖然仍然是離線的,Kundu等人[147]通過語義分割和度量圖的後期融合來降低問題的複雜性,Sengupta等人[219]則更早提出了類似的想法,它們使用的是立體相機。注意到,[147]和[219]只關注建圖部分,不能優化早期計算得到的位姿。最近,Vineet等人[251]提出了一種很有前景的在線系統,該系統使用立體相機和稠密的地圖表示。
D. 公開問題
在SLAM中包含語義信息的問題還處於初級階段,與度量SLAM相反,它仍然缺乏一致性的表述。圖5顯示了一個施工現場的簡單例子,由此我們可以找到下面討論的挑戰。
1)一致的語義-度量融合:儘管在短暫融合方面上已經做了些工作,例如,每一幀語義證據[219,251],但將不同來源的語義信息與度量信息一致地融合在一起的問題仍然沒有解決。在已知的因子圖中加入語義分類的置信度或不確定度這種方式或許有助於實現聯合語義-度量推理框架。
2)語義建圖不僅僅是分類問題:語義概念正在演變為更為專業化的信息,例如地圖中實體的可供性和可操作性以及環境中不同活動代理之間交互的可能性。如何表示這種性質和交互關係,是高級人機交互的問題。
3)無知,意識和適應:在給定先驗知識後,機器人應該能夠推理新概念及其語義表徵,也就是說,它應該能發現環境中的新事物或分類,通過與其他機器人的積極交互來學習到新的性質,並且隨著時間的推移調整表示方法以適應發生緩慢和突然變化的環境。例如,假設一個輪式機器人需要判別一個地形是否可驅動,以通知其導航系統。如果機器人在以前認為是可行駛的道路上發現一些泥濘的地方,則機器人應該根據穿越泥濘地區的難度等級學習一個新的等級,或者如果另一輛車被困在泥濘中,則調整它的分類器。
4)基於語義的推理:作為人類,語義表徵可以讓我們能夠壓縮和加速關於環境的推理,但評估準確的度量表示則需要一些努力。目前,機器人並不是這樣的。機器人可以處理度量表示,但無法真正地使用語義概念。我們的機器人目前無法使用環境中的語義概念(類別,關係和屬性)來進行有效和高效的定位和連續建圖。例如,當檢測到汽車時,機器人應該推斷出汽車下方有平面地面(即使被遮擋),而當車移動時,地圖更新只需使用新的感測器數據來重新修正那些沒有切實證據的地面。更重要的是,相同的更新應該改變汽車的整體位姿,而不只是更新,例如每個單個體素。
Ⅶ. SLAM的新理論工具
本節討論那些為SLAM演算法建立性能保證的最新進展,並闡述了尚未解決的問題。理論分析是很重要的,原因主要有三點。第一,SLAM演算法和實現通常只在幾個問題實例中進行測試,如何將相應的結果如何推廣到新的實例中還是很難理解的。第二,理論結果揭示了問題的內在屬性,揭示了在實證評估過程中可能違反直覺的方面。第三,真正理解問題的結構可以推動演算法發展,從而擴展可以解決的一系列實際SLAM實例。
SLAM演算法的早期理論分析是基於EKF;我們建議讀者閱讀[65,255],了解對EKF SLAM的一致性和可觀察性進行的全面討論。這裡我們將重點放在因子圖優化方法上。除了在實用中的優點(準確性,效率)外,因子圖優化還提供了一個更適用於分析的優雅框架。
在沒有先驗的情況下,MAP估計退化為最大似然估計。因此,沒有先驗,SLAM便繼承了最大似然估計的所有性質:(4)式中的估計量是一致的、漸近高斯的、漸近有效的,並且對於歐幾里得空間中的變換是不變的[171,Th.11-1,2]。在有先驗時,這些性質當中有些就會失去(例如,估計量不再是不變的[171,page193])。
在這種情況下,我們對演算法的性質更感興趣:給定的演算法是否會收斂於MAP估計?我們如何提高或檢查收斂性?在出現虛假測量時,什麼是折點?
A. 簡短的調查
大部分SLAM演算法都是基於迭代非線性優化[64,100,125,192,204]。SLAM是一個非凸問題,迭代優化只能保證收斂到局部最小值。當一個演算法收斂到局部最小值時,它通常會返回一個完全錯誤且不適合導航的估計值(見圖6)。最先進的迭代求解器不能收斂到相對較小雜訊水平的全局最小代價[33,38]。
未能在迭代方法中進行收斂的問題已經推動了了對SLAM問題更深入理解的努力。Huang等人 [111]率先開展了這項工作,最初的工作是討論SLAM中非凸性的性質。Huang等人 [112]討論小位姿圖優化問題中的最小值的數目。Knuth和Barooah [138]研究了沒有閉環時誤差的增長。Carlone[30]提供了Gauss-Newton方法收斂的估計。Carlone和Censi[33]表明,旋轉估計可以用二維的封閉形式求解,並且表明相應的估計是唯一的。最近使用替代最大似然公式(例如,假設旋轉時的Von Mises雜訊[35,211])的方法已經實現了更好的結果。Carlone和Dellaert [32,37]表明,在實踐中經常遇到的某些條件下(強性),最大似然估計是唯一的,位姿圖優化可以通過(凸)半定規劃(SDP)全局求解。[110]給出了關於SLAM理論方面的最新概述。
正如在之前所提到的,理論分析有時候是建立一個更好的演算法的第一步。除了[32,37]的SDP方法外,其他作者提出了凸鬆弛以避免收斂到局部最小值。這些貢獻包括Liu等人的工作[159]和Rosen等人[211]。另一個改善收斂的成功策略包括計算用於迭代非線性優化的合適的初始化。在這方面,首先解決旋轉問題並使用所得來自非線性迭代的估計的想法已被證明在實踐中非常有效[21,31,33,38]。Khosoussi等人[130]利用平移和旋轉之間的(近似)可分性來加速優化。
最近在SLAM中使用拉格朗日對偶的理論結果也使得驗證技術的設計成為可能:給定一個SLAM估計問題,這些技術能夠判斷這樣的估計是否是最優的。能夠確定給定SLAM解決方案的質量對於為安全關鍵型應用設計故障檢測和恢復策略是至關重要的。有關SLAM驗證技術的文獻很新:目前的方法[32,37]能夠通過求解一個稀疏線性系統來進行驗證,並且只要強二元性保持不變(稍後更多),就可以保證提供正確的答案。
我們注意到,這些在機器人環境中提出的方法,也為其他社區的相關工作提供了有益的補充,包括多系統中的定位[47,199,202,45,254],計算機視覺中的從運動中恢復結構[87,96,104,168],以及和低溫電子顯微鏡[224,225]。
B. 公開問題
雖然這幾年有了空前的進展,但仍有幾個理論問題尚未解決。
1)一般性,保證和確認:第一個問題涉及可用結果的一般性。有關保證全局解和驗證技術的大多數結果已經在位姿圖優化的情況下提出了。那麼這些結果是否可以推廣到任意的因子圖當中呢?另外,大多數理論結果假定測量雜訊是各向同性的或者至少是結構化的。那我們能將現有的結果推廣到任意的雜訊模型嗎?
強對偶還是弱對偶?[32,37]表明,強大的對偶性保證SLAM可以在全局範圍內解決;此外,他們提供了經驗證據表明強對偶性在實際應用中遇到的大多數問題在實例中都具有。懸而未決的問題在於建立強有力的對偶性成立的先驗。我們想回答這個問題:「給定一組感測器(以及相應的測量雜訊統計)和一個因子圖結構,強對偶是否成立?」回答這個問題的能力將定義我們可以計算(或驗證)SLAM全局解決方案的應用領域。這一理論研究也將其感測器設計和主動SLAM提供基本的見解(見VIII節)。
2)對異常值的抗性:第三個問題是關於存在假測量時的估計。儘管最近的結果為位姿圖優化提供了強有力的保證,但這種類型的結果不適用於存在異常值的情況。儘管有關魯棒SLAM(見III節)和用於非高斯雜訊情況的新建模工具[212]做了很多工作,但可以抵抗異常值的全局技術的設計和可以保證在出現異常值時給定估計的正確性的驗證技術仍有待於解決。
Ⅷ. 主動SLAM
到目前為止,我們都把SLAM描述成由機器人執行的一種估計問題,例如,機器人利用感測器數據執行SLAM,但並不是主動去採集數據。在本節,我們討論如何利用機器人的運動來改進建圖和定位的結果。我們將為了最小化地圖表示和定位的不確定性而採用的機器人運動控制問題稱之為「主動SLAM」。這個定義源於眾所周知的Bajcsy的主動感知[9]和Thrun的機器人探索[240,ch.17]範式。
A. 簡短的調查
第一個提出來的主動SLAM演算法要追溯到Feder[78],其演算法名稱則來自於[152]。然而,主動SLAM的根源在於人工智慧和機器人探索的想法,這可以追溯到更早期的80年代[11]。Thrun在[239]中得出結論認為,解決勘探環境開發困境,即在探訪新地點(勘探)和重新探知已知地區(開採)來減少不確定性之間尋求平衡,就隨機勘探或純粹方法而言,提供了更有效的選擇。
主動SLAM是一個決策問題,有幾個通用的決策框架可以作為勘探開發決策的核心。其中一個框架是最優實驗設計理論(TOED)[198],將其應用於主動SLAM [42,44],可以讓機器人根據預測地圖的不確定性選擇未來的行動。信息理論[164,208]方法也被應用於主動SLAM [41,232];在這種情況下,決策通常以信息獲取的概念做為指導。主動SLAM的控制理論方法包括使用模型預測控制[152,153]。其他的一些工作則是利用了部分可觀察的馬爾可夫決策過程[123],通常被認為是難以計算的;用於主動SLAM的近似但容易處理的解決方案包括貝葉斯優化[169]或有效的高斯信念傳播[195]等等。
主動SLAM的一個流行框架是在一組有選擇的方案中選擇最佳未來行動。這種主動SLAM演算法包括三個主要的步驟[16],如下:
1)機器人在其當前的地圖估計中識別可能探索或利用的位置,即有利位置。
2)機器人計算訪問每個有利位置的效用,並選擇具有最高效用的動作。
3)機器人執行選定的動作並決定是否需要繼續或終止任務。
接下來,我們詳細討論每一個要點。
1)選擇有利點:理想情況下,執行主動SLAM演算法的機器人應該評估機器人和地圖空間中的每個可能的動作,但是評估的計算複雜度隨著搜索空間呈指數增長,這在實際應用中被證明是很難以計算的[25,169]。在實際中,使用諸如基於前沿探索的技術來選擇地圖中的一小部分位置[127,262]。最近的工作[250]和[116]提出了可用於主動SLAM在不確定性下的連續空間規劃方法;這些方法只能保證收斂到局部最優策略。主動SLAM演算法的另一個最近的連續域通道是使用潛在的場。一些例子是[249],使用卷積技術來計算熵和選擇機器人的動作,以及[122],採用邊界值問題的方法。
2)計算動作的效用:理想情況下,為了計算給定的動作的效用,機器人應該考慮機器人後面的位姿和地圖的演變,並考慮將來的(可控制的)動作和未來的(未知的)測量。如果這些後驗已知,作為信息增益的信息理論函數可以用來對不同的行為進行排序[23,233]。然而,一般來說,通過分析來計算這種聯合概率在計算上是很處理的[36,77,233]。實際中,都是採用近似估計。最初的工作考慮了地圖和機器人的獨立性[246]或條件獨立[233]的不確定性。大部分這些方法都是將效用定義為一個度量的線組合,量化機器人和地圖的不確定性[23,36]。這種方法有一個缺點,就是這兩個不確定性的數值範圍是不可比較的,即地圖不確定性往往比機器人的大一個數量級,所以需要手動調整才能糾正它。針對這個問題,已經提出了一些方法並用在基於粒子濾波器的SLAM [36]和位姿圖優化[41]。
TOED [198]也可以用來說明執行動作的效用。在TOED中,每一個動作都被視為一種隨機設計,並且通過所謂的最優性標準,例如A-opt,D-opt和E-opt,使用它們相關聯的協方差矩陣來完成設計之間的比較。關於主動SLAM中最優性標準的使用的研究可以在[44]和[43]中找到。
3)執行操作或終止探索:儘管執行動作通常是一個很簡單的任務,運用運動規劃中的成熟技術即可做到,但是關於勘探任務是否完整的決定,目前是我們在下一段討論的一個公開挑戰。
B. 公開問題
主動SLAM在實際應用中產生的影響仍然需要解決一些問題。
1)快速準確地預測未來的狀態:在主動SLAM中,機器人的每一個動作都應該有助於減少建圖的不確定性,並提高定位的準確性;出於這個目的,機器人必須能夠在地圖和機器人定位上預測將來動作的影響。預測必須快速,以滿足延遲約束,並精確有效地支持決策過程。在SLAM社區中,眾所周知,迴環封閉是一個很好的方法,可以降低不確定性,提高建圖和定位的精確度。儘管如此,預測迴環封閉的發生和影響的有效方法仍尚未設計出來。另外,預測未來動作的影響仍是一個耗費計算資源的任務[116]。最近的機器人狀態預測方法可以在機器學習文獻中找到,涉及頻譜技術[230]和深度學習[252]的使用。
夠了夠了:你什麼時候停止做主動SLAM?主動SLAM是一個很耗費計算資源的任務:因此:一個很自然的問題就是我們什麼時候需要停止主動SLAM,並且切換回經典(被動的)SLAM,從而將資源余留給其他任務。平衡主動SLAM決策和外部任務是至關重要的,因為在大多數實際任務中,主動SLAM只是實現預期目標的手段。此外,有一個停止標準是必要的,因為在某些時候,可以證明,更多的信息不僅會導致收益遞減效應的減弱,而且在信息矛盾的情況下會導致不可恢復的狀態(例如,幾次錯誤的迴環封閉)。TOED的任務導向的不確定性度量標準似乎很有希望成為停止標準,而信息理論度量標準很難在系統間進行比較[40]。
2)性能保證:另一個重要的途徑是求解主動SLAM的數學證明和近乎最優的策略。由於解決這個問題確實是棘手的,所以希望有具有明確性能的近似演算法。這方面的努力的例子是在配置有源感測器的相關領域中使用子模數[94]。
Ⅸ. 新前沿:感測器和學習
新的感測器的開發和新的計算工具的使用往往是SLAM的關鍵驅動因素。Ⅸ節-A回顧非傳統和新型感測器,以及它們在SLAM環境中所帶來的挑戰和機遇。Ⅸ節-D討論(深度)學習作為SLAM重要前沿的角色,分析該工具將改進、影響甚至重塑SLAM問題的可能方式。
A. 用於SLAM的新型和非傳統感測器
除了新演算法的開發之外,SLAM(以及一般的移動機器人)的進展也經常由新型感測器的可用性所促進。例如,二維激光測距儀的引入使得SLAM系統的創建成為可能,而3D激光雷達已成為近期應用(如自動駕駛汽車)的主要推動力。在過去的十年里,大量的研究致力於視覺感測器,並成功應用於增強現實和基於視覺的導航。
機器人技術中的感知主要依靠激光雷達和傳統視覺感測器。不過,也有許多其他的可用於SLAM的感測器,例如深度、光場和基於事件的攝像機,現在它們正在商業化,以及磁性,嗅覺和熱感測器。
1)簡短的調查:我們回顧了SLAM中最相關的新感測器及其應用,並在本節末尾來討論未解決的問題。
a)範圍相機:發光深度相機並不是新的感測器,但隨著微軟Kinect遊戲機的問世,它們在2010年成為了商用硬體。它們根據不同的原理進行操作,例如結構光,飛行時間,干涉測量或編碼孔徑。結構光照相機通過三角測量工作;因此,它們的精確度受相機與圖案投影儀之間的距離(結構光)的限制。相比之下,飛行時間(ToF)相機的精確度僅取決於TOF測量設備;因此,它們提供最高的量程精度(幾毫米到幾米)。ToF相機於2000年左右在民用領域開始商用,但在2004年才開始用於移動機器人[256]。雖然第一代ToF和結構光相機具有低信噪比和高價格的特點,但它們很快成為視頻遊戲應用的流行品牌,這有助於使其價格合理並提高其準確性。由於量程相機帶有自己的光源,因此它們也可以在黑暗和無紋理的場景中工作,從而可以實現出色的SLAM效果[183]。
b)光場相機:與僅記錄每個像素的光強度的標準相機相反,光場相機(也稱為全光相機)記錄光線的強度和方向[186]。一種流行的光場相機使用放置在傳統圖像感測器前面的微透鏡陣列來感測強度、顏色和方向信息。由於製造成本的原因,商用光場照相機仍具有相對較低的解析度(< 1MP),目前的技術正努力克服這個問題。光學相機與標準相機相比,具有深度估計、降噪[58]、視頻穩定[227]、分離器[59]以及去除鏡面反射[119]等多種優勢。他們的光學元件還提供寬光圈和寬與傳統相機相比[15]。
c)基於事件的攝像機:與以固定幀率發送整個圖像的基於標準幀的攝像機不同,基於事件的攝像機(如動態視覺感測器(DVS)[156]或基於非同步時間的圖像感測器(ATIS)[205 ],僅發送場景中由運動所引起的局部像素變化。
與傳統的基於幀的相機相比,它們具有五大優勢:時間延遲為1毫秒,更新速率高達1 MHz,動態範圍高達140 dB(與標準相機的60-70dB相比),功耗為20mW(相對於1.5 W的標準相機)以及非常低的帶寬和存儲要求(因為只傳輸強度變化)。這些特性使得能夠設計一類新的SLAM演算法,該演算法可以在標準相機失效的高速運動[90]和高動態範圍[132,207]的場景中運行。但是,由於輸出由一系列非同步事件組成,所以傳統的基於幀的計算機視覺演算法不適用。這需要從過去50年開發的傳統計算機視覺方法的範式做出轉變。最近已經提出基於事件的實時定位和建圖演算法[132,207]。這種演算法的設計目標是每個輸入事件都可以非同步改變系統的估計狀態,從而保留感測器基於事件的特性並允許設計微秒級的延遲控制演算法[178]。
2)公開問題:有源相機的主要瓶頸是其最大範圍和其他的干擾光源(如日光);但是,這些弱點可以通過發射更多的光功率來改善。
SLAM中很少使用光場相機,因為它們通常被認為會增加過多的數據量並且需要更多的計算能力。然而,最近的研究表明,它們特別適用於SLAM應用程序,因為他們允許將運動估計問題表達為線性優化,並且只要設計得合適,就可以提供更精確的運動估計[66]。
基於事件的相機是具有革命性意義的圖像感測器,能夠克服標準相機在高動態範圍和高速運動場景下的局限性。公開問題涉及感測器雜訊和感測器非理想性的完整表徵:基於事件的相機具有複雜的模擬電路,具有可改變像素靈敏度的非線性和偏差以及使事件易受雜訊影響的其他動態特性。由於單個事件沒有足夠的信息用於狀態估計,而且由於事件相機每秒平均產生100000個事件,致使狀態空間的尺寸迅速增大,因此在單個事件的離散時間執行SLAM可能會變得棘手。使用連續時間框架[13],使用基函數(例如三次樣條函數),估計的軌跡可以通過剛體運動空間中的平滑曲線近似,並根據觀察事件進行優化[177]。儘管時間解析度非常高,但基於事件的相機的空間解析度相對較低(QVGA),目前的技術正在努力克服這個問題[155]。新開發的事件感測器克服了一些之前的局限:ATIS感測器發送像素級亮度的大小;DAVIS感測器[155]可以輸出幀和事件(這是通過將標準的基於幀的感測器和DVS嵌入到相同的像素陣列中實現的)。這可以允許在幀之間的盲時間跟蹤特徵和運動[144]。
我們在本節中總結了關於使用SLAM新的感應模式的一些一般性觀察結論。
a) 其他感測器:大多數SLAM研究一直致力於研究範圍和視覺的感測器。但人類或動物能夠通過使用觸覺,嗅覺,聲音,磁性和熱刺激來提高他們的感知能力。例如,觸覺暗示被盲人或嚙齒動物用於物體的觸覺探測,蜜蜂用嗅覺來尋找回家的路,家鴿用磁場來導航,蝙蝠用聲波來探測障礙物和導航,而一些蛇可以看到熱物體發出的紅外輻射。不幸的是,這些替代感測器與執行SLAM的距離和視覺感測器沒有被認為具有相同的深度。觸覺SLAM可用於物體或場景的觸覺探測[237,263]。嗅覺感測器可用於定位氣體或其他氣味來源[167]。雖然基於超聲波的定位在早期的移動機器人中佔主導地位,但隨著便宜的光學距離感測器的出現,其使用迅速下降。儘管如此,動物(如蝙蝠)可以只用回聲定位就做到非常快速的導航。熱感測器在夜間和惡劣天氣條件下提供重要線索[165]。環境磁場的局部異常現在存在於許多室內環境中,為定位提供了極好的線索[248]。最後,預先存在的無線網路,如WiFi,可用於改進機器人導航,而無需事先了解天線位置[79]。
哪個感測器更適合SLAM?一個很自然的問題可以提出:未來什麼樣的感測器技術會推動長期SLAM研究?顯然,對於SLAM所給定的演算法-感測器,其性能取決於感測器和演算法參數以及環境[228]。目前尚未確定如何選擇演算法和感測器以實現最佳性能的完整處理。Censi等人的初步研究[46]表明,對於給定任務,其性能還取決於可用於感知的功率。這也表明了最佳感測架構可能有多個感測器,可以根據所需的性能等級瞬時打開和關閉,或者通過不同的物理原理測量相同的現象以提高魯棒性[69]。
B. 深度學習
這篇論文旨在考慮SLAM未來的方向,而不是介紹深度學習。它對計算機視覺的影響是革命性的,在寫這篇文章的時候,它已經對包括SLAM在內的傳統機器人技術有了重大的推進。
研究人員已經表明,用深度學習網路學習回歸問題是有可能的,直接從移動機器人的兩個相鄰的圖像之間獲取相應的姿態,從而有效地取代了可視化測量的標準幾何形狀。同樣,用回歸森林[247]和卷積神經網路有可能會對相機的6個自由度進行定位,並且從一個單一的視圖,用僅作為輸入圖像的函數[28,71,158]來估計場景深度(實際上就是地圖)。
我們認為,這並不意味著傳統SLAM方法就落後了,現在說這些方法僅僅是出於好奇心,想看看它們能在理論層次上做些什麼,但並不會取代傳統的、理解力強的方法,或者它們將完全接管。
1)公開問題:我們在這裡重點介紹SLAM的一些未來方向,我們認為機器學習和更深入的特定學習將會產生影響,或者SLAM應用將面臨深度學習的挑戰。
a)感知工具:很明顯,一些已經超出現有的計算機視覺演算法範圍的感知問題現在可以得到解決。例如,對於imagenet類[213]的對象識別,可以將其視為一個黑盒子,從機器人學者或SLAM研究者的角度來看,它可以很好地工作。同樣,各種場景類型的像素的語義標註達到大約80%或更高的性能水平[75]。我們已經廣泛地評論了SLAM系統更具語義意義的地圖的趨勢,而這些黑盒子工具將會有所幫助。但更重要的是:深度網路顯示出更多的承諾,可以將原始感測器數據連接到理解層面,或將原始感測器數據連接到動作,而不是之前的任何事情。
b)實際部署:深度學習的成功離不開長時間的超級計算機的訓練和專用GPU硬體推斷一次性結果。SLAM研究員(或者說,的確任何人都想在他們的系統中嵌入令人印象深刻的結果)的一個挑戰就是,如何在嵌入式系統中提供足夠的計算能力。我們是應該就等著科技趕上來,還是研究一個更小、更便宜的網路來得到「足夠好」的結果,並考慮長時間的感測的影響?
c)在線和長期學習:一個更重要的挑戰就是在線學習和調整,這對於任何未來的長期SLAM系統來說都是至關重要的。SLAM系統通常在開放的世界中持續觀察,會遇到新的物體和場景。但是對於數據,深度網路通常在封閉的世界場景中(也就是說,固定類別的數量)訓練。一個重大挑戰就是在one-shot或zero-shot情況下利用深度網路的力量(即只有一個新的類別的訓練樣本,甚至沒有)去支持一個持續移動、持續觀察的SLAM系統進行長期的學習。類似地,現有的網路傾向於接受大量具有標籤的數據來進行訓練,但是並不總能保證存在合適的數據集或者用於監督訓練的實用的標籤。最近取得了一些進展的一個領域是單視點深度估計:Garg等人[91]最近展示了如何通過觀察大量的立體圖像對來簡單地訓練用於單視點深度估計的深度網路,而不需要明確地觀察或計算深度。是否能夠為諸如語義場景標記之類的任務開發類似的方法,還有待觀察。
d)引導:有關場景的先驗信息越來越多地被證明能夠顯著提升SLAM系統的性能。迄今為止文獻中的例子包括已知對象[57,217]。先驗知識包括場景中的預期結構,如DTAM [184]中的平滑度,[80]中的曼哈頓約束,或者甚至預期的對象[10]。很顯然,深度學習能夠提取特定任務的先驗知識,如估計場景標籤或場景深度。如何最好地提取和使用這些信息是一個重要的公開問題。它在SLAM中比其他一些領域更為貼切,因為在SLAM中,我們對場景幾何的數學有著堅實的把握——那麼問題就是如何將這個良好理解的幾何與深度網路的輸出融合在一起。必須解決的一個特殊挑戰是描述來自深度網路的估計的不確定性。
SLAM為探索深度學習架構與大規模圖形模型中的遞歸狀態估計之間的潛在聯繫提供了一個具有挑戰性的環境。例如,Krishan等人[142]最近提出了深度卡爾曼濾波器;也許有朝一日有可能創建一個使用深層架構的端到端SLAM系統,而不需要顯式的特徵建模,數據關聯等。
Ⅹ. 總結
在過去的30年里,同時定位與建圖問題已經取得了非常大的進展。隨著新方法、新感測器和新計算工具的發展,一些重要問題已經得到解答,同時提出了許多新的和有趣的問題。重溫這個問題「SLAM是必要的?」我們相信答案取決於實際應用程序,但通常答案是肯定的。SLAM與其相關技術(如視覺-慣性測距)正在越來越多地應用於自駕車、移動設備等各種現實環境中。SLAM技術會越來越被依賴於為一些特定情況下仍能提供可靠的指標定位,如基於基礎設施的解決方案(如GPS)不可用或不能提供足夠的準確性的情況下。可以設想,基於雲的位置——即服務功能上線,建圖將會變得商品化,以便為移動設備和代理商提供定位信息的價值。
在一些應用中,如自動駕駛汽車,精確定位通常通過將當前感測器數據與預先創建的環境的高定義圖匹配來執行[154]。如果先驗地圖是精確的,則並不需要在線SLAM。然而,在高度動態環境下的運行,需要動態在線地圖更新來處理道路的基礎設施的建設或主要變化。由大型自主車輛創建的視覺地圖的分散式更新和維護是未來工作中一個引人注目的領域。
人們可以針對不同的任務來確定合適的SLAM方案。例如,可以使用拓撲圖來分析給定地點的到達能力,但它不適合運動規劃和低級控制;一個局部一致的度量地圖非常適用於避障和局部與環境的交互,但它可能會犧牲準確性;全局一致的度量映射允許機器人執行全局路徑規劃,但計算和維護可能在計算上要求很高。
甚至可以設計一些例子,其中SLAM是完全不必要的,可以用其他技術來替代,例如用於局部控制和穩定的視覺伺服,或者「教導和重複」以執行重複的導航任務。選擇最合適的SLAM系統的更一般的方法是將SLAM看作是計算足夠統計量的機制,該統計量總結了機器人的所有過去觀察結果,從這個意義上說,要保留在這個壓縮表示中的哪些信息,得具體問題具體分析的。
對於這個本文中熟悉的問題「SLAM解決了嗎?」,我們認為,當我們進入魯棒感知時代時,如果沒有指定機器人/環境/性能組合,這個問題就不能回答。對於許多應用和環境來說,許多重大挑戰和重要問題仍然存在。為了使長期自主機器人實現真正的魯棒感知和導航,需要對SLAM進行更多的研究。作為一項具有重要現實意義的學術活動,SLAM並未得到解決。
未解決的問題涉及四個主要方面:強大的性能、高層次的理解、資源意識和任務驅動推理。從穩健性的角度來看,故障安全自調整的SLAM系統的設計是一個艱巨的挑戰,許多方面都很難被探索。對於長期自主性,構建和維護大規模時變地圖的技術以及定義何時記住、更新或忘記信息的策略仍需要大量的基礎研究;在嚴重資源受限的機器人系統中也有類似的問題,但規模不同。
另一個基本問題是關於環境的度量和語義表示的設計。儘管與環境的相互作用對機器人的大多數應用來說是至關重要的,但現代SLAM系統不能提供對周圍世界的幾何和語義的高度緊密耦合的理解;這種表示的設計必須是由任務驅動的,並且目前還缺乏一種將任務與最優表示相聯繫的易處理的框架。開發這樣一個框架將把機器人和計算機視覺社區聯繫在一起。
除了討論SLAM社區的許多成就和未來挑戰之外,我們還研究了與使用新型感測器、新工具(例如,凸鬆弛和對偶理論或深度學習)相關的可能性,以及主動感測的作用。SLAM仍然是大多數機器人應用中不可或缺的支柱,儘管在過去幾十年中取得了令人矚目的進步,但現有的SLAM系統遠未能提供具有洞察力、可操作性和緊湊型環境的模型,能夠與人類輕鬆創建和使用的模型相媲美。
致謝
作者要感謝Google Plus社區的所有貢獻者和成員[26],尤其是L. Paul、A. Handa、S.Grif fi th、H.Tome、A.Censi和R. M.Artal,他們為討論SLAM中的公開問題投入了很多精力。他們也感謝RSS研討會的所有發言人[26],J.D.Tardos、S.Huang、R.Eustice、P.Pfaff、J.Meltzer、J.Hesch、E.Nerurkar、R.Newcombe、Z.Zia 、和A.蓋格; G.(Paul)Huang和U.Frese在編寫本文件期間進行討論;並感謝G. Gallego和J. Delmerico對本文件的早期評論。最後,他們非常感謝T-RO編輯團隊,包括主編F. Park、副主編,以及所有評審人員的快速,有價值和建設性的反饋,這大大提高了質量 這份手稿。
推薦閱讀:
TAG:機器學習 | 科技 | 同時定位和地圖構建SLAM |