誰說導航一定要用地圖?谷歌DeepMind的強化學習模型靠街景認路

Root 編譯自 DeepMind

量子位 出品 | 公眾號 QbitAI

還記得小時候從家到學校的那段路怎麼走嗎?

那會兒你可能還不知道什麼是地圖,也沒有導航軟體。但那條路的畫面都在腦子裡刻著。茂密的竹林,很多蛇出沒的小山丘,還有泥鰍抓不完的池塘。

這就是我們從小對空間世界感知的途徑,通過路的特徵畫面構建地理認知。

等到慢慢長大了,需要去更遙遠的地方,路上可參考的熟悉的地標越來少,尤其是新的城市時,才開始用起了地圖。

DeepMind團隊希望,造出一個深度強化學習模型,用符合我們直覺的空間認知方式——串聯所有街景畫面,重塑出行導航方式。

用戶只要給定起點終點的地理坐標,DeepMind就能結合谷歌地圖裡真實採集的街景數據,訓練出能根據地標畫面信息規划出行路線的街景導航模型

出於保護隱私的考慮,街景中所有的人臉和車牌都會作打碼處理。

比起現有的地圖導航,街景導航的最大優點是非常適合步行,這是因為步行對地理信息的精度要求更高。

像我們平時去一個地方,大方向上靠高德或百度地圖導航過去沒問題,但最後一公里總是會被帶到各種溝里去:不是此路不通,就是繞了一大圈。

街景導航的工作原理

傳統的地圖繪製,是讓人繪出路段的二維俯視圖,定位只能參考GPS信息。而街景的信息含量更大,更符合我們人置身環境所看到的視覺畫面。

基於這點,DeepMind構建了一個神經網路,把倫敦、巴黎、紐約這些城市的谷歌街景數據,這些依託真實環境的信息作為輸入源,然後讓模型自行預測每一個可能的前行方向。採樣顆粒度可以達到每一個小道,十字路口,隧道,以及複雜的岔路。

當街景導航模型能順利規划出前往目的地的路徑時,DeepMind會給予一定的獎勵。然後經過訓練之後,這個街景導航模型能夠逐漸熟悉整個城市的所有路段。

可遷移的模塊化的神經網路架構

DeepMind所造的這個街景導航模型包含三個部分:

  • 視覺處理網路:一個可以處理圖像和提取視覺特徵的卷積神經網路;
  • 視覺信息網路:一個專門記憶特定城市街景的循環神經網路,可以快速鎖定代表起點終點的實景環境;
  • 路線規劃網路:與特定城市無關的循環神經網路,專門負責制定出行路線。

其中,第二個視覺信息循環神經網路是可以替換的,不同的城市可以用不同的網路。而視覺處理網路和路線規劃網路可適用於所有城市。

和城市導航CityNav模型(a)相比,多城市導航MultiCityNav模型是需要有一個針對特定城市路段信息的視覺信息模塊的,如圖(b)所示。多城市導航MultiCityNav架構的訓練過程可以從(c)看出,模型是怎麼適配其他城市信息以及遷移相應的路線規劃能力。

和谷歌街景交互界面相似,街景導航模型可以旋轉輸入信息的觀察視角,或選擇跳到下一個全景鏡頭。

不同的地方在於,街景模型看不到指示方向的箭頭,它需要自己根據畫面中的路徑延伸方向判斷出前行的幾種可能。

如果說目的地是在幾公里以外的地方,那麼街景模型要自己把所有的全景鏡頭採下來的畫面信息里的可能走法跑一遍,才能得出結論。

現在DeepMind已經證明了這種多城市街景模型可學習其他新城市的可行性。

作為人類來說,我們不希望這個AI拿到新城市的數據時又要再學一遍怎麼處理街景信息,比如放大某個可能的岔路口或者在十字路口轉彎等行為。不過花時間在提取新的地表特徵上是可以接受的。

這種方法,獲得新知識的同時也還記得之前所學過的東西,和DeepMind之前連續學習網路Progressive neural network非常相似。

也許等到這個演算法上線應用的時候,我們再也不會遇到跟著地圖導航走卻根本到不了地兒的囧事了。

最後,附論文地址:

Learning to Navigate in Cities Without a Map

arxiv.org/abs/1804.0016

你可能感興趣

馬克龍宣布15億歐元投資AI,DeepMind擁吻巴黎

DeepMind黃士傑:深度學習有創造性,正參與星際2項目

「寓教於樂」,DeepMind新研究讓機器人從0開始學習複雜精細動作

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態


推薦閱讀:

不用 GPS 的精準導航
你在網站里不會迷路,要感謝這個導航設計 #003

TAG:導航 | 谷歌Google | 強化學習ReinforcementLearning |