最前沿:從虛擬到現實,DRL讓小狗機器人跑起來了!

最前沿:從虛擬到現實,DRL讓小狗機器人跑起來了!

來自專欄 智能單元

1 前言

深度增強學習DRL在模擬機器人已經取得了很大的成功,同時,也在真實的機器人抓取(Robotic Manipulation)問題上有了很大的進展。然而依然會有很多搞機器人的朋友會質疑深度增強學習(Deep Reinforcement Learning)在真實機器人上面的可行性,比如說能在大狗機器人上面通過DRL來實現嗎?老實說我也覺得困難重重,最主要的問題就是所謂的reality gap:真實機器人和模擬機器人存在很多的差別,在模擬中能夠work,大概率不能在真實環境中work。

然而,Google最新的一篇paper告訴我們:不!DRL在真實機器人上面是可行的,只要我們儘可能的減小這個reality gap

https://www.youtube.com/watch?v=lUZUr7jxoqM?

www.youtube.com

Learning Agile Locomotion For Quadruped Robots?

arxiv.org

看了上面的視頻,不知道大家會不會被驚訝到?以前需要巨量人工來調整的控制演算法,現在用一個兩層的神經網路實現了!可能沒有搞過機器人控制的朋友不太理解,就單單在四軸飛行器上調一個PID控制器都要調到崩潰!所以當真正在真實的四足機器人上用神經網路實現運動控制的時候,感覺真的有點難以置信!

如果我們要簡單的說一下未來就是 機器人全神經網路化,全部不需要複雜人工編程,全部通過自己學習的方式來掌握運動是完全可能的!並且,可以比傳統機器人控制演算法做得更好!

下面我們來稍微說一下這篇paper的一些思想方法。

2 構建一個足夠接近真實的模擬環境就好!

四足機器人不同於機械臂,能夠直接在真實環境中進行DRL訓練,四足機器人訓練成本顯然要高太多,因為它到底要摔多少次才能走起來?就算土豪如Google也沒那個錢來燒!所以,直接在真實環境中用DRL訓練四足機器人是基本不可能的,那麼我們能做的顯然就只有在模擬環境中訓練,然後遷移到真實機器人上了。那麼,這裡的核心就是Reality Gap的問題,如何減少Reality Gap,讓模擬環境足夠真實?

這篇文章處理了以下幾個部分:

1)構建一個更接近真實的模擬四足機器人模型。這個很好理解,比如讓模擬機器人的尺寸,重心等等都和真實機器人基本一致。

2)構建一個更好的驅動器模型(Actuator Model)。這裡的實驗採用的是位置控制,也就是頂層的神經網路只輸出目標位置,下層的執行還是實驗傳統PD控制器。所以呢,那就在模擬環境中調一個和真實差不多的電機控制器唄。

3)模擬好延遲Latency。這一點對於機器人控制很重要,真實機器人在控制時由於硬體數據傳輸,延遲是不一樣的,所以要在模擬中模擬好延遲。

對於模擬環境也就是上面三部分的處理。那麼,接下來就是怎麼訓練的問題了。

3 加點訓練技巧tricks讓神經網路的泛化能力加強

訓練也是需要精細化調整的。這個工作直接使用PPO來訓練,兩層的神經網路,位置控制,為了使得訓練效果更好,又做了下面三個處理技巧:

1)隨機化動態參數(Dynamic Parameters),也就是模擬機器人中的各種參數數據,比如重量,摩擦力,IMU的誤差等等。

2)加上隨機外部擾動(Random Perturbations), 上一條是機器人內部參數,這一條則是在外部施加一個額外的擾動力,比如模擬一下風什麼的。

3)使用一個合適的觀察空間(Observation Space),這一條則是針對具體的訓練,一個合適的觀察空間對於訓練效果影響很大,特別如果維度太高的話就很難訓練。所以這個工作僅僅使用了四足機器人基座的俯仰角,傾斜角,基座的角速度及8個電機的角度。而這就足夠來訓練。

上面的處理技巧很好理解,特別是前兩個,就是通過隨機化讓神經網路的generalization泛化能力變強,這樣的話即使遷移到真實環境,也能有較好的適應!

4 一點小結

這個工作是一個極其工程化的工作,上面我們分析的這篇文章的主要方法其實都非常好理解,甚至談不上所謂的創新。但是對於這種工作,能夠work才是關鍵。Work就是一切!Google的這個工作可以進一步的提升大家對於深度學習應用到機器人上面的信心!相信接下來Robot Learning這個領域必然會有更大的發展!


推薦閱讀:

智能音箱是不是下一代互聯網家庭入口?
強化學習筆記2—Bandit演算法
MIP斬獲金滑鼠大獎 品友互動賦能智能商業決策
人工智慧將改變你的衣食住行甚至工作!這些你能接受嗎!
這次人工智慧革命,你不用擔心是否會成功

TAG:機器人 | 人工智慧 | 深度學習DeepLearning |