OpenAI 重磅文章出爐，8 種虛擬機器人模擬環境成為亮點

03-05

OpenAI 近期介紹了該實驗室在 2017 年打造的 8 種模擬機器人環境和一種新的強化學習技術，這些技術被用來訓練最終用於真實機器人的人工智慧模型。同時，該實驗室還提出了機器人研究領域的一系列待解答新問題。

8 種模擬機器人環境採用 MuJoCo 物理模擬平台構建。這 8 種模擬環境是：

拿取

圖丨拿取-到達 v0：把手臂移動到 1 個給定位置實現拿取。

圖丨拿取-碰觸 v0：手臂碰觸一個放在桌面上的小球，讓小球滾過桌面，達到指定位置。

圖丨拿取-持續推送 v0：手臂持續推動一個盒子，直到將其推到指定位置。

圖丨拿取-懸空移動和放置 v0：拿起 1 個盒子，讓其離開桌面，移動到指定位置之上，然後放下。

虛擬手掌

圖丨虛擬手掌 v0：虛擬手掌需要操控拇指和其他 1 根選定手指，讓其碰觸手掌上的指定區域。

圖丨虛擬手掌-方塊掌控 v0：虛擬手掌玩弄手上的方塊，直到方塊的指向和位置符合要求。

圖丨虛擬手掌-蛋掌控 v0：虛擬手掌玩弄一個蛋，直到蛋的指向和位置符合要求。

圖丨虛擬手掌-桿掌控 v0：虛擬手掌玩弄 1 根桿，直到桿的指向和位置符合要求。

目標

以上 8 種模擬環境的共性是，都為虛擬機械手設定了目標，比如把物體推到指定方位，或者轉到指定方位。若目標沒完成，則虛擬機器手得-1 分；若完成，得 0 分——這種計分方法跟 Walker2d-v2 等傳統平台採用的計分方式有顯著不同。

此外，研究團隊還為不同的模擬環境打造了各自的回報系統。不過，研究人員認為，「稀疏回報」系統最接近真實的機器人運行環境，因此建議用戶優先採納這一獎勵系統。

強化學習演算法

研究團隊推出的 Hindsight Experience Replay（HER）強化學習演算法可以從失敗中學習。實驗證明，對於大多數機器人領域的研究問題，HER 可以只通過稀疏回報獎勵系統生成可用模型。

HER 原理介紹

研究團隊用拿取-碰觸 v0 模擬環境，解釋了 HER 的工作原理。該模擬環境的目標是：用機械手碰觸一個桌面上的小球，讓小球滾過桌面，擊中目標。首次嘗試不太可能成功，接下來的幾次也不太可能，因此得分始終為-1。傳統的強化學習演算法無法在這種一直沒有達成目標的環境中實現學習。

HER 的創新之處在於：即使這幾次都沒有達成預定目標，機械手至少達成了另一個目標。因此，不妨把這個「非預定目標」作為起始。這樣，強化學習演算法就可以因為達成了某些目標而實現學習——儘管這個目標不是最終的目標。只要重複這個漸進過程，機械手最後總會實現預定目標。

總之，HER 系統可以在一次也沒有達成原定目標的情況下啟動強化學習。該系統的秘訣是「打哪指哪」，即中間目標是機械手碰球之後才選定的。「打哪指哪」方法是機器學習中的常用方法之一，HER 可以跟任何基於新策略的強化學習演算法（off-policy RL algorithm），如 DQN 和 DDPG 等聯合使用。

測試結果

測試表明，HER 在「稀疏回報」獎勵條件下的目標達成模擬環境中表現優異，具體如下圖所示：

圖丨成功率中值（線條）和四分位範圍（陰影區域）都是在虛擬手掌-方框掌控 v0 環境中測試獲得的。

稀疏回報條件下的 DDPG + HER 演算法表現最好，不過有趣的是，DDPG + HER 演算法在密集回報條件下的表現反而更差。原始 DDPG 演算法不管在什麼獎勵條件下，表現都不如人意。此外，各演算法的表現差異在大多數實驗環境中保持穩定。

後續研究方向

HER 演算法為稀疏回報條件下的複雜目標導向任務提供了一種新的解決手段，但其仍有很大改進空間，具體地，研究團隊提出了如下的後繼研究問題：

1，「打哪指哪」演算法的自動化目標設定。目前的「打哪指哪」演算法，只能由人工設定中間目標。

2，無偏 HER。目前的中間目標選擇並沒有一個嚴格的規則，這在理論上會導致學習結果的不穩定性，儘管實驗中尚未發現這種情況。但是，研究團隊認為，基於重要性採樣等技術，可以通過嚴格的規則實現無偏 HER。

3，HER 與層級強化學習（hierarchical reinforcement learning, HRL.）的結合。這樣可以將 HER 從單一目標推廣到層級體系中。

4，更多類型的價值函數。是否可以將更多類型的價值函數，如貶值因子（discount factor）或成功閾值（success threshold）納入「打哪指哪」演算法中？

5，更快的信息傳輸。大多數新策略深度強化學習演算法使用目標網路保證訓練的穩定性。然而，由於變化在模型中的傳導需要時間，因此對穩定性的要求已經成為限制 DDPG+HER 學習速度的最大因素。或許可以通過採用其他穩定策略的方法來提高速度。

6，HER+多步回報。基於「打哪指哪」和中間目標的 HER 是典型的新策略強化學習演算法，因此難以採用多步回報函數（multi-step returns）。然而，多步回報函數的信息反饋速度更快，因此值得研究如何將其納入 HER 演算法。

7，既定策略（On-policy）HER。目前，由於引入中間目標，HER 只能使用新策略演算法。人但是，PPO 等基於既定策略的演算法展示了很高的穩定性，因此有必要研究 HER 如何通過重要性採樣等方法與之聯合。該研究目前已經取得了初步成果。

8，連續活動的強化學習。目前，在連續控制的場合，強化學習演算法的表現非常差，一方面由於不連續的外推，另一方面在於回報信息不能及時反饋回來。如何設計強化學習演算法以適應連續控制場合仍然是一個問題。

9，將 HER 與其他最新強化學習演算法結合。一些可能的選項是優先順序經驗回顧（Prioritized Experience Replay）、分散式強化學習（distributional RL）、熵規整化強化學習（entropy-regularized RL,）、逆向課程強化學習（reverse curriculum generation）。

更多信息可以參閱研究團隊發布的技術報告：

https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/ingredients-for-robotics-research/technical-report.pdf

使用新模擬環境的指南

使用新的基於目標的模擬環境，需要對現有模擬環境做出如下改動：

所有基於目標的模擬環境都採用 gym.spaces.Dict 觀察空間。模擬環境應當包括最終目標（esired_goal）、目前達到的目標（achieved_goal）和機器人的狀態（observation）。

模擬系統允許根據目標的改變重新計算回報函數的值，以令基於 HER 的演算法可以運行。

研究人員給出了簡單的例子，來演示基於目標的模擬環境，以及「打哪指哪」演算法對中間目標的選擇過程。

基於目標的新模擬環境可以與現有的強化學習演算法，如 Baselines.Use 等兼容，但需要首先使用 gym.wrappers.FlattenDictWrapper 將觀測空間轉換為所需格式的矩陣。