OpenAI推出開源機器人模擬軟體，這裡有介紹和代碼

01-25

李林編譯自 OpenAI

量子位報道 | 公眾號 QbitAI

今天，馬斯克和YC總裁Altman等矽谷名流共同創辦的人工智慧非營利組織OpenAI發布了一個開源的機器人模擬器Roboschool。

這個模擬器大致長這樣：

_騰訊視頻 https://v.qq.com/x/page/j05038mfwlg.html

Roboschool是增強學習研究平台OpenAI Gym上的機器人模擬器，提供了一組新環境，讓用戶可以在模擬器中控制機器人，想在一個環境中訓練同時訓練多個agent也很容易。

在OpenAI Gym剛剛發布的時候，不少用戶抱怨機器人模擬器MuJoCo需要付費證書。現在，Roboschool打破了這個限制，每個人都可以免費使用。

與Gazebo、V-REP等其他模擬器一樣，Roboschool也基於開源的物理庫Bullet Physics Engine。

環境

Roboschool包含12個環境，有的和MuJoCo差不多，也有全新的，比如說高難度版的人形機器人行走任務、多玩家乒乓球環境等。環境的數量還會繼續增加，OpenAI表示也希望社區參與進來，貢獻更多環境。

MuJoCo環境現有的任務轉移到Roboschool中之後，畫風更寫實。原文中有不少動圖無力搬到知乎，可以移步Roboschool查看。┐(?～?)┌

原來的OpenAI Gym中，好幾個環境的目標都是學習一個行走控制器。但是，這些環境給出的目標過於基本，僅僅是「向前移動」，於是在實踐中，行走策略將學會沿一條曲線軌道移動，狀態空間的大部分都不會被觸及。另外，最終的策略也會非常脆弱：輕輕推一下，機器人就可能崩潰摔倒。

Roboschool為3D人形機器人新增了兩個帶有互動式控制的環境，運動問題變得更富有挑戰性。

一個是HumanoidFlagrun（人形機器人+旗標+跑），機器人在其中的任務是跑向旗標，而旗標的位置是隨機變動的。

另一個叫HumanoidFlagrunHarder（人形機器人+旗標+跑+更難）比上一個增加了讓機器人摔倒再爬起來的任務，在每一次訓練的開始，機器人可能是站著的，也可能是躺在地上的。另外，在訓練過程中，一直有白色方塊攻擊機器人，想讓它脫離軌道，就像下面視頻中這樣：

_騰訊視頻 https://v.qq.com/x/page/h05031e7khl.html

雖然這個機器人行走的速度不快，看起來也不自然，但是在任何情況下都能恢復行走，也知道如何尋找方向。

Roboschool中的RoboschoolPong，允許用戶在同一環境中同時訓練或運行多個agent，以後還會有更多環境。

多角色訓練是指，你可以訓練同一個agent自攻自守，也可以用同一個演算法訓練兩個不同的agent，甚至可以訓練兩種不同的演算法，讓他們相互競爭。

_騰訊視頻 https://v.qq.com/x/page/i0503smbqro.html