OpenAI推出開源機器人模擬軟體,這裡有介紹和代碼

李林 編譯自 OpenAI

量子位 報道 | 公眾號 QbitAI

今天,馬斯克和YC總裁Altman等矽谷名流共同創辦的人工智慧非營利組織OpenAI發布了一個開源的機器人模擬器Roboschool。

這個模擬器大致長這樣:

_騰訊視頻 https://v.qq.com/x/page/j05038mfwlg.html

Roboschool是增強學習研究平台OpenAI Gym上的機器人模擬器,提供了一組新環境,讓用戶可以在模擬器中控制機器人,想在一個環境中訓練同時訓練多個agent也很容易。

在OpenAI Gym剛剛發布的時候,不少用戶抱怨機器人模擬器MuJoCo需要付費證書。現在,Roboschool打破了這個限制,每個人都可以免費使用。

與Gazebo、V-REP等其他模擬器一樣,Roboschool也基於開源的物理庫Bullet Physics Engine。

環境

Roboschool包含12個環境,有的和MuJoCo差不多,也有全新的,比如說高難度版的人形機器人行走任務、多玩家乒乓球環境等。環境的數量還會繼續增加,OpenAI表示也希望社區參與進來,貢獻更多環境。

MuJoCo環境現有的任務轉移到Roboschool中之後,畫風更寫實。原文中有不少動圖無力搬到知乎,可以移步Roboschool查看。┐(?~?)┌

健壯的互動式控制

原來的OpenAI Gym中,好幾個環境的目標都是學習一個行走控制器。但是,這些環境給出的目標過於基本,僅僅是「向前移動」,於是在實踐中,行走策略將學會沿一條曲線軌道移動,狀態空間的大部分都不會被觸及。另外,最終的策略也會非常脆弱:輕輕推一下,機器人就可能崩潰摔倒。

Roboschool為3D人形機器人新增了兩個帶有互動式控制的環境,運動問題變得更富有挑戰性。

一個是HumanoidFlagrun(人形機器人+旗標+跑),機器人在其中的任務是跑向旗標,而旗標的位置是隨機變動的。

另一個叫HumanoidFlagrunHarder(人形機器人+旗標+跑+更難)比上一個增加了讓機器人摔倒再爬起來的任務,在每一次訓練的開始,機器人可能是站著的,也可能是躺在地上的。另外,在訓練過程中,一直有白色方塊攻擊機器人,想讓它脫離軌道,就像下面視頻中這樣:

_騰訊視頻 https://v.qq.com/x/page/h05031e7khl.html

雖然這個機器人行走的速度不快,看起來也不自然,但是在任何情況下都能恢復行走,也知道如何尋找方向。

多角色

Roboschool中的RoboschoolPong,允許用戶在同一環境中同時訓練或運行多個agent,以後還會有更多環境。

多角色訓練是指,你可以訓練同一個agent自攻自守,也可以用同一個演算法訓練兩個不同的agent,甚至可以訓練兩種不同的演算法,讓他們相互競爭。

_騰訊視頻 https://v.qq.com/x/page/i0503smbqro.html

相關鏈接

Roboschool的GitHub地址:

openai/roboschool

OpenAI Gym:

OpenAI Gym: A toolkit for developing and comparing reinforcement learning algorithms

MuJoCo:

mujoco.org/

有人把OpenAI Gym中的MuJoCo換成了開源物理模擬器DART:

DartEnv/dart-env

【完】

One More Thing…

今天AI界還有哪些事值得關注?在量子位(QbitAI)公眾號對話界面回復「今天」,看我們全網搜羅的AI行業和研究動態。筆芯~


推薦閱讀:

未來機器人入門——3:電子
For The Future!
拆解iphone 7振子--Taptic Engine
預告:賈子楓 與 Top Liu 的Live - - 如何玩轉 ROS 機器人程序設計
美國Sarcos發布外骨骼機器人巔峰之作!如此無敵…繼續膜拜吧

TAG:强化学习ReinforcementLearning | 机器人 | 人工智能 |