OpenAI發布強化學習環境Gym Retro:支持千種遊戲

OpenAI發布強化學習環境Gym Retro:支持千種遊戲

來自專欄機器之心

選自OpenAI Blog,作者:Vicki Pfau等,機器之心編譯。

Gym 是 OpenAI 發布的用於開發和比較強化學習演算法的工具包。使用它我們可以讓 AI 智能體做很多事情,比如行走、跑動,以及進行多種遊戲。目前,它運行在支持 Python 3.5 和 3.6 的 Linux、macOS 和 Windows 系統上。

項目鏈接:github.com/openai/retro

OpenAI 近日發布了完整版遊戲強化學習研究平台——Gym Retro。在本次發布之後,OpenAI 公開發布的遊戲數量將從大約 70 個雅達利和 30 個世嘉遊戲增加到了 1000 多個遊戲,其中包括對任天堂 Game boy 等各種模擬器的支持。此外,OpenAI 還將發布用於向 Gym 平台添加新遊戲的工具。

OpenAI 利用 Gym Retro 對強化學習演算法及學習能力的泛化進行了研究。RL 領域之前的研究主要集中在優化智能體以完成單個任務上。Gym Retro 可以幫助研究在概念相似但外觀不同的遊戲之間進行泛化的能力。

此版本包括來自世嘉 Genesis 和世嘉 Master System 的遊戲,以及任天堂的 NES、SNES 和 Game Boy 控制台,還包括對世嘉 Game Gear、任天堂 Game Boy Color、任天堂 Game Boy Advance 及 NEC TurboGrafx 的初步支持。一些已發布的遊戲集成,包括 Gym Retro data/experimental 文件夾中的那些遊戲,都處於測試狀態——如果試用中遇到任何 bug,可以聯繫 OpenAI。由於所涉及的變更規模很大,代碼暫時只能在 Branch(github.com/openai/retro)上使用。為了避免破壞參賽者的代碼,在比賽結束之前,OpenAI 將不會合併 Branch。

正在進行的 Retro Contest(幾周後結束!)及 OpenAI 最近的技術報告(arxiv.org/abs/1804.0372)集中討論了在同一遊戲(Sonic The Hedgehog?)的不同級別之間進行泛化的比較容易的問題。完整的 Gym Retro 數據集進一步完善了這一問題,並使研究不同遊戲之間更難的泛化問題成為可能。數據集的規模和單個遊戲的難度使其成為一個巨大的挑戰,OpenAI 希望在明年分享自己的研究進展。他們還希望 Retro Contest 參與者開發的一些解決方案能夠得到擴展並應用到整個 Gym Retro 數據集。

集成工具

OpenAI 還將發布用於集成新遊戲的工具。如果你有遊戲 ROM,此工具可以幫你輕鬆創建儲存狀態、尋找內存位置以及設計強化學習智能體可以實施的方案。OpenAI 已經為希望增加新遊戲支持的人編寫了一個集成器指南(github.com/openai/retro)。

集成工具還支持錄製、播放將所有按鈕輸入保存到遊戲中的視頻文件。這些文件很小,因為它們只需要存儲按鈕按下的開始狀態和順序,而不是輸出的每一幀。像這樣的視頻文件對於可視化增強學習智能體正在執行的操作以及存儲用作訓練數據的人工輸入非常有用。

Farming 獎勵

在開發 Gym Retro 時,OpenAI 的研究人員發現很多 AI 智能體學會了 farm 獎勵(只專註於遊戲得分),而忽略了完成隱藏的真正任務。如上圖所示,進行 Cheese Cat-Astrophe(左)和 Blades of Vengeance(右)遊戲的智能體都陷入了瘋狂得分的死循環。這是 OpenAI 之前討論過的一種現象(blog.openai.com/faulty-):當我們只給強化學習演算法一個簡單的獎勵函數時(如最大化遊戲得分),可能會導致智能體出現錯誤的行為。

對於密集獎勵(頻繁和增量)遊戲而言,最難的地方在於需要進行快速反應,像 PPO 這樣的強化學習演算法可以很好地應對這種挑戰。

在 Gradius 這樣的遊戲中(上圖右側),你會在每次擊中敵人之後得到獎勵點數,這意味著開始機器學習的速度會很快。在這樣的遊戲中生存下來需要你具備躲避敵人攻擊的能力:這對於強化學習演算法而言並不困難,因為它們玩遊戲是逐幀進行的。

對於只有稀疏獎勵,或需要計劃超過未來數秒策略的遊戲,目前的演算法還很難應對。Gym Retro 數據集中的許多遊戲都是稀疏獎勵或需要計劃的,因此,處理整個數據集中的內容可能需要開發者找到全新技術。

原文鏈接:blog.openai.com/gym-ret


推薦閱讀:

SGD過程中的雜訊如何幫助避免局部極小值和鞍點?
谷歌AI 與搜索部門分拆,Jeff Dean 成為 AI 新掌門
除了打電話,聊天機器人還有這些趨勢
MIP斬獲金滑鼠大獎 品友互動賦能智能商業決策
CVPR 2018 | Spotlight 論文:北京大學計算機研究所提出深度跨媒體知識遷移方法

TAG:強化學習ReinforcementLearning | 人工智慧 | OpenAI |