如何評價微軟發布的基於minecraft的人工智慧測試平台malmo?

該平台是否會加速強化學習領域的發展?是否會成為以後強化學習論文中主流的benchmark?

新聞鏈接:微軟開源Malmo項目,使用Minecraft測試人工智慧演算法--百度百家

項目鏈接:GitHub - Microsoft/malmo


今年參加了Microsoft Research組織的Microsoft Malmo Collaborative AI Challenge競賽,有幸從來自26個國家的81支隊伍中獲得了第一名。Presenting the winners of the Project Malmo Collaborative AI Challenge - Microsoft Research

我們把比賽用的方法寫成文章,目前已經被AAAI-18接收,有興趣的同學可以關注一下,文章的題目叫作 HogRider: Champion Agent of Microsoft Malmo Collaborative AI Challenge

推廣一下這個比賽

The Malmo Collaborative AI Challenge - Microsoft Research

比賽正是基於Minecraft malmo的人工智慧測試平台。比賽的場景(下圖右邊)是一個9X9的方格(大概就是一個豬圈 ε=(′ο`*)))........) 在方(zhu)格(juan)空間裡面有草地(原諒色),牆(灰色),和門(黑色)。裡面有一隻豬(粉色圓圈),兩個agent (其中一個由競賽方提供,另一個由我們自己設計,競賽方的agent有兩種類別,分別是隨機亂跑或者用shortest path演算法追著豬跑)。遊戲的目的就是與競賽方的agent合作抓住那隻豬(豬會隨機亂跑)。抓住豬的條件是豬完全被牆和agent包圍(有點像壁咚,嗯)。agent每走一步扣一分,抓住豬得25分,也可以從小黑門出去,然後得5分。最後玩幾百輪,看誰分數高。

競賽難點主要在於兩件事情,一個是如何判斷競賽方agent是什麼樣的類型,一個是針對當前豬和agent的位置,怎麼選擇最優的action。我們的agent正是應用了Q-learning和一些其它的技術的結合來解決這兩個問題。

回到正題,malmo平台能否加速強化學習的發展?我的回答是,。特別是加速多智能體強化學習(multi-agent reinforcement learning)。因為在malmo平台中,往往存在多個智能體之間的interaction。這區別於像是Atari這樣的單智能體平台,加入了更多關於其他智能體的uncertainty。而多智能體的強化學習往往在現實中存在更多的比例,畢竟人屬於社會動物,在決策時會與很多其他個體相互影響。現在的很多很難的問題,像是Starcraft,dota2, 王者農藥,多人撲克,乃至Go的AI,都會涉及到多個智能體。在malmo這樣相對簡單的平台下,可以獲得很多複雜問題中看不到的intuition.

___________________________________________________________________________________________

11.18 更新一下,我們AAAI-18的文章camera ready 已經提交,有興趣的同學可以預覽一下我們放在網上的版本

https://malmoaaai18.weebly.com

另外,雷鋒網對我們的文章進行了一手的解讀,懶得看文章的同學可以看一下報道:

微軟Malmo協作AI挑戰賽冠軍詳解比賽思路:我們是如何讓AI在 Minecraft 里合作抓住一頭小豬的

競賽主辦方在NIPS17會開一個workshop,可惜我們沒有NIPS的文章去不了,anyway, 有緣的同學AAAI18 New Orleans見 O(∩_∩)O~


多智能體是強化學習的核心方向之一。本人就是這方面的研究人員。我也希望除了OpenAI等平台外,多出幾個優秀的平台。


推薦閱讀:

蘋果會不會有一天把OS X開放給第三方PC廠商?
windows操作系統有哪些一般人容易忽視的功能?
微軟宣布.NET開源和跨平台後,我們該如何繼續優雅的黑微軟?
如何看待卡巴斯基CEO發表聲明說iOS和Mac OS X比Windows 8/10更容易受到攻擊?
微軟為什麼突然解僱中國微軟 Xbox 亞洲研發部全員?

TAG:人工智慧 | 微軟Microsoft | 機器學習 | 我的世界Minecraft | 強化學習ReinforcementLearning |