如何評價微軟發布的基於minecraft的人工智慧測試平台malmo？

01-29

該平台是否會加速強化學習領域的發展？是否會成為以後強化學習論文中主流的benchmark？
新聞鏈接：微軟開源Malmo項目，使用Minecraft測試人工智慧演算法--百度百家
項目鏈接：GitHub - Microsoft/malmo

今年參加了Microsoft Research組織的Microsoft Malmo Collaborative AI Challenge競賽，有幸從來自26個國家的81支隊伍中獲得了第一名。Presenting the winners of the Project Malmo Collaborative AI Challenge - Microsoft Research

我們把比賽用的方法寫成文章，目前已經被AAAI-18接收，有興趣的同學可以關注一下，文章的題目叫作 HogRider: Champion Agent of Microsoft Malmo Collaborative AI Challenge

推廣一下這個比賽

The Malmo Collaborative AI Challenge - Microsoft Research

比賽正是基於Minecraft malmo的人工智慧測試平台。比賽的場景（下圖右邊）是一個9X9的方格(大概就是一個豬圈 ε=(′ο｀*)))........) 在方（zhu）格（juan）空間裡面有草地（原諒色），牆（灰色），和門（黑色）。裡面有一隻豬（粉色圓圈），兩個agent （其中一個由競賽方提供，另一個由我們自己設計，競賽方的agent有兩種類別，分別是隨機亂跑或者用shortest path演算法追著豬跑）。遊戲的目的就是與競賽方的agent合作抓住那隻豬（豬會隨機亂跑）。抓住豬的條件是豬完全被牆和agent包圍（有點像壁咚，嗯）。agent每走一步扣一分，抓住豬得25分，也可以從小黑門出去，然後得5分。最後玩幾百輪，看誰分數高。

競賽難點主要在於兩件事情，一個是如何判斷競賽方agent是什麼樣的類型，一個是針對當前豬和agent的位置，怎麼選擇最優的action。我們的agent正是應用了Q-learning和一些其它的技術的結合來解決這兩個問題。

回到正題，malmo平台能否加速強化學習的發展？我的回答是，能。特別是加速多智能體強化學習（multi-agent reinforcement learning）。因為在malmo平台中，往往存在多個智能體之間的interaction。這區別於像是Atari這樣的單智能體平台，加入了更多關於其他智能體的uncertainty。而多智能體的強化學習往往在現實中存在更多的比例，畢竟人屬於社會動物，在決策時會與很多其他個體相互影響。現在的很多很難的問題，像是Starcraft，dota2, 王者農藥，多人撲克，乃至Go的AI，都會涉及到多個智能體。在malmo這樣相對簡單的平台下，可以獲得很多複雜問題中看不到的intuition.

___________________________________________________________________________________________

11.18 更新一下，我們AAAI-18的文章camera ready 已經提交，有興趣的同學可以預覽一下我們放在網上的版本

https://malmoaaai18.weebly.com

另外，雷鋒網對我們的文章進行了一手的解讀，懶得看文章的同學可以看一下報道：

微軟Malmo協作AI挑戰賽冠軍詳解比賽思路：我們是如何讓AI在 Minecraft 里合作抓住一頭小豬的

競賽主辦方在NIPS17會開一個workshop，可惜我們沒有NIPS的文章去不了，anyway, 有緣的同學AAAI18 New Orleans見 O(∩_∩)O~

多智能體是強化學習的核心方向之一。本人就是這方面的研究人員。我也希望除了OpenAI等平台外，多出幾個優秀的平台。