如何評價基於遊戲毀滅戰士(Doom)的AI死亡競賽大賽結果?

基於遊戲DOOM(中文譯名毀滅戰士)的AI競賽在希臘舉行,現已結束。比賽基於ViZDoom平台。

比賽場景:
1.Track 1:地圖對於參賽AI來說已知,武器只有火箭炮,機器人可以撿血包和彈藥。相互傷害10分鐘;

2.Track 2:(難度更高)在3個對AI來說未知的地圖上,機器人初始只有手槍,可以撿各種武器彈藥和血包。相互傷害10分鐘。

結果如下:
1.Facebook的@吳育昕和@田淵棟組的F1機器人AI和Intel組的IntelAct機器人AI各拿一個全場最佳:@田淵棟組的F1機器人AI拿了Track1最佳,Intel組的IntelAct機器人AI拿了Track2最佳。

2.除了大公司外,也有一些其他表現出色的AI,分別是卡耐基梅隆大學的Arnold,埃塞克斯大學的Clyde和東芬蘭大學的tuho。

相關資料:
1.基於DOOM的AI競賽平台本身ViZDoom:《ViZDoom: A Doom-based AI Research Platform
for Visual Reinforcement Learning》,請自行在arXiv搜索。

2.卡耐基梅隆大學的Arnold的論文:《Playing FPS Games with Deep Reinforcement Learning》,請自行在arXiv搜索,文中有遊戲演示視頻https://www.youtube.com/playlist?list=PLduGZax9wmiHg-XPFSgqGg8PEAV51q1FT,已經相當驚艷。作者在youtube的視頻下方評論中說「將」會開源代碼和訓練好的模型。

ps:剛剛看完卡耐基梅隆的Arnold論文,歡迎知友修改補充其他幾個的相關論文和資料。個人感想,深度增強學習的競賽平台將促進演算法快速發展。


更新:文章已放上個人主頁 yuandong.tian.com, 鏈接請見http://openreview.net/pdf?id=Hk3mPK5gg

謝邀。

這次很榮幸我們在Track1拿了第一名,看分數甩開第二名還挺多的。之前只是想以VizDoom作為增強學習演算法的測試平台,後來想想還是多花點時間在比賽上,比賽的這個模型是在7月下旬才開始訓練,所以沒有更多的精力和時間去訓練模型去參加Track2,長遠來說,Track2是更重要的方向。另外第二名剛剛也加入了FAIR,在巴黎的辦公室。

代碼都是 @吳育昕寫的,我就做了些方向上的指導工作。文章正在撰寫中,預計會投今年的ICLR,本著FAIR一貫的態度,代碼也會公開。在文章公開之前我們不會透露技術細節,不過可以說我們這次設計的是一個更加一般化的框架,訓練時不需要遊戲後台給神經網路提供太多額外信息,也沒有用太多的trick,對具體哪款遊戲不太敏感,能拿第一說明這個框架有比較大的潛力。

另外兩小時的全視頻在這裡:
Track 1
https://www.youtube.com/watch?v=94EPSjQH38Y
Track 2
https://www.youtube.com/watch?v=tDRdgpkleXI


更新:寫了一篇詳解文章:[最前沿]圍棋之後,AI玩FPS遊戲也能秀人類一臉了! - 智能單元 - 知乎專欄供希望了解更多信息的知友閱讀。
-----------------------------------------------------------------------
自問自答以拋磚引玉,期待 @田淵棟和 @吳育昕 介紹相關情況。

個人瞎扯淡:沒有拿到冠軍的本答案介紹的Arnold機器人都已經在場景中超越人類水平,我很期待拿了冠軍的兩個AI到底什麼水平。圍棋之後,第一人稱射擊遊戲已經成為深度增強學習研究的目標,是的,現在進展這麼快,顫抖吧人類!這次是毀滅戰士一代的死亡競賽模式,下次呢,暴雪會不會願意為人工智慧研究者給守望先鋒開個API?如果可以的話,真是亦可賽艇了!

本回答主要介紹卡耐基梅隆大學參賽的兩位博士生Guillaume Lample和Devendra Singh Chaplot的論文《Playing FPS Games with Deep Reinforcement Learning
》中的一些情況。他們雖然沒有奪冠,但是通過在YouTube上的展示視頻:https://www.youtube.com/playlist?list=PLduGZax9wmiHg-XPFSgqGg8PEAV51q1FT來看,效果已經足夠驚艷。

比賽平台:ViZDoom。簡而言之,就是研究者可以通過這個環境直接訪問到Doom的遊戲引擎,以此來訓練自己的演算法。演算法可以的到遊戲畫面幀作為輸入:

由於可以直接訪問到遊戲引擎,也可得到一些諸如「畫面中是否出現敵人」等信息,實際上這篇論文的一個亮點也就是利用高等級遊戲特徵信息。需要注意的是:測試演算法的時候,只能得到遊戲畫面。也就是說,在測試的時候,演算法和人一樣,只能根據遊戲畫面圖像信息來決策。比賽場景:論文就是為了參加競賽,所以論文中的兩個場景和競賽中的兩個場景本質是一樣的。場景如下:

  • 已知地圖上的受限死亡競賽:機器人訓練和評價都在同一張地圖上,武器只有火箭,機器人可以撿血包和彈藥;
  • 未知地圖上的全死亡競賽:機器人訓練和評價在不同地圖上,機器人初始只有手槍,可以撿各種武器彈藥和血包。10張地圖訓練,3張地圖測試。在訓練的時候,還隨機更換了地圖的材質,這樣做提升了模型的泛化能力。

實驗結果:先上結果來支持下上面瞎扯淡中所謂「超越人類水平」的內容

上面這個表格,顯示的是論文對比AI演算法和人類玩家遊戲水平的結果,具體如下:

  • K/D比例:擊殺/死亡比例;
  • 單個玩家場景:機器人和玩家分別和10個遊戲原內置AI對戰3分鐘;
  • 多玩家場景:人類玩家和機器人對抗5分鐘。
  • 自殺數:火箭炮等武器過近的射擊點會造成自我傷害。注意:人類玩家自殺失誤高於AI。

人類得分是取所有人類玩家的平均值。在兩個場景中都有20名人類玩家參加

人類玩家們,這個表格還是蠻有說服力的吧?當然,參加測試的是卡耐基梅隆大學的學生,不是doom的職業玩家。即使如此,還在前往灕江塔的你有沒有點方了

論文亮點:論文剛開始直接使用標準的DQN演算法,效果不好。在做出來兩個改進後,有了明顯提升

  • 概念上:將遊戲過程看做兩個階段,導航階段和行動階段。導航階段就是機器人探索地圖,發現物品並撿起物品。行動階段就是攻擊敵人
  • 框架上:對應不同階段,使用兩個獨立的模型來進行訓練。導航階段使用的是原始的DQN,行動階段是論文創新修改的融入了遊戲特徵信息的DRQN模型來訓練。
  • 增加遊戲特徵信息的DRQN模型:這是論文的核心創新點之一,說到底,就是將遊戲高級信息(比如視野中是否出現敵人)融入到DRQN進行訓練,值得仔細看看,圖示如下:

  • 在測試時:負責行動行動網路每一步都調用。只有在視野中沒有敵人,或者彈藥用盡的時候,換成導航網路來決定行動。

綜上:基於第一人稱射擊遊戲(FPS)的深度增強學習演算法競賽,能進一步推進演算法創新與發展,對於機器人的發展也是有力的助推。啊,亦可賽艇!


也來答一發吧!VizDoom這個競賽比較早就關注到了,沒想到是 @田淵棟和 @吳育昕兩位大神拿了第一,真是恭喜!

很期待你們能夠公開遊戲demo和code!

從Playing FPS Games with Deep Reinforcement Learning 這篇文章看,A3C確實是非常強大的增強學習演算法,通過一定的trick,基本上如杜客所分析,就達到了那麼好的效果。 採用兩個網路來分別實現導航和射擊確實是值得借鑒的。但是值得注意的是,作者仍然通過獲取遊戲後台的特徵(比如畫面的血包數量,敵人數量)來做訓練(測試時是沒有)。所以,如果連這些信息也沒有提供呢?

兩個方法:1個是網路加上Memory Network會不會更好?
2個是通過訓練一個物體檢測網路來獲取畫面的敵人數量是不是顯得更酷?

相信攻剋星際爭霸的時間已經不遠了!


有個外行問題問一下,這個AI的行動所根據的數據是靠API獲取的還是靠自己識別顯示器圖像獲得的?
如果是後者的話,一個程序通吃所有網遊代練啊


將來戰場上屠殺人類的AI機器人搞不好就是這其中之一的後代。


個人覺得就是按鍵掛做到了內存掛的效果。


2017年的比賽,招募隊友中


AI本身就比人類在操作上有非常大的優勢啊,這該怎麼算


美軍已經大規模使用無人機。想想,隨著遊戲越來越精緻,哪天我們玩的畫面,說不定就是真實的戰爭,參考電影「安德的遊戲」。


還能怎麼評價?跪著評價啊


好消息是以後咱們普通人不用上戰場了,壞消息是人類馬上就要滅絕了。


推薦閱讀:

從角色設定的角度看,防禦力和 HP 有區別嗎?
你在遊戲里做過最無聊的事情是什麼?
一張完美的 CS 地圖是怎樣製作出來的?
數碼寶貝和寶可夢哪個系列影響力更大?
任天堂的成功之處在哪裡?

TAG:Facebook | 遊戲 | 人工智慧 | 機器學習 | 深度學習(Deep Learning) |