比人類更靠譜 DeepMind的AI會玩多人遊戲雷神之錘3了
來自專欄 DeepTech深科技
AI 正在幫助我們持續地優化遊戲體驗。目前,AI 能夠讓 NPC 更真實的運動和打鬥,賦予遊戲中的半獸人以人格和逼真的外表。
現在 DeepMind 的 AI 能像人類一樣,通過戰略、戰術和團隊協作玩畫面定製版的雷神之錘 3 了。
該團隊選擇了奪旗模式(Capture The Flag,CTF)進行訓練。在該模式下,每一場遊戲地圖都會變化。AI 智能體需要學習通用的策略,來適應每一場比賽的新地圖。這對人類來說當然很容易。這些智能體還需要團隊合作並與敵隊競爭,針對敵情調整遊戲策略。
研究人員在博客中寫道:「我們的 AI 智能體必須要在未知的環境下從頭學習如何觀察、行動、合作和競爭,這一切都是從每場比賽中的單個強化信號——隊伍贏了還是輸了學到的。」他們訓練了許多像人類一樣能在遊戲中不斷學習的 AI 智能體。每一個智能體都由一個內部獎勵信號來驅動。這個信號可以驅使他們實現目標,比如獲取旗子。智能體們在快節奏和慢節奏的比賽下互相比賽,並與人類玩家競賽,來提高他們的記憶能力,讓行為始終一致。研究者發現, 遊戲中 AI 智能體不但比人類更出色,而且也學會了一些人類行為,如跟隨隊友,或者埋伏在敵人基地等。
圖 | 智能體自動學習的三個人類動作
本次研究的亮點在於,只以成績獎懲信號學習,通過多智能體強化學習,訓練出在複雜條件下支持人機、機器之間協作的高適應性智能體。
遊戲規則
CTF 奪旗賽的規則很簡單,不過遊戲狀況卻很複雜。兩隊玩家在一個地圖裡保護己方,搶奪敵方的旗子。為了獲得戰術優勢,他們可以碰觸敵人,讓他們跳回出生點。在五分鐘比賽後,奪旗次數最多的隊伍獲勝。
本次研究使用的遊戲是雷神之錘 III 競技場。它是許多第一人稱視角多人遊戲的鼻祖,由於其沉浸式遊戲體驗和對戰略、戰術、手眼協調和團隊協作的挑戰,目前這是最流行的一類遊戲,吸引了數以百萬計的玩家。
遊戲中智能體需要像人類一樣學習和行動,通過團隊協作共同抗擊敵隊的智能體、其他類 AI 機器人或人類。
從智能體的視角,奪旗賽不但需要玩家在與隊友協作的同時抗擊敵人,而且還要能夠適應各種不同的遊戲狀況。
訓練方式
在訓練中,每一場比賽地圖都會不同。因此,智能體不得不學習一種通用的策略,而不是記住特定的地圖或技巧。此外,為了模模擬實遊戲情況,智能體探索地圖的方式與人類類似:先觀察一系列圖片像素,然後通過遊戲控制器實現動作。
圖 | CTF 奪旗賽在不斷新生成的環境中進行,所以智能體必須能夠適應未知的地圖
AI 智能體必須要在未知的環境下從頭學習如何觀察、行動、合作和競爭,這一切都是從每場比賽中的單個強化信號——隊伍贏了還是輸了習得的。這是個有挑戰的學習問題,最終結果基於三個強化學習的通用原則:
- 訓練一群相互遊戲的智能體,來保證隊友和敵人的多樣性。
- 每個智能體通過自己內部的獎勵信號進行學習。這些信號能幫助智能體制定自己的目標,比如去奪旗。一個兩級的優化過程直接優化智能體獲勝的內部獎勵,並使用強化學習來鼓勵智能體學習策略。
- 智能體們在快速和慢速兩個時間節奏下被訓練,這樣能夠增強其記憶,使得其行為前後一致。
圖 | For The Win 智能體架構示意圖。智能體結合了慢速和快速的循環神經網路,包括共享記憶,轉換分數為內部獎勵。
最終形成智能體被叫做 "For The Win"(FTW) ,在奪旗賽中有高水平表現。重要的是,習得的智能體策略能夠適應不同地圖尺寸、隊友種類和隊友數量。
團隊選定四十個人類玩家進行了一場人機錦標賽。比賽中人類和智能體會被隨機混合組隊,作為隊友和敵人。
訓練結果
論文結果表明,FTW 智能體的表現比基線方法(Self-play + RS )更好,並且超過了人類玩家的勝率。事實上,對參與者的調查顯示,智能體的協作能力比人類玩家更好。
圖 | 智能體在訓練中的表現。FTW 智能體的埃洛等級分(與勝率正相關)比人類玩家和基線方法都高。
理解智能體
除了結果評估,理解這些智能體的行為和內部遊戲表示複雜度也同樣重要。
圖 | 智能體對遊戲世界的表示。相似遊戲情形被智能體用相似的方式表示。訓練的智能體甚至可以直接使用一些人工神經元編碼特定情形。
為了理解智能體,DeepMind 將智能體的神經網路畫在平面上,觀察其激活模式。上圖中的點表示一種遊戲情形,周圍鄰近的點表示它們具有類似的激活模式。這些點的顏色是根據高級別奪旗賽的比賽狀態標註的,狀態包括:智能體所在房間、雙方旗子的狀態、隊友和敵人的情況。相同顏色的一簇點表示智能體處在相似的高級遊戲狀態中。
從來沒有人告訴這些智能體遊戲規則,但智能體卻能學習出遊戲的基本概念,並發展出對奪旗賽的直觀解釋。觀察發現,特定的神經元將比賽中的重要狀態直接編碼,比如當旗子被奪走,或者當隊友拿到旗子時。論文中還對智能體的記憶使用和視覺注意力進行了進一步分析。
除了那些豐富的表徵,那麼智能體的實際表現如何呢?首先,智能體的反應速度非常快,且有精確的命中,這可以解釋他們出色發揮的原因。然而,人工降低這個準確率和反應時間,他們的表現依舊不俗。所以這些都只是它們成功的因素之一而已。
圖 | 在人工降低了智能體的命中率和反應時間之後的影響。即使調整為與人類相近的命中率和反應時間,智能體的表現依舊優於人類玩家。
通過無監督學習,DeepMind 建立了一個智能體和人類的原型行為,發現智能體能夠學習出人類行為,比如跟隨隊友和在敵營埋伏。
跟隨隊友等行為起初在通過強化學習和群體演化的訓練中出現。但當智能體學習以更互補的方式「創新」合作時,這些行為就變少了。
總結
近期科學家們在複雜遊戲如星際爭霸 II 和 Dota 2 上做了非常棒的工作,而這篇論文則聚焦於奪旗遊戲,但其研究貢獻是通用的,DeepMind 也期待該方法用在不同的複雜環境中。未來,DeepMind 還希望進一步提升當前的強化學習和基於群體的訓練方法。該研究強調了多智能體訓練促進人工智慧發展的潛力:利用多智能體訓練提供的力量,並推動更高適應性的強大智能體和人類團隊合作。
參考1DeepMind AI』s new trick is playing 『Quake III Arena』 like a human推薦閱讀:
TAG:人工智慧 | 深度學習DeepLearning | AlphaGo |