比人類更靠譜 DeepMind的AI會玩多人遊戲雷神之錘3了

07-10

來自專欄 DeepTech深科技

AI 正在幫助我們持續地優化遊戲體驗。目前，AI 能夠讓 NPC 更真實的運動和打鬥，賦予遊戲中的半獸人以人格和逼真的外表。

現在 DeepMind 的 AI 能像人類一樣，通過戰略、戰術和團隊協作玩畫面定製版的雷神之錘 3 了。

該團隊選擇了奪旗模式（Capture The Flag，CTF）進行訓練。在該模式下，每一場遊戲地圖都會變化。AI 智能體需要學習通用的策略，來適應每一場比賽的新地圖。這對人類來說當然很容易。這些智能體還需要團隊合作並與敵隊競爭，針對敵情調整遊戲策略。

研究人員在博客中寫道：「我們的 AI 智能體必須要在未知的環境下從頭學習如何觀察、行動、合作和競爭，這一切都是從每場比賽中的單個強化信號——隊伍贏了還是輸了學到的。」他們訓練了許多像人類一樣能在遊戲中不斷學習的 AI 智能體。每一個智能體都由一個內部獎勵信號來驅動。這個信號可以驅使他們實現目標，比如獲取旗子。智能體們在快節奏和慢節奏的比賽下互相比賽，並與人類玩家競賽，來提高他們的記憶能力，讓行為始終一致。研究者發現，遊戲中 AI 智能體不但比人類更出色，而且也學會了一些人類行為，如跟隨隊友，或者埋伏在敵人基地等。

圖 | 智能體自動學習的三個人類動作

本次研究的亮點在於，只以成績獎懲信號學習，通過多智能體強化學習，訓練出在複雜條件下支持人機、機器之間協作的高適應性智能體。

遊戲規則

CTF 奪旗賽的規則很簡單，不過遊戲狀況卻很複雜。兩隊玩家在一個地圖裡保護己方，搶奪敵方的旗子。為了獲得戰術優勢，他們可以碰觸敵人，讓他們跳回出生點。在五分鐘比賽後，奪旗次數最多的隊伍獲勝。

本次研究使用的遊戲是雷神之錘 III 競技場。它是許多第一人稱視角多人遊戲的鼻祖，由於其沉浸式遊戲體驗和對戰略、戰術、手眼協調和團隊協作的挑戰，目前這是最流行的一類遊戲，吸引了數以百萬計的玩家。

遊戲中智能體需要像人類一樣學習和行動，通過團隊協作共同抗擊敵隊的智能體、其他類 AI 機器人或人類。

從智能體的視角，奪旗賽不但需要玩家在與隊友協作的同時抗擊敵人，而且還要能夠適應各種不同的遊戲狀況。

訓練方式

在訓練中，每一場比賽地圖都會不同。因此，智能體不得不學習一種通用的策略，而不是記住特定的地圖或技巧。此外，為了模模擬實遊戲情況，智能體探索地圖的方式與人類類似：先觀察一系列圖片像素，然後通過遊戲控制器實現動作。

圖 | CTF 奪旗賽在不斷新生成的環境中進行，所以智能體必須能夠適應未知的地圖

AI 智能體必須要在未知的環境下從頭學習如何觀察、行動、合作和競爭，這一切都是從每場比賽中的單個強化信號——隊伍贏了還是輸了習得的。這是個有挑戰的學習問題，最終結果基於三個強化學習的通用原則：

訓練一群相互遊戲的智能體，來保證隊友和敵人的多樣性。
每個智能體通過自己內部的獎勵信號進行學習。這些信號能幫助智能體制定自己的目標，比如去奪旗。一個兩級的優化過程直接優化智能體獲勝的內部獎勵，並使用強化學習來鼓勵智能體學習策略。
智能體們在快速和慢速兩個時間節奏下被訓練，這樣能夠增強其記憶，使得其行為前後一致。

圖 | For The Win 智能體架構示意圖。智能體結合了慢速和快速的循環神經網路，包括共享記憶，轉換分數為內部獎勵。

最終形成智能體被叫做 "For The Win"(FTW) ，在奪旗賽中有高水平表現。重要的是，習得的智能體策略能夠適應不同地圖尺寸、隊友種類和隊友數量。

團隊選定四十個人類玩家進行了一場人機錦標賽。比賽中人類和智能體會被隨機混合組隊，作為隊友和敵人。

訓練結果

論文結果表明，FTW 智能體的表現比基線方法（Self-play + RS ）更好，並且超過了人類玩家的勝率。事實上，對參與者的調查顯示，智能體的協作能力比人類玩家更好。

圖 | 智能體在訓練中的表現。FTW 智能體的埃洛等級分（與勝率正相關）比人類玩家和基線方法都高。

理解智能體

除了結果評估，理解這些智能體的行為和內部遊戲表示複雜度也同樣重要。

圖 | 智能體對遊戲世界的表示。相似遊戲情形被智能體用相似的方式表示。訓練的智能體甚至可以直接使用一些人工神經元編碼特定情形。

為了理解智能體，DeepMind 將智能體的神經網路畫在平面上，觀察其激活模式。上圖中的點表示一種遊戲情形，周圍鄰近的點表示它們具有類似的激活模式。這些點的顏色是根據高級別奪旗賽的比賽狀態標註的，狀態包括：智能體所在房間、雙方旗子的狀態、隊友和敵人的情況。相同顏色的一簇點表示智能體處在相似的高級遊戲狀態中。

從來沒有人告訴這些智能體遊戲規則，但智能體卻能學習出遊戲的基本概念，並發展出對奪旗賽的直觀解釋。觀察發現，特定的神經元將比賽中的重要狀態直接編碼，比如當旗子被奪走，或者當隊友拿到旗子時。論文中還對智能體的記憶使用和視覺注意力進行了進一步分析。

除了那些豐富的表徵，那麼智能體的實際表現如何呢？首先，智能體的反應速度非常快，且有精確的命中，這可以解釋他們出色發揮的原因。然而，人工降低這個準確率和反應時間，他們的表現依舊不俗。所以這些都只是它們成功的因素之一而已。

圖 | 在人工降低了智能體的命中率和反應時間之後的影響。即使調整為與人類相近的命中率和反應時間，智能體的表現依舊優於人類玩家。

通過無監督學習，DeepMind 建立了一個智能體和人類的原型行為，發現智能體能夠學習出人類行為，比如跟隨隊友和在敵營埋伏。

跟隨隊友等行為起初在通過強化學習和群體演化的訓練中出現。但當智能體學習以更互補的方式「創新」合作時，這些行為就變少了。

總結

近期科學家們在複雜遊戲如星際爭霸 II 和 Dota 2 上做了非常棒的工作，而這篇論文則聚焦於奪旗遊戲，但其研究貢獻是通用的，DeepMind 也期待該方法用在不同的複雜環境中。未來，DeepMind 還希望進一步提升當前的強化學習和基於群體的訓練方法。該研究強調了多智能體訓練促進人工智慧發展的潛力：利用多智能體訓練提供的力量，並推動更高適應性的強大智能體和人類團隊合作。

參考1?

deepmind.com

DeepMind AI』s new trick is playing 『Quake III Arena』 like a human?

www.engadget.com
推薦閱讀：

TAG:人工智慧 | 深度學習DeepLearning | AlphaGo |