AI在DOTA 2頂級賽事上一敗塗地,這究竟意味著什麼?
來自專欄 DeepTech深科技31 人贊了文章
隨著昨日 OpenAI Five 被一支中國隊伍打敗以及前天的另一場失敗, AI 提前結束了其在本屆DOTA 2 國際頂尖賽事 TI 8 的旅程。
回顧這兩場比賽,雖然 AI 在比賽的前 20-35 分鐘內保持了很好的獲勝機會,但 OpenAI Five 最終仍沒有把握住機會:第一場比賽 AI 對陣世界排名前 18 的隊伍的 paiN Gaming,比賽持續了大約 51 分鐘(一般比賽持續 40 分鐘);在第二場比賽中,AI 對陣由中國退役頂尖玩家組成的隊伍,其中三人曾在一支明星隊伍中比賽過,在經歷了一些精彩額來回戰鬥後,人類 45 分鐘後獲勝。
OpenAI Five 在比賽中確實展現了自己一定的實力,根據 OpenAI 賽後發布的博客文章,導致失敗的主要原因是對戰的遊戲玩家明顯實力比 AI 高出不少量級 ,如今年5月以來玩家排名的圖表所示:
圖|各個隊伍的實力分布(來源:OpenAI )
除此之外,缺乏戰略規劃也導致了 AI 的失敗。
「我們並不感到震驚,」OpenAI 成員 Filip Wolski 賽後對媒體表示。「我們以極高的不確定性參加了比賽。我們不知道某些因素,比如在比賽那天我們會對戰誰」。
在周三遭遇首次失敗之後,開發人員也重新調整了 AI 的獎勵系統,試圖最大限度地獲得勝利的機會。Wolski 向表示:「當機器人贏得比賽時,最大的回報是給予獎勵……這個項目讓我們經歷了很多不眠之夜,我們會休息一下,並考慮是否為 AI 上傳新的超參數。我們將繼續研究Dota 2,以便更好地使用越來越少的限制來玩遊戲。」
總體來說,在保留一定限制的前提下,OpenAI 的系統仍然無法全面理解 DOTA複雜的遊戲系統和規則,比如對偵查守衛和詭計之霧的錯誤使用,站在 Roshan 洞穴發獃,將 Roshan 復活盾交給輔助等等。這些行為和操作無疑浪費了遊戲中寶貴的資源和稍縱即逝的戰機。
退一步講,即使 AI 系統對這些物品和機制有人類無法理解的「獨特看法」,但是結合局勢來看,這些做法似乎不符合 OpenAI 團隊所說的「為全局最優設計的演算法」,反倒像是 AI 系統在通過不斷試錯,來找到物品的正確使用方法和機制背後蘊藏的原理。這或許是因為新的 AI 演算法還存在 Bug 和訓練時間不足。
圖:OpenAI 在泉水處瘋狂插眼
縱觀八月中旬和 TI8 的幾場比賽,OpenAI 的系統似乎並沒有展現出太多的進步。雖然比賽規則有所調整,但是面對更加默契和高水平的職業隊伍時,AI 系統精密計算的技能釋放和反應極快的微操可以驚艷觀眾,打贏遭遇戰,但是無法帶來勝利。
歸根結底,這是因為規則修改後的遊戲更加真實,同時頂級職業選手對 Dota 的理解更加成熟,比如抱團、刷野和帶線的時機;對戰術的執行更為徹底,比如黑皇杖等關鍵裝備出爐後的開霧抓人;針對不同局勢的出裝也更加靈活,比如關鍵英雄補出永恆之盤,防止被秒。
這些戰略上的部署是目前 AI 系統所缺失的,它還無法針對局勢制定和變化戰術。本質上講,如果人類選手的所有操作都可以被 AI視為一種輸入值,那麼 OpenAI 的強大演算法就會處理這些輸入值,併產生相應的輸出值,即 AI 英雄的操作。顯而易見,AI 通常可以完美地執行這些反饋操作,比如利用跳刀和風杖躲斧王跳吼。
圖丨OpenAI 開發團隊亮相 TI 8 (來源:TI 8)
然而 AI 系統缺少在無信息情況下的主動的預測性行動,比如在特定位置被抓後進行反眼,在關鍵時間點組織開霧進攻,或者圍繞 Roshan 盾進行推進和反打。這種特徵在逆風局勢下尤為明顯,因為 OpenAI 作為被動的一方需要尋求突破口來打開局面,有效的戰術轉變是一種必須掌握的技能。
圖|OpenAI 重大事件時間軸 (來源:DT君)
值得注意的是,OpenAI Five 整個從零開始最終達到世界級職業玩家水平的道路中,並沒有使用任何人類提供的額外數據進行訓練。但在這次比賽結束後,如果開發團隊希望 AI 能夠更快地進步,他們真的需要考慮讓 AI 學習人類的經驗了。
推薦閱讀:
※xiao8談EHOME預賽被淘汰,不認同「中國戰隊缺少優秀隊長」
※作為將電競納入體育的決策者,這位IOC委員如何看待電競入奧?
※魔塊電競丨周杰倫JTeam入駐《堡壘之夜》職業戰隊聯盟
※創造歷史!TYLOO2-0完勝牛仔晉級4強
※ESL One Birmingham 2018 - 第四日回顧