AI在DOTA 2頂級賽事上一敗塗地，這究竟意味著什麼？

08-26

來自專欄 DeepTech深科技31 人贊了文章

隨著昨日 OpenAI Five 被一支中國隊伍打敗以及前天的另一場失敗， AI 提前結束了其在本屆DOTA 2 國際頂尖賽事 TI 8 的旅程。

回顧這兩場比賽，雖然 AI 在比賽的前 20-35 分鐘內保持了很好的獲勝機會，但 OpenAI Five 最終仍沒有把握住機會：第一場比賽 AI 對陣世界排名前 18 的隊伍的 paiN Gaming，比賽持續了大約 51 分鐘（一般比賽持續 40 分鐘）；在第二場比賽中，AI 對陣由中國退役頂尖玩家組成的隊伍，其中三人曾在一支明星隊伍中比賽過，在經歷了一些精彩額來回戰鬥後，人類 45 分鐘後獲勝。

OpenAI Five 在比賽中確實展現了自己一定的實力，根據 OpenAI 賽後發布的博客文章，導致失敗的主要原因是對戰的遊戲玩家明顯實力比 AI 高出不少量級，如今年5月以來玩家排名的圖表所示：

圖|各個隊伍的實力分布（來源：OpenAI ）

除此之外，缺乏戰略規劃也導致了 AI 的失敗。

「我們並不感到震驚，」OpenAI 成員 Filip Wolski 賽後對媒體表示。「我們以極高的不確定性參加了比賽。我們不知道某些因素，比如在比賽那天我們會對戰誰」。

在周三遭遇首次失敗之後，開發人員也重新調整了 AI 的獎勵系統，試圖最大限度地獲得勝利的機會。Wolski 向表示：「當機器人贏得比賽時，最大的回報是給予獎勵……這個項目讓我們經歷了很多不眠之夜，我們會休息一下，並考慮是否為 AI 上傳新的超參數。我們將繼續研究Dota 2，以便更好地使用越來越少的限制來玩遊戲。」

總體來說，在保留一定限制的前提下，OpenAI 的系統仍然無法全面理解 DOTA複雜的遊戲系統和規則，比如對偵查守衛和詭計之霧的錯誤使用，站在 Roshan 洞穴發獃，將 Roshan 復活盾交給輔助等等。這些行為和操作無疑浪費了遊戲中寶貴的資源和稍縱即逝的戰機。

退一步講，即使 AI 系統對這些物品和機制有人類無法理解的「獨特看法」，但是結合局勢來看，這些做法似乎不符合 OpenAI 團隊所說的「為全局最優設計的演算法」，反倒像是 AI 系統在通過不斷試錯，來找到物品的正確使用方法和機制背後蘊藏的原理。這或許是因為新的 AI 演算法還存在 Bug 和訓練時間不足。

圖：OpenAI 在泉水處瘋狂插眼

縱觀八月中旬和 TI8 的幾場比賽，OpenAI 的系統似乎並沒有展現出太多的進步。雖然比賽規則有所調整，但是面對更加默契和高水平的職業隊伍時，AI 系統精密計算的技能釋放和反應極快的微操可以驚艷觀眾，打贏遭遇戰，但是無法帶來勝利。

歸根結底，這是因為規則修改後的遊戲更加真實，同時頂級職業選手對 Dota 的理解更加成熟，比如抱團、刷野和帶線的時機；對戰術的執行更為徹底，比如黑皇杖等關鍵裝備出爐後的開霧抓人；針對不同局勢的出裝也更加靈活，比如關鍵英雄補出永恆之盤，防止被秒。

這些戰略上的部署是目前 AI 系統所缺失的，它還無法針對局勢制定和變化戰術。本質上講，如果人類選手的所有操作都可以被 AI視為一種輸入值，那麼 OpenAI 的強大演算法就會處理這些輸入值，併產生相應的輸出值，即 AI 英雄的操作。顯而易見，AI 通常可以完美地執行這些反饋操作，比如利用跳刀和風杖躲斧王跳吼。

圖丨OpenAI 開發團隊亮相 TI 8 （來源：TI 8）

然而 AI 系統缺少在無信息情況下的主動的預測性行動，比如在特定位置被抓後進行反眼，在關鍵時間點組織開霧進攻，或者圍繞 Roshan 盾進行推進和反打。這種特徵在逆風局勢下尤為明顯，因為 OpenAI 作為被動的一方需要尋求突破口來打開局面，有效的戰術轉變是一種必須掌握的技能。

圖|OpenAI 重大事件時間軸（來源：DT君）

值得注意的是，OpenAI Five 整個從零開始最終達到世界級職業玩家水平的道路中，並沒有使用任何人類提供的額外數據進行訓練。但在這次比賽結束後，如果開發團隊希望 AI 能夠更快地進步，他們真的需要考慮讓 AI 學習人類的經驗了。