首次!AI 組隊在Dota 2五對五團戰中戰勝人類,協作型人工智慧的里程碑式突破!
來自專欄 DeepTech深科技80 人贊了文章
《星際爭霸》這類即時戰略類遊戲顯然已經不能滿足AI的「求勝欲」了!這次,5種不同的 AI 演算法像人類一樣「組隊」,在 Dota 2遊戲中完虐人類玩家!
今天,由馬斯克和 Sam Altman 創立的著名人工智慧非營利組織 OpenAI 宣布這一重大里程碑:他們開發的 AI 已經能夠組隊在 5V5 對戰中戰勝 Dota 2 頂尖業餘玩家,平均天梯分數超過4200分。
雖然這次與 AI 對戰的是來自 OpenAI 的員工,並非頂尖職業玩家,而且 AI 也只會使用遊戲所提供的 115 位可選英雄中的5位,並且人類玩家不能使用真假眼,魔瓶等道具,但我們有理由相信這僅僅是個開始。此次開發的 AI 也將在今年秋季參加頂級 Dota 2 賽事 The International,到時候會與 5 名專業選手組成的戰隊一決高下。
圖丨OpenAI 的 AI 團隊擊敗了OpenAI的員工團隊,但前方還有更大的挑戰
OpenAI 開發了一套名為「 OpenAI Five」的演算法,如果獨立的看這種演算法,其實並沒有什麼特別的,就是一種學會了如何玩 Dota 2 的神經網路,而且此前也有AI演算法在一對一 Dota 2 比賽中勝過人類玩家的先例。但 AI 的這次勝利卻有著完全不同的意義,因為5套演算法間已經學會了如何與「隊友」協作。
OpenAI 創建人工智慧時使用的是機器學習的一種,強化學習。這種技術看似簡單,但是能讓 AI 習得非常複雜的行為。讓 AI 學習的過程是,把 AI 放到虛擬環境中,並通過自我嘗試學會實現目標。具體來說,程序員設定獎勵機制(比方說在AI 殺掉敵人後獎勵機器系統),然後讓 AI 一遍遍進行遊戲。
這些 Dota 機器人的自我訓練量驚人,每一天機器人用相當於180年遊戲的量進行訓練,連續訓練時間達幾個月。研究人員說:「它開始時在地圖上亂走,但是,幾個小時後,它開始具備基本技能。如果一個人需要花1.2萬到2萬小時才能成為專業遊戲玩家,那AI的速度要快得多,因為每天積累的遊戲經驗是一個人一生積累經驗的100倍。」
圖丨在2017年時,在1V1 被 AI 打敗的 Dota2 頂尖人類選手 Dendi
與技術戰略類遊戲不同,Dota 這種 MOBA(多人聯機在線競技遊戲)類遊戲有著更為複雜的遊戲機制,還需要隊友間完美的配合才能取得最終的勝利。而這次的 5 位AI「玩家」完美的證明了人工智慧也懂得相互配合。
這無疑是 AI 技術的又一里程碑,因為人們認知中的AI通常獨立運行的,多AI間的相互配合,除了在遊戲中擊敗人類,我們很容易聯想到這種「協作型」 AI 技術更多的商業應用場景,比如多種 AI 演算法可以在在線交易或廣告競價排名中相互配合拿下訂單,或者在生產線上「組隊」完成多樣化的製造任務。當然,合作型演算法將導致AI技術與人類更「親密無間」的協作。
其實即便是科技高度發展的今天,AI 和機器人技術還是兩個相對獨立的領域,人類也一直在嘗試將 AI 技術與機器人相結合,來顛覆現有的生產及倉儲模式,這無疑會將 AI 帶入全新的時代。
此前,OpenAI 已經開發出了一種演算法,能在一對一的 Dota 2 比賽中戰勝人類頂級玩家,基於這套演算法,OpenAI 進一步開發出了能評估自身表現與隊伍獲勝間的微妙關係。OpenAI Five 作為相互獨立的5種演算法,它們之間並不存在主動交流機制,除非它們處於同一局遊戲中,所以大可不必擔心出現電影《終結者》中的「天網」。
「我們從比賽中能感受到,AI演算法間的協作意圖似乎是一種非常自然的本能表現。」 OpenAI 創始人之一的 Greg Brockman 表示。在 Dota 2 的 5V5 團隊賽中,他們甚至嘗試了用一位人類玩家頂替 5 位「 AI 玩家」中的一個,而這位替補上場的人類玩家的感覺是:「我能體會到AI隊友對我的支援!」
圖丨Greg Brockman
Dota2 是一個複雜的戰略遊戲,遊戲中各自由五名玩家組成的隊伍之間開展對戰,在廣袤的地圖上推倒對方的防禦塔和遺迹,才能獲得最終的勝利。玩家們使用的英雄有各自的強項、弱項、技能和屬性。在遊戲里,玩家需要獲得金錢,購買和升級裝備,思考戰略,還要和對手廝殺。
用 AI 程序來玩電腦遊戲逐漸成為衡量 AI 能力的常用手段。圍棋是著名的高難度遊戲,Alphabet 的子公司 DeepMind 曾因為開發出能學習下圍棋的軟體而聲名大噪。另一個相關的成績則是 AI 通過與自己對戰從零開始直到掌握了下圍棋和國際象棋的能力。
雖然玩 Dota 2 所需的戰略不像國際象棋和圍棋那樣有更多自由發揮的空間,但是要掌握這款遊戲仍然相當困難。對於機器來說更是巨大的挑戰,因為機器不能隨時能看到對手的舉動,而且這款遊戲需要團隊合作。
目前 OpenAI Five 還只能在有限條件下打 Dota 2。 OpenAI Five 不隨機從115個可用英雄中選擇,而是限定了5個英雄,因為每個英雄都有自己的特點。 他們的選擇是:Necrophos、Sniper、Viper、Crystal Maiden、Lich。
一些決策過程是硬編碼的,比如在商店買哪些物品,以及選擇用遊戲積累的經驗值提高哪些技能。此外,遊戲中一些決策棘手的操作也被禁用,比如隱形和召喚。這些技能可以讓玩家擁有觀察遠方的功能,就像有一個遠程相機,幾乎是高級遊戲玩家必備。
儘管如此,OpenAI Five 繼承了計算機的優勢,反應時間比人類短,不會錯過點擊,可以即時和精確地獲取數據,如物品清單、英雄的健康狀況以及地圖上物體之間的距離。而人類玩家必須手動檢查或者憑本能判斷。
OpenAI Five 通過與自己的不同版本對戰來學習遊戲戰略。隨著時間推進,程序習得的戰略與人類玩家所使用的戰略很類似,比如通過 「打錢」 找到獲取金錢的方法,以及採用遊戲中特定的戰略角色,並學習如何分路,Gank 和支援隊友等策略。
人工智慧專家表示,這一成就意義重大。匹茲堡卡內基梅隆大學的研究員 Noam Brown 說:「 Dota2 是一個極其複雜的遊戲,能打敗強大的業餘玩家就已經很不容易了,而且, 處理 Dota2 這種大型遊戲中的隱藏信息是一個很大的挑戰。」
Brown 之前研究過一種玩撲克的演算法,撲克是另一種非完整信息博弈遊戲,玩家需要有高超的技巧。Brown 說,如果 OpenAI 五人組能夠一直打敗人類,那將是人工智慧的一個重大成就。然而,他也指出,只要有足夠的時間,人類可能就會找出人工智慧團隊的遊戲風格弱點。
Brown 說,其他遊戲也可以進一步推動人工智慧。「下一個重大挑戰將是涉及到交流的遊戲,例如《強權外交》和《卡坦島》,在這些遊戲里,玩家需要平衡合作與競爭才能勝利。」
推薦閱讀:
※如果給 AlphaGo 植入五子棋程序,李世石有機會贏嗎?
※人機大戰II 第二場:從今往後,人類下圍棋,再也比不過AlphaGo了
※如何評價周志華在微博對 AlphaGo 和機器學習技術的評論?
※新AlphaGo首度揭秘:單機運行,4個TPU,演算法更強
※柯潔和阿法狗對戰之後,對柯潔的影響有多大?柯潔的棋力提升了多少?