如何評價OpenAI在TI7上推出的1v1擊敗Dota2世界冠軍的AI BOT?

公司項目主頁:OpenAI at The International

直接了當2:0擊敗了dota2知名選手Dendi,現場介紹在測試的時候擊敗了包括Sumail, Sccc, Arteezy等知名中單選手,模型訓練7小時擊敗dota2原有自帶AI,20小時左右擊敗人類職業玩家。


今天剛在現場看了,個人認為sf solo主要還是在拼操作而不是所謂「智能」,通過API實現的bot打敗頂級人類高手其實並不能說明AI的智能超過了人類,充其量只能說明AI學會了遊戲規則。


去年阿爾法狗戰勝李世石時,就在和同事開玩笑,什麼時候星際AI能打贏人類,我們這幫做交易的就該下崗了。看來這一天來得會比想像的要快。

知乎上有個問題,歷史上社會發生劇變的前夜是怎樣的,我們就正處於劇變的前夜。我們高估了人工智慧短期的影響,但低估了長期的影響。未來二十年內,90%的工種被AI取代,只是個時間和成本的問題。甚至於未來的戰爭,都將是AI的天下。一個不太被關注的新聞,戰鬥機的模擬空戰中,AI已經開始趕上飛行員,更不用說實戰dog fight時人類的生理極限。

pan seaeye:人工智慧戰鬥機模擬空戰首次擊落人類飛機,意味著什麼?

親戚的小孩,幼兒園就已經成天忙著補英語補數學補幼升小面試技巧,就差選專業了。我經常調侃,別折騰了,該玩玩,二十年後他們要從事的行業現在可能還不存在。就像現在,這個星球上最大的五家公司,這個國家最有錢的兩個人,所做的事情在二十年前是難以想像甚至於不存在的。按這種指數級的發展速度,二十年後世界會變成什麼樣真是不得而知,也許腦後插管也不是完全沒可能。

我們有幸生於這個偉大的時代,如果不是最後的時代。


簡評:從 3 月份的連小學生都打不過,到 8 月份的戰勝 Sumail 等一系列世界豪強,OPENAI 這幾個月發生了什麼?最可怕的是,每一天的它都能戰勝前一天的自己。你可能覺得它是電腦才強,但事實上它的可怕不在於反應而是在於學習能力。

傳送門:五個月,從小白到戰勝SumaiL,Dota2世界最強單挑王誕生記(附大量珍貴對戰視頻)

前幾天我們的 AI 2-0 戰勝了世界頂尖的的 Dota2 選手,前世界冠軍 Dendi,比賽採用 1 對 1 的標準錦標賽規則。

這次的結果顯示,自我學習的 AI 能夠自發的從遠低於人類水平成長到超越人類的水平,只要給與其足夠的計算。在短短几個月,我們的系統從最底層的 Rank 排名成長到了擊敗職業的程度。受監督深度學習系統能夠做到的程度與訓練數據保持正相關(即數據有多好它的能力就有多強),但自學習(self-play)系統,隨著計算的累計,可以在現有的數據上進一步提高。

從上圖可以看到:隨著時間的推移,我們機器人(bot)的 TrueSkill 評級(類似一個國際象棋的段位),從添加新功能到演算法改進到擴展,系統的每個部分都有改進。這個圖表是令人驚訝的線性的,意味著團隊隨著時間的推移成倍地改進了機器人。

Dota2 Solo MMR 分布圖: 有 15% 的人低於 1.5K MMR(Dota2 的排位分數),58% 的人低於3K,只有 0.01% 的人高於 7.5K。

OPENAI Dota2 bot 進度的時間表如下

  • 3 月 1 日:我們的第一個傳統的強化學習成果,讓 bot 使用遊俠卓爾(小黑)學習放風箏
  • 5 月 8 日:1.5K 分段的測試員說他比 bot 進步快多了。
  • 6 月 初:擊敗了1.5K 分段測試員。
  • 6 月 30 日:贏了大部分 3K 分數段的測試員。
  • 7 月 8 日:很艱難的第一次戰勝 7.5K 分數段的半職業選手測試員。
  • 8 月 7 日3-0 戰勝 Blitz(6.2K 前職業選手);2-1 戰勝 Pajkatt(8.5K 職業選手),3-0 戰勝 CCamp;amp;amp;amp;C(8.9K 職業選手)。大家都同意,只有 Sumail(現役超強職業選手,被譽為巴基斯坦之光)才能知道如何擊敗 bot
  • 8 月 9 日10-0 擊敗 Arteezy,頂級職業玩家,10K 分數。他說恐怕 Sumail 也搞不定 bot
  • 8 月 10 日6-0 擊敗 Sumail,8.3K 職業選手,最強單挑王之一,Sumail 直呼不可戰勝。後來 Sumail 挑戰 8 月 9 日(回滾到了前一天的 bot),Sumail 2-1 獲勝
  • 8 月 11 日:在錦標賽的表演賽中以 2-0 擊敗 Dendi,7.3K 分數,前世界冠軍,廣受老玩家喜愛。11 日的 bot 對戰 10 日的 bot,有超過 60% 的勝率

(視頻:與 SumaiL 的巔峰對決,紅方是 OPENAI)

下一步任務

雖然 1V1 也是錦標賽的一個項目,但是我們把下一個目標定在教會 AI 打全場 5V5。

bot 的操作視角:

  • 視野:被設計與人類一樣,兵線,小雞,附近的地形。遊戲部分可觀察,陰影和人類一樣,也會失去視野。
  • 操作:bot 操作 API,選擇與人類一樣的頻率進行操作,包括移動位置,攻擊,或者使用道具。
  • 反饋:機器人獲得獎勵和傷害,如健康,金錢,最後一擊等指標與人類一樣。

(和 Arteezy 單挑,紅方是 OPENAI )

國際邀請賽

bot 的訓練途徑是少部分的「教練」和自我學習,選手們和 bot 在周一到周四訓練。有個周一的晚上,Pajkatt 戰勝了 bot,因為他用了魔棒,於是我們把魔棒添加到 bot 訓練的白名單。

在周三的凌晨一點,我們測試最新版的 bot,發現它在第一波兵線就損失了很多血。我們認為出了一些問題,需要回滾,但接下來讓我們大吃一驚,原來第一波掉血是為了以弱示敵,它現在學會了勾引戰術,以讓他機器人進行攻擊!而下一步,其他機器人學會了抵制勾引戰術。我們馬上把它和周一的那個機器人(可以使用魔棒的版本)進行合併,下午四點 bot 要和 Arteezy 進行對戰,我們對站前的 20 分鐘緊急上線了新版本。

在和 Arteezy 對戰之後,我們更新了移動模塊,讓 TrueSkill 又增加了一點。星期四要和 SumaiL 比賽,我們進一步訓練,在比賽前又增加了 TrueSkill 兩點。在比賽中,Sumail 發現 bot 學會了卡視野。這導致了 bot 學會了新技能:在人類視野之外使用魔杖

後來 Arteezy 與我們的 7.5K 測試員打了一場比賽,最後 Arteezy 獲得了勝利,但是我們的測試員仍讓他吃驚不已,因為測試員使用了從 bot 身上學習到的很不常見的戰術。(園長:有沒有想到 AlphaGo 的「點三三」)。Arteezy 表示這個戰術是 Paparazi 曾經對他使用過的一個戰術,只是測試員使用的不太熟練。

(Pajkatt 和 bot 那個周一的對戰,注意,他誘騙機器人參與進攻,互相消耗,自己使用魔杖治療。bot 通常非常擅長決策勝負,但是從來沒有和早期有魔杖的人打過)

Bot 漏洞

雖然 Sumail 直呼 bot 「不可戰勝」(unbeatable),但在非常特定和非常規的情況下,bot 仍然無法判斷清形勢。在國際賽期間,bot 在區域網內參加對戰,打了超過 1000 盤比賽,然後也出現了很多的意外事件。

成功戰勝 bot 利用了三個漏洞:

  • 推塔:當兵線過來時,勾兵,引幾波兵線追自己,讓己方小兵推塔。
  • 淬毒之珠+風靈之紋:這個組合給你巨大的移動優勢,會讓你快速拿到一血。你要利用這個思路來殺死 bot 一次。
  • 一級點影壓:這需要許多技巧,但是有幾個 6-7K 高分玩家,一級點影壓,成功在短時間內擊中 3-5 炮加平A,實現一血。

遇到這些問題並且解決就好,就像是和 Pajkatt 對戰我們添加了魔杖一樣,修復就好了。但是對於 5V5,這樣的問題就根本不是漏洞,我們需要一個能夠應對各種突發和怪異狀態的系統。

5V5

1V1很複雜,但和5V5相比,就是小溪對比海洋。為了解決 5V5 的複雜度問題,我們要進一步提高 AI 的限制。

一個成熟的方案是早 5V5 早期,克隆學習。Dota2 每天有大約一百萬場公開賽。這些比賽的重播被存儲在 Valve 的伺服器上兩周。自從去年 11 月以來,我們一直在下載每個專家級別的比賽重播,並且已經收集了 580 萬遊戲的數據集(每場遊戲約 45 分鐘,10 人參與)。我們使用 OpenDota 來發現這些重播,並捐贈 12000 美元(10 年的籌款目標)來支持該項目。

我們有更多的想法,招聘工程師(不需要是專家,但必須對機器學習感興趣)和研究人員幫助我們實現想法。感謝 Microsoft Azure 和 Valve 的支持。

參考:More on Dota 2

日報延伸閱讀:OPENAI:用 GTA 訓練電腦實現自動駕駛


打路人被虐一天,好累啊!

打個AI輕鬆一下吧。

咦!

我還是打路人吧!


Ti20的時候,比拼的可能是阿里+騰訊 vs Amazon+Google 的碼農和科學家們誰的頭髮掉的多了吧。

太可怕了,固定結果 vs 人腦選擇!


自答一波,MSc項目有接觸到Deep Learning

訓練模型在1v1賽中對卡兵線 對線血量 攻擊距離 仇恨的控制簡直驚為天人,項目官網相關介紹:

The bot learned the game from scratch by self-play, and does not use imitation learning or tree search.

從隨機初始設定倆bot對戰開始訓練模型,從而提升模型的戰力,不涉及模仿人類選手操作的學習或用搜索樹等演算法,可以腦補眾職業選手看AI的Rep上課學對線的畫面。

期待5v5的版本,不知道AI在更多規則的情況下能玩出什麼花活,說不定ti8的冠軍已經被內定了


從Dota2 7.0版本 AI介面提供的時候,我就知道會有這天,但沒想到會這麼快。。。

下屆的Ti 8將和人類冠軍比賽,現場解說表示對人類沒有信心,我也是。。

這是人類的末日。。。(* ̄︶ ̄)y


這個AI還需要改進加強啊。昨天在測試中,OpenAI深陷人民戰爭的汪洋大海,被各種野路子擊敗。

其中一種野路子如下:主要策略不是殺人而是破掉AI一塔。0:00勾對方小兵,並且帶著小兵在野區轉圈。小兵刷新時再回來勾兵。AI在追擊你和防守一塔之間顯得猶豫不決,最終由於一塔被毀告負…出門裝選擇風靈之紋(保證移速)和大葯(補給勾兵造成的血量損失)。

之前AI負責人給媒體透露,這款AI使用了Dota2 Bot API,從而對於技能傷害和距離都有精確的把控,通過hardcode的agent和reinforcement learning讓AI學習各種策略(包括出裝,卡兵等等)。

然而,雖然機器精於計算,而人民的智慧無窮啊。看來還需要繼續學習改進。


以後可能出現AI護懟,程序員當戰隊老闆


大清早起來去看比賽的,然後,感覺被上了一課,血虐!!!


我覺得國土無雙可以一戰!


Ai負責計算就可以了,技能瞬發,人類玩兒還得點滑鼠按技能,Solo Ai能贏只能說微操作上演算法沒失敗,而已。距離5V5勝利,還有很長路要走。


這個AI,只是秀一下而已,別緊張。

1、1V1和5V5,導致的變數會差距大很多。

2、AI專門針對選的這個英雄,寫死了(固化了)很多操作,讓AI換個英雄哥馬上歇菜。

3、微操作,人類確實甘拜下風

4、不用擔心,由於DOTA2的複雜性(策略、操作等等),短時間內,人類還能在5V5上保持優勢。


推薦閱讀:

Dota中神秘商人是個怎麼樣的存在?
風暴英雄的畫面在同類遊戲里算什麼水平呢?
2009重組的ftd戰隊為何失敗?
在c5game平台上經歷三次(疑似)跑路事件後仍堅持相信它是一種什麼樣的體驗?
如何評價WCA2015?

TAG:人工智慧 | 刀塔DOTA2 | Dota2國際邀請賽TI | 人機對戰 | openai |