DOTA2獲勝的AI比AlphaGo厲害?還是媒體和馬斯克在聯合炒作?
大數據文摘作品,轉載要求見文末
編譯 | 姜范波 Aileen
這個周末的科技圈再次被「AI恐懼」刷屏,這次打敗人類的AI來自Elon Musk的OpenAI。昨天凌晨的DOTA2人機大戰中,頂級人類玩家Danylo "Dendi" Ishutin被AI完敗。
到底這次人機大戰意義何在?這次在一對一DOTA2中打敗Dendi到底比AlphaGo更難還是更容易?眾說紛紜中,我們認為前谷歌大腦和斯坦福研究員Denny Britz的這篇評論文章相對中肯和理性,也得到了不少學者的力挺:"這個問題實際上比擊敗人類圍棋冠軍容易得多。我們並沒有在AI中突然進步。"
DOTA界的大神們在昨天受到了暴擊,在堪稱「DOTA圈世界盃「的T17邀請賽中,頂級人類選手被OpenAI訓練了兩周的AI打敗。各類如"攻陷DOTA2","完虐人類「的字眼紛紛出現,不免讓人想起之前AlphaGo大戰柯潔的盛況。
Elon Musk本人也在推特上強推了這次人機大戰,他認為DOTA2比圍棋複雜很多,所以這次獲勝的機器人也比AlphaGo要厲害。當然,馬斯克也沒忘記再次提起AI和所有事物一樣需要被監管。重提幾個星期前和眾多技術大佬吵得沸沸揚揚的舊梗,讓不少人懷疑這是為了媒體炒作吸引眼球。
前谷歌大腦和斯坦福研究員Denny Britz就這件事發表了自己的看法:
「這是一個令人讚歎的成就,但也不是媒體想讓你相信的AI大突破。」
「過度炒作AI進展真的是危險的,Elon Musk的推特會誤導大家。」
Denny Britz相對客觀的羅列了這件事的成就和浮誇之處,以下是全文的編譯:
當我看到今天OpenAI的DOTA2機器人在國際(The International)電競大賽上擊敗人類玩家的消息時,我興奮得跳起來。
該錦標賽的獎金池超過了二千四百萬美元,作為一名電競運動迷,我雖然從來沒有玩過DOTA 2,但是我經常在線上觀看其他電競比賽,高中時還是半專業選手。但更重要的是,像DOTA這樣的多人在線戰術競技遊戲(MOBA),以及「星際爭霸2」這樣的實時戰略(RTS)遊戲,被視為超越了當前人工智慧技術的能力。這些遊戲需要長期的戰略決策,多人合作,並且相比AI技術在過去幾十年中「解決」了的國際象棋,圍棋或撲克類遊戲,具有明顯更複雜的狀態和動作空間。 DeepMind已經在星際爭霸2上工作了一段時間,幾天前發布了他們的研究環境。到目前為止,研究人員還沒有取得重大突破。據認為,我們仍需要至少1 - 2年才能在星際爭霸2上打敗人類。
這就是為什麼OpenAI今天這條消息如此令人震驚。 怎麼會這樣呢? 難道我錯過了最近AI發展的重大突破? 當我開始更多地了解DOTA 2機器人正在做什麼,它是如何訓練的,以及它的遊戲環境後,我得出的結論是,這是一個令人讚歎的成就,但也不是媒體想讓你相信的AI大突破。
本文的目的是: 對於哪些才是真正的新東西,我願意提供一個理性清醒的解釋。過度炒作AI進展真的是危險的,比如Elon Musk昨天誤導人的推特(參見文章開頭的截屏)。
首先我要說明,炒作或不正確的假設並非OpenAI研究人員的錯誤, OpenAI傳統上一向對其研究貢獻的局限性非常直觀明了,我相信在他們今天也一如既往。 OpenAI還沒有公布他們方案的技術細節,所以對於外行而言,很容易就得出錯誤的結論。
我們先來看看DOTA 2機器人解決的問題實際上有多困難。跟AlphaGo相比怎麼樣?
- 1對1與5對5是沒有可比性的。在DOTA 2的一個基本遊戲中,一隊5名選手對陣另外5人。這些遊戲需要高級戰略制定,團隊溝通和合作,通常需要45分鐘左右的時間。而1對1的遊戲受到更多限制,兩名選手基本上沿著單線行駛,並試圖殺死對方,通常在數分鐘內結束。在1對1中擊敗對手需要機械技能和短期戰術,但沒有任何對當前的AI技術來說具有挑戰性的需求,如長期規劃或團隊協調。事實上,你需要採取的有效操作數量少於圍棋遊戲。有效的狀態空間(玩家對遊戲中當前局面的掌控),如果以比較聰明的方式表示,應該比圍棋還要小。
- 機器人可以訪問更多信息:OpenAI機器人(很可能)構建在遊戲機器人API之上,可以訪問人類無法訪問的各種信息。即使OpenAI研究人員限制其訪問某些類型的信息,機器人仍然可以訪問比人類更準確的信息。例如,某項技能只能在一定範圍內擊中對手,而人類玩家必須觀看屏幕並且估計當前與對手的距離,這需要練習。機器人知道確切的距離,並可立即決定是否使用技能。獲得各種精確的數字信息是一個很大的優勢。事實上,在遊戲過程中,可以看到機器人數次在最大距離上使用技能。
- 反應時間:機器人可以立即反應,人類卻不能。再加上上述的信息優勢,這是另一大優勢。例如,一旦對手超出特定技能範圍,機器人可以立即取消某項技能的使用。
- 學習使用一個特定的角色:遊戲中有100個不同的角色,具有不同的天賦能力和優勢。機器人學習玩的唯一的角色是Shadow Fiend,通常會立即進行攻擊(而不是在一段時間內持續的更複雜的技能),作為機器人,得益於信息優勢和快速的反應時間。
鑒於1對1主要是機械技能的遊戲,AI擊敗人類玩家並不奇怪。對OpenAI而言,由於環境受到嚴格限制,(很大可能)可用的操作也受到限制,而且很少或者完全沒有進行長期規劃或協調的需要,我得出的結論是,這個問題實際上比擊敗人類圍棋冠軍容易得多。我們並沒有在AI中突然進步。它的成功,是因為我們的研究人員用正確的方式,聰明地設置了需解決的問題,把當前技術用到極致。據說機器人的訓練時間大概是2周左右,也說明真相確實如此。 AlphaGo需要在Google的GPU集群上進行數月高強度的大規模培訓。從那以後我們取得了一些研究進展,但並沒有將計算要求降低一個數量級。
現在,批評夠多啦。新聞炒作可能有點過度,但不妨礙這次人機大戰的勝利依然很酷的事實。顯然,大量具有挑戰性的工程和合作建設才實現這一切。下面這次DOTA機器人很厲害的地方:
- 完全通過自我訓練:這個機器人不需要任何訓練數據,它也不會從人類的演示中學習。它完全隨機開始,並且不斷地跟自己對練。雖然這種技術並不是什麼新鮮事物,但令人驚訝的是(至少對我來說),機器人自己就學習到了人們使用的技術,如Reddit和Ycombinator上評論中所提出的。我不太了解DOTA 2,所以無法判斷這一點,但是我覺得非常酷。機器人可能還有其他人類不知道的技術。這與我們在AlphaGo中看到的類似,人類玩家開始從其非常規的動作中學習,並調整了自己的遊戲方式。(有興趣的讀者可以閱讀這兩個論壇的討論: https://news.ycombinator.com/item?id=14996448和https://www.reddit.com/r/MachineLearning/comments/6t58ks/n_openai_bot_beat_best_dota_2_players_in_1v1_at/dli3zpp/)
- AI +電競需要邁出的一大步:在具有挑戰性的環境(如DOTA 2和Starcraft 2)上來測試新的AI技術非常重要。如果我們可以說服電子競技社區和遊戲發行商,我們可以通過將AI技術應用於遊戲來提供價值,我們可以期待得到大力支持,這會加速AI進展。
- 部分可觀察的環境:雖然OpenAI研究人員如何用API處理這個問題的細節尚不清楚,但是人類玩家只會看到屏幕上的內容,並且可能在視角上會有一些限制,比如上坡下坡的樹林陰影。 這意味著,與圍棋或象棋或Atari(更像撲克)這樣的遊戲不同,我們處於部分可觀察的環境中 - 我們無法訪問有關當前遊戲狀態的完整信息。 這些問題通常難以解決,是急需更多進展的研究領域。 話雖如此,目前還不清楚1v1 DOTA2比賽的部分可觀察性是多麼重要 - 這裡也沒有太多可以策劃的。
所有這些中,最重要的是,我非常期待可以看到OpenAI的技術報告,看看他們到底是怎麼搭建這個系統的。
參考文章:http://www.wildml.com/2017/08/hype-or-not-some-perspective-on-openais-dota-2-bot/
推薦閱讀:
※沒邊沒譜,阿爾法羅密歐有能力談國產嗎?
※圍棋比賽將成為人工智慧「奧運會」的雛形
※AlphaZero實戰:從零學下五子棋(附代碼)
※一張圖看懂AlphaGo Zero
※人機大戰柯潔勝算不到一成,AlphaGo 身後的 TPU 殺傷力究竟有多強大?
TAG:伊隆·马斯克ElonMusk | Dota2Lounge | AlphaGo |