打敗DOTA2頂級人類玩家，馬斯克的機器人到底強在哪？

01-29

文 | 草原騎士

來源 | 智能相對論（aixdlun）

最近AI圈發生了兩件大事。第一件是DeepMind、Facebook等AI巨頭對《星際爭霸》研究興趣濃厚，公開發布研究工具和數據；第二件是Open AI的機器人在Dota2比賽中戰勝了人類頂級職業玩家。至此，繼橫掃人類國際象棋大師和圍棋大師後，人工智慧如今又將風靡全球的電子競技遊戲Dota2攻陷。可以預見，在很短的將來，萬眾矚目的《王者榮耀》頂級玩家，也會被人工智慧打敗。

DeepMind等公司已經在《星際爭霸》上研究了一段時間，但目前為止，根據前不久剛剛發布的最新進展，相關研究還沒有取得重大突破。

倒是Open AI公司打敗DOTA人類頂級職業玩家，率先取得令人興奮的成就，一躍成為AI圈中的熱點。

回顧賽事，Open AI公司的機器人表現可以說是非常「強悍」，出手「快」、「准」、「狠」，手法嫻熟，不僅會卡兵、補刀，還會取消掉技能抬手，而且具有強烈的攻擊性，連續兩局狂虐Dendi。

OpenAI的工程師表示，他們對機器人訓練了2周，就獲得了足以擊敗全球最佳Dota 2專業玩家的能力。伊隆·馬斯克看了戰況之後，抑制不住內心激動，在推特上公開宣稱：OpenAI搞出了史上首個擊敗電子競技頂級玩家的人工智慧。這比搞國際象棋和圍棋什麼的複雜多了。

這次打敗DOTA人類選手比賽的難度究竟有多大？

雖然OpenAI公司沒有公布更多細節，不過，我們可以根據已有的信息進行客觀評價。

1、屬於多人在線戰術競技遊戲（MOBA）中的單人模式。這次是在中路進行影魔的SOLO對決，屬於1V1遭遇戰模式，需要戰爭迷霧隱藏的信息較少，與5V5模式在難度上還有較大差距。正常的DOTA 2遊戲中，2支對抗隊伍各由5名玩家組成，遊戲過程中需要隨時調整作戰策略、需要大量的團隊溝通和協調，任意一名玩家都可以隨時根據戰況，召喚其他隊友組織支援、抓捕或埋伏，突發情況多、對抗較為激烈，相互配合和節奏的把握非常重要，比賽時長通常要45分鐘。

在1v1模式中，擊敗對手主要靠機械技能和短期策略，並不涉及長期規劃和協調，而後者才是對當前AI技術來說最具挑戰性的部分。因此，OpenAI計劃在明年推出可以進行5V5協同作戰的更高智能的機器人。

2、相比圍棋，DOTA對戰中機器人的反應時間佔據優勢。AlphaGo和柯潔對戰時，雙方時間都是3小時，時間的增加，有利於人類棋手發揮。實際上，時間長短對於AlphaGo來說並不重要，因為它每一步棋的決策時間最多只需10秒。這次DOTA對戰則不同，人類選手直面機器人，需要幾乎在一瞬間大致估計出與對手之間的距離，是否進行攻擊、是否值得背水一戰，再通過神經系統發出信號控制雙手操縱滑鼠和鍵盤，這一連串的動作需要耗費大量時間。OpenAI機器人可以獲得精準的對手位置、技能冷卻時間信息，並迅速計算出準確的攻擊時間節點，確保將對手一擊致命。仔細觀察對戰過程，你可以看到，機器人有幾次攻擊都是在最大距離上展開，最後在短短10分鐘贏得對戰。

為何馬斯克對機器人的這次成功這麼看重？

「自我對局」（Self-play）的理念是OpenAI研發的關鍵。OpenAI的機器人整個學習過程隨機開始，並且通過和自己對抗進行學習。OpenAI的CTO Greg Brockman介紹，技術人員通過神經網路對機器人進行了數千次的自我對局進行訓練。自我對局的參與人選擇針對其對手的平均行為的最佳反應。因此，OpenAI研發的機器人，可以從完全的隨機狀態一步步發展到如今的世界頂級水平。雖然這並不是最新最前沿的理論，但令人的震驚的是，機器人學會了人類玩家已經在使用的技術，並吸收為自己所用，並用來打敗人類玩家。

谷歌公司開發的AlphaGo在打敗了人類頂級選手李世石、柯潔之後，宣布永久退出圍棋比賽。同樣，OpenAI公司開發這樣一個機器人，並不是為了打敗DOTA人類職業玩家這麼簡單。

自主學習遊戲規則，通過自我對局進行訓練，能夠掌握複雜視頻遊戲的機器人可以有其他更廣闊的用途。最直接的例子是，圍棋選手已經開始學習AlphaGo機器人的下棋方式。同樣，一些DOTA遊戲玩家開始利用OpenAI公司機器人進行日常訓練。智能機器人可以為遊戲娛樂產業提供更多價值，遊戲娛樂也會助推人工智慧技術快速發展。

AI公司的目標：建立更加通用的智能系統

顯然，OpenAI公司的雄心不止於此，「我們所建立的是一個普遍的學習系統，儘管它在很多方面仍然受到限制，但它仍然能擊敗最優秀的人類專家，」Brockman說，「這是朝著向建立更通用的系統邁出的關鍵一步，它可以學習真正複雜的、重要的現實世界裡的任務，比如做一名外科醫生。」

不僅在電子競技、醫療領域，OpenAI公司的這項技術在家政服務機器人領域和軍用機器人領域可能會發揮更大的價值。

最近人民網報道，有網友買掃地機器人後淚崩，彷彿買了一個智障，肆意展示各種蠢萌技能：掃地2年了，每天都會在在盥洗室地攤上被卡住，在沙發拐角上被卡住，在各種意想不到的角度上被卡住，和各種桌子腿過不去。目前在售的這類掃地機器人有一個救命技能，被卡住了就發求救信號，讓人把它搬出來，感覺它的主業不是打掃衛生，而是負責搞笑賣萌。

可以預見，採用「自我對局」（Self-play）理念來提升掃地機器人的學習能力，可以在隨機探索整個室內環境的過程中，通過和自己、和家庭環境進行對抗學習，不斷提升對整體環境的感知應對能力，最終達到人類保潔水平。進行更大強度的訓練，甚至可以成為一個頂級的家庭衛生保潔員，避免因為被卡住頻頻向人類求助的窘迫，成為真正意義上的智能家居產品。

在軍用領域，「自我對局」（Self-play）的設計理念同樣大有可為。2015年9月，美國海軍陸戰隊開始測試谷歌旗下機器人公司波士頓動力開發出的新一代機械狗Spot，而這款機械狗的「前輩」BigDog早就在2014年在夏威夷投入使用了。

這隻機器狗只是被看成是可以執行偵察和搜索任務軍犬的替代品。準確來說，這不僅僅是一條軍犬，進行深度改造後，可以變為一個可以在戰區和災區提供導航，執行搜索任務，排查建築物危險，裝備上武器就可以作戰的超級士兵。

同樣是激烈的對戰環境，在DOTA2中可以迅速準確評估戰況、動作靈活、攻擊性強的OpenAI公司機器人給我們展示了其強大的學習、超越能力，借鑒和改進機器人背後的通用學習系統，用來提升軍用機器人的學習能力、偵查作戰能力，對於保存軍隊有生力量具有重要意義。

創辦特斯拉公司大獲成功的矽谷奇才伊隆·馬斯克，可能正是看中了這項技術蘊含的潛在巨大商業價值而興奮不已。

智能相對論（微信id:aixdlun）：2個前人工智慧行業管理諮詢老鳥+1個老媒體人組成的三人幫，深挖人工智慧這口井，評出鹹淡，講出黑白，道出深淺。