曾經的《星際爭霸》世界頂級高手，如今正領導人工智慧征服人類玩家

01-28

本文由【AI前線】原創，原文鏈接：http://t.cn/RTnmxxF

作者 | EmTech CHINA

編輯 | Emily

星際爭霸（StarCraft）、頂尖電競玩家、人工智慧、 Google ，這四個詞是 Oriol Vinyals 人生的關鍵字。

Oriol Vinyals 是誰？或許有些人對他感到陌生，但有一群人很早就聽過他的大名，年少時，他曾是西班牙《星際爭霸》遊戲排名第一的電競高手，你使用的 Google Gmail、圖像識別服務也有出自於他寫下的程序，他還弄過一個 AI 機器人，可以跟你暢談什麼是人生的意義，去年他還拿下 MIT TR35 大獎、名列全球 35 位最具創新力年輕人之一。

現在，他是 Google 旗下人工智慧公司 DeepMind 的研究科學家，他讓遊戲世界變成 AI 機器人的修道場，準備讓 AI 再次痛宰人類高手。這是繼 AlphaGo 之後，人工智慧發展的關鍵時刻之一。

圖 | Oriol Vinyals

AlphaGo 擊敗人類棋王，在圍棋界建下一道難以征服高牆之後， DeepMind 又向另一個領域下了戰帖，那就是遊戲。選中了在電玩界備受玩家歡迎及推崇的《星際爭霸》作為 AI 訓練的環境。

《星際爭霸》是暴雪娛樂在 1998 年推出的遊戲，當年售出 150 萬套，並且成為電競領域的先驅遊戲，10 年內總銷售量則超過 950 萬套，到了 2010 年發行《星海爭霸 II》， 48 小時內就賣出 150 萬套，打破了戰略類遊戲的銷售記錄。劇情時空設定在 26 世紀，由三個種族包括地球人後裔人族 Terran、蟲族 Zerg、神族 Protoss，以在銀河系中心爭奪霸權，揭開遊戲的序幕。

去年底，遊戲界盛會 BlizzCon 2016 上，美國電子遊戲商暴雪娛樂（Blizzard Entertainment）宣布與 DeepMind 合作，讓 AI 在《星際爭霸 II》遊戲環境里進行特訓，協助人工智慧研究發展，這項消息振奮了全球玩家及 AI 研究者的心。

消息一經公布之後，Oriol Vinyals 立刻在他的 Twitter 寫下：「《星際爭霸》又回到我的生活了」。

從電競高手變成人工智慧專家沒錯，就像多數男孩小時候都有段深深被電玩所吸引的時光，出生巴塞隆那的 Oriol Vinyals 也一樣，他 15 歲開始玩《星際爭霸》，還打出超強成績，成為一度在西班牙排名第一、全歐洲排名第十六的知名電競玩家，不過他並沒有像多數高手一樣走向職業電競選手之路，反而選擇投身計算機研究領域。

「我深深對遊戲中的人工智慧問題感到著迷。」他說。從此展開了從電競高手醞釀變身為 AI 專家的過程。

他從西班牙的加泰隆尼亞理工大學（University of Catalonia）完成電信工程及數學雙學位之後，前往美國進修，在卡內基梅隆大學機器人學院完成了機器學習和電腦視覺的學位論文（undergrad thesis），接著又到加州大學聖地牙哥分校，取得計算機科學及工程（Computer Science and Engineering）碩士學位，2009 年則進入加州大學伯克利分校（UC Berkeley）攻讀電機及電腦科學（Electrical Engineering & Computer Science）博士，他也參與了伯克利的 Overmind 計劃。圖：Oriol Vinyals 在 twitter 留言：「《星際爭霸》又回到我的生活了」。

Berkeley Overmind 在遊戲 AI 領域相當知名， Overmind 其實就是取名於《星際爭霸》遊戲中蟲族的「主宰」（Overmind）角色。這項專案深入研究利用各種 AI 計算技術，找出該採取什麼樣的步驟及策略以贏得比賽，簡單來說，就是開發一個懂得如何攻打即時戰略（real time strategy）遊戲的 AI 機器人。在 2010 年的人工智慧和互動數字娛樂（AIIDE）大會上，首次舉辦了星際爭霸 AI 比賽（Starcraft AI Competition），在完整遊戲模式類別， Overmind 拿下了冠軍，一戰成名。

他讓 Google 的相冊應用「讀」出照片內容之後 Oriol Vinyals 進入了 Google AI 團隊，負責為翻譯系統打造新的技術，「我就是想知道電腦是否可以精準的描述一張圖像，從像素到解釋，這也是一種翻譯的形式。」 Oriol Vinyals 說。就是基於這個內心的想法，他更動了一行代碼，把自己寫的圖像程序取代了先前的法文翻譯程序。

隔天，他向電腦秀了一張場景是熱鬧市集的圖像，攤位旁邊的地上放了很多香蕉。令人驚喜的結果出現了，程序寫著：「一群人在市場買水果」。「成功了！它不是只說人站在街上。」 Oriol Vinyals 還清楚記得當下的興奮心情。這代表的是，機器可以閱讀複雜的圖片，現在這項技術被應用在 Google 圖像搜尋服務里，當用戶輸入關鍵字時，系統就會開始去「讀」圖像，呈現出結果來。

另外，幾乎每個人都會使用的 Gmail ，同樣有他的心血在裡頭，「智能回復」功能就是其一，系統會針對郵件內容，自動給出三個建議的簡短回復，用戶在忙碌的時候選按一下，系統就會自動幫你回信。

2015 年， Google 研究團隊發表了一篇論文，他們透過電影對白來訓練的聊天機器人（chatbot）居然能跟人類談論抽象的人生議題。一開始研究人員問了一些簡單的問題，例如我的 VPN 連不上等 IT 問題，機器就像是一個專業的 IT 人員，工作得恰如其分，但接著問它「生命的意義是什麼」、「活著的目的是什麼」等形而上的問題，機器分別說：「追求最大的美好」、「為了永生」...... 等。對話讓人從感覺從有趣變成了有點恐懼。而這個 chatbot 的開發者就是 Oriol Vinyals 和他的同事 Quoc V. Le 。圖：聊天機器人和人對談生命的意義。圖片來源：Wired

遊戲比圍棋更貼近真實世界的複雜及混亂在 Google Brain 開發多項被實際應用的服務之後， Oriol Vinyals 在去年一月加入 DeepMind ，挑戰比下圍棋還難的人工智慧—教電腦打電玩，不靠輸入死板的編碼規則，而是只讓電腦透過經驗自主學習，用來訓練機器的遊戲環境就是 Oriol Vinyals 最擅長的星際爭霸。

今年八月 DeepMind 和暴雪娛發布了了《星海爭霸 II》用於訓練 AI 的工具，包含機器學習應用程序介面（API）、多達 65,000 場《星海爭霸 II》電競比賽的影像、以及開源工具等，後續每月還會增加比賽影片，讓 AI 學習人類玩家的戰術，他們也把特定遊戲元素拆為迷你遊戲，例如地圖探索、資源收集等，幫助 AI 訓練特定技能。

之所以選擇《星際爭霸 II》，除了遊戲本身的高人氣之外，最重要的原因就是內容的複雜性，有三個特點，分別是資訊不完整、資源管理、即時性。

在圍棋比賽中，選手所觀察的範圍完全只在那一塊版子上，所以 AI 機器人思考的決策尺度在數百步之內。可是，遊戲的困難度高出太多，特別是即時戰略遊戲，玩家必須展開長時間尺度的綜合性策略，而且玩家只能在自己的單位範圍內看到地圖，無法同時看到整個比賽場景，也就是資訊不完整的環境，必須靠記憶來記得對手的訊息，但遊戲進行的同時，對手也在玩，訊息是變動性而非永久不變的，也考驗玩家根據新訊息來調整計劃的能力。

再加上，遊戲涉及採集資源、生產兵力等經濟規劃，考驗玩家長遠的謀略力及技巧，因此被視為是 AI 訓練的最佳場域，一但突破， AI 發展將來到一個新的里程碑。

DeepMind 指出，星際爭霸的高維度行動空間（high-dimensional action space）跟過往在強化學習（reinforcement learning）的研究有很大的不同，像是，當玩家只是做一些簡單任務，例如把基地擴展到某個位置時，必須協調滑鼠點擊（mouse clicks）、攝像頭和可用資源才能達成，是有層次的行動和計劃，這對強化學習相當具有挑戰性。

不過，就像 AlphaGo 在打敗人類棋王之前，許多人不認為機器會獲勝，但也有人覺得機器勝算大，現在在遊戲領域也有分歧的看法，「我不認為 AI 可以打敗職業玩家，至少在我有生之前看不到。」拿下 2016 年《星際爭霸 2》 WCS 世界錦標賽冠軍的韓國電競高手 Byun Hyun Woo ，先前接受麻省理工科技評論專訪時這麼說。他進一步解釋，星際爭霸屬於即時戰略遊戲，必須對許多不確定性和變因做出很快的反應，但 AI 似乎仍不擅長應對意想不到的狀況，另一個原因則是長期策略，「要打造一個能同時擅長做短期跟長期決策的 AI 太難了。」

另一派人則認為機器或許有勝算，曾經是世界最強的蟲族選手、紀錄片《電競高手 State of Play》主題人物之一的李帝東（LEE Jae-dong）則認為， AI 或許有機會能打贏人類，因為電腦不會感到疲累，速度也能比人類快得多。在星際爭霸中，玩家敲按鍵盤、點擊滑鼠的每分鐘動作（Actions Per Minute，APM）速度是關鍵。頂尖玩家一分鐘可以下達數百個指令， AI 則可做到數萬個，這就是機器的優勢。

但先放下究竟是機器勝還是人類贏的問題，回到人工智慧研究上，以遊戲來訓練 AI 「這件事需要有創新的戰略、記憶以及處理不確定性問題的能力，這無疑是一個大躍進」 Oriol Vinyals 說。

他解釋，以記憶為例，這項技能可以應用在多種的環境，例如資料中心的電腦，當機器看到星期天用電總是比較高，它就會記得下一個周日也會有同樣的狀況，有助於執行資料中心的用電管理或是節電設計。

Oriol Vinyals 曾經表示：「要打敗人類職業選手，還有很長的路要走。」不過，這個說法可能不適用。

今年八月， Tesla CEO Elon Musk 創立的人工智慧非營利組織 OpenAI 就完成一項壯舉，在一場電競表現賽中以一對一的方式擊敗《Dota 2》的職業選手 Dendi，震撼電競圈。

過去， Berkeley Overmind 研究人員在訓練 AI 時，就曾經讓 AI 機器人跟 Oriol Vinyals 對打，當時，儘管他已是世界級實力的高手，也曾經敗在 Overmind AI 之下，媒體還曾以「 Overmind 戰勝專業玩家」作為報導標題。現在， Oriol Vinyals 成為訓練 DeepMind 遊戲 AI 的主要科學家，看來不久之後就會給星際爭霸的電競高手來場震撼教育。

很快，國內科技與遊戲愛好者將有機會一睹試圖顛覆玩家信心的人工智慧專家 Oriol Vinyals 的真容。

他將作為演講嘉賓出席 2018 年 1 月 28-30 日舉辦的 EmTech China 全球新興科技峰會，這也是由《麻省理工科技評論》在全球舉辦了超過 18 年的 EmTech 新興科技峰會首次落地中國。

本次 EmTech 全球新興科技峰會來到中國，不僅將延續大會《麻省理工科技評論》全球性大會的風格與傳統，更將與中國科技與市場發展情況相結合，成為中美新興科技領域交流的橋樑。

AI 前線作為 EmTech 全球新興科技峰的戰略合作媒體，將一起報道本次大會，並為人工智慧相關主題提供官網直播服務。

關注我們的微信號"AI前線"，後台回復「AI」可獲得《AI前線》系列PDF電子書