最後的防線:目前AI還難以戰勝我們的遊戲
Master在圍棋界大殺四方時,很多朋友不禁大呼人工智慧不可戰勝。事實果真如此嗎?本文將試圖從專業的角度分析,目前還有哪些遊戲,人工智慧依舊可望而不可及。
作者:Quinn
2016年的暴雪嘉年華開幕式上,暴雪宣布與谷歌DeepMind(即Alpha Go的創造者)合作,嘗試開發新一代的人工智慧,在《星際爭霸2》中與人類對陣。一石激起千層浪,在圍棋界出盡風頭的人工智慧,似乎對目前最經典的RTS系列志在必得。谷歌尚未給這位襁褓中的天才星際選手命名,我們暫且戲謔的稱呼它為「Alpha SC」。人們最關注的問題是,「Alpha SC」是否可以在電子競技再續輝煌?
答案是,非常可能。
Oriol Vinyals,谷歌搜索科學家,於暴雪嘉年華宣布DeepMind將挑戰《星際爭霸2》
難道人類,作為地球上的高等智能生物,在自己的造物面前只能節節敗退,毫無還手之力?那倒不一定。如何打敗Alpha Go,還得先從它的原理說起。相比較國際象棋,圍棋的策略廣度與深度,令其一度被噱頭媒體封為「計算機無法戰勝的遊戲」。即使是專業的計算機學家,也曾認為在2035年之前AI無法拿下圍棋。
然而阿法狗是如何做到的?簡單來說,傳統的圍棋程序靠一個「傻子」瞎猜,例如猜一萬次,每次亂走三步(腦海中假設對手也是亂走的),最後在這一萬次里選擇結果最好的那一步。聽起來很傻是不是?然而阿法狗之前的圍棋程序就是這麼玩圍棋的。阿法狗的聰明之處在於,額外增加了三個人,我們姑且稱呼它們為「智者」、「評論家」和「瘋子」。
集「智者」、「評論家」、「瘋子」於一體的藤原佐為
「智者」學習數萬張高水平棋譜後,告訴傻子,「嗨,兄弟,根據我學習的經驗。你在腦海中推演的時候別亂走,試試走這幾步,對手也不是亂走的,他可能走這、這幾步。」假設傻子打算試一萬次,每次在「智者」的指導下能少走三步,其效率就遠比自己瞎蒙要高。另外,每推演一次,同樣學習了棋譜的「評論家」便會根據推演完的場面給一個分數。推演全部完成後,傻子會在實際棋局中走出評分最高的那一步。看起來很完美是不是?目前截止,計算機做的所有事情全部是基於學習,然而光靠學習是無法打敗師傅的。於是我們引入了「瘋子」。「瘋子」熱愛與自己下棋,於是常常在「智者」的指導下與自己玩的不亦樂乎。每同自己完成一把比賽,「瘋子」便會告訴「智者」:「你指導的黑子贏了,以後多用這些套路。指導的白子輸了,以後少用。」在這種類似叢林法則的弱肉強食中,人類的招式經歷了精鍊與變形,令Alpha Go在不斷進步中擁有了戰勝人類的資本。在當時Master的60場比賽中,AI怪招頻出,就要感謝這個「瘋子」。
圖片來源Pixiv(id=55831129,作者:MusyneXSK)
不得不說DeepMind在選擇遊戲上是相當聰明的。既然知道了阿法狗的原理,再來看看人類在《星際爭霸2》中為何毫無勝算。
1、APM,電子遊戲作為AI的主場,它的優勢無疑是巨大的。接近無限的APM讓其戰勝人類變得異乎簡單。暴雪曾經製作出一個擁有一萬APM的AI,甚至可以用100隻小狗全殲20輛攻城坦克,而同樣的情況下,職業玩家只能做到1-2輛。強大的微操能力讓計算機可以輕易打贏數倍於己的人類玩家。雖然谷歌答應會對APM進行限制,然而限制多少,一分鐘一次點擊?還是三百,一千?從某種程度上來說AI已經贏了,區別只是,谷歌爸爸讓不讓他贏。
2、《星際爭霸2》在開始接觸敵人前,變數不大,相對計算機來說不難學習。起建築、造兵、開分礦。規律性較強。這部分降低了決策深度。
3、隨機情況較少,局部全局最優解的分布較集中,讓「智者」更容易給出最優答案。
4、對局記錄豐富,易於計算機學習。
《星際爭霸2》目前2000APM的AI,可以讓100隻小狗瞬間散成一圈
存在人工智慧hold不住的遊戲嗎?
要找出電腦無法hold住的遊戲,首先得明白「何種特質」的遊戲難以被阿法狗掌握。
1、首先我們排除需要反應力、APM、點擊精準度的遊戲。即時策略、FPS、格鬥類、MOBA類都可以排除。這些是計算機的絕對強項,其反應速度是人類的上百倍,點擊精確度甚至可以精確到像素,躲技能的判斷更是精確到毫秒,人類毫無勝算。
2、決策的深度和廣度都必須保證。這一點為難了「傻子」。假設有一百個坑,只有一個裝了蘿蔔。原本「傻子」試五十個坑就有大概率找到蘿蔔,現在把坑增加到一萬個,「傻子」只有傻眼了,要麼它增加嘗試的次數,要麼只能降低找到正確坑的概率。
3、遊戲最好具有一定的隨機性。打個比較極端的例子,如果我們和計算機玩猜拳,贏電腦其實相當簡單。因為完全隨機讓最優解的分布分散了,換句話說,每一個決定都是三分之一的勝率,機器無法學習到對自己最優的方案。當在遊戲中加入較多的隨機因素後,「智者」更難找到最佳策略。同樣,「瘋子」的效率也降低了——它左手贏,可能只是因為運氣好而已,而事實上右手才是最佳策略,卻因運氣輸掉了遊戲,導致瘋子更難判定左右手的優劣。
4、每一局遊戲差異性越大,越不利於計算機學習。回到《星際爭霸》,假設我們有一千個種族,幾乎每一把職業比賽對決,都是不同種族之間的對決。對職業選手來說,大致想一下對方可能用的策略,便能從容比賽。而對於計算機來說,每一種種族間的比賽都只有1-2個樣本可以學習,現在輪到「智者」和「評論家」蛋疼了。學習樣本不夠,每次「傻子」來問問題,見識短淺的「智者」只能亂給一個答案,而「評論家」打起分來,也彷彿TGA評委附體。現場根本控制不住。
5、即時性。由於「傻子」推演,「評論家」評分,「智者」思索對策都需要時間。當時間不夠時,原本準備推演一萬次的「傻子」,只能推演五千次遍要草草做決定。決策的質量自然是要打個折扣。
結合以上四點,幾款遊戲便呼之欲出了。
1、爐石傳說
《爐石傳說》相較於萬智牌,擁有較高的隨機性,蒙特卡洛搜索樹的反饋難以讓決策收斂於局部最優解。同時每一局的差異性巨大,讓同樣的對局不可能發生兩次,也加大了計算機的學習難度。另外如果把組牌也算成遊戲過程的話,創新牌組對於阿法狗來說幾乎不可能。它的自學習網路難以應付如此龐大的組牌可能性,尤其是在對局擁有如此多的隨機因素的情況下。即使它克服了全部的困難,由於對方的牌組未知,它依舊難以評估最應該打的牌。同時回合制也讓它最擅長的微操毫無用武之處。
《歐陸風雲》、《維多利亞》、《十字軍之王》系列
P社四萌中的三款。為什麼唯獨不包括《鋼鐵雄心》,因為《鋼鐵雄心》簡化了經濟與外交,專註於戰鬥系統。首先需要考慮的面就窄了很多,其次戰鬥系統對微操的依賴給了計算機相當大的優勢,可能在策略上處於弱勢,但計算機依舊可以用微操扳回劣勢。
而《歐陸風雲》、《維多利亞》、《十字軍之王》系列,雖然複雜度各有高低,但涵蓋面廣,支系統複雜,各個系統之間相互作用說不清道不明,牽一髮而動全身,對於計算機來說想要計算每一個決策的分值,將會相當困難。另外狀態繁多,輸入哪些數值給計算機用作決策參考,對於DeepMind來說也是相當複雜。並列為最不可能被計算機掌握的遊戲之一。
《R.U.S.E》
育碧發行的即時戰略遊戲,也是上榜的唯一一款RTS。正如育碧宣傳的,《R.U.S.E》故意簡化了操作,讓玩家可以從繁瑣的微操中解脫出來,而專註於大局策略。遊戲中,玩家可以將部隊隱藏在樹林中、或城市裡。一旦成功組織一次埋伏,數倍於己的軍隊也將頃刻被消滅。另外遊戲加了計策系統,例如無線電靜默,可以讓該區域無法被對方看到。間諜網則反過來,揭示該區域部隊一段時間。
有的計策還可以組織木製坦克,來一次佯攻。甚至可以起假基地,誘騙電腦進攻。眾所周知,計算機是相當好騙的。只要偽裝的足夠像,阿法狗也會真假難辨,進而落入玩家精心編織的陷阱。一場蓄謀已久的決戰,便可一錘定音。
《坦克世界》
《坦克世界》勝在每局的差異性,和過高的決策寬度,複雜且瞬息萬變的戰場態勢,以及對微操的低依賴性。每一局都完全不一樣的敵我陣容,以及多達上百輛自己可能使用的坦克,讓學習異常困難。另外花樣百出的敵我坦克站在各個不同的地方都會對決策產生影響,戰場還是瞬息萬變的,這對阿法狗來說,根本不可能在短時間內完成如此複雜的決策。同樣的,遊戲對微操依賴性不強,APM上萬依舊然並卵。
《魔獸世界:軍團再臨》
相比較其他RPG,《魔獸世界》實在是太龐大了,系統十分的複雜。即使現有機器學習演算法已經可以理解NPC對話與劇情中的基本關係,但是龐大的背景和複雜的系統,依舊讓AI無所適從。
計算機除了可以在PvP戰勝人類外,無法順利遊玩絕大部分WoW內容。我相信若有一天計算機征服了WoW,那麼可以在真實社會學習、生活,處理複雜難題的機器人也指日可待了(當然,這個時候還是把機器人的「PvP」系統刪掉比較好)。
《五星上將》系列
該系列了解的童鞋可能不多,代表作為《裝甲元帥》系列。遊戲模擬了某一時期的戰場,特點是囊括了該時期上百種大量武器裝備,上至各類戰機,下至架橋工程部隊無所不包,是軍事迷必玩的遊戲。每種單位的屬性多達21種,地形也會對戰場產生各種影響,天氣也讓戰局充滿著不確定性——例如下雨後地面會變得泥濘,這對步行單位來說將是場災難。
複雜的地形、單位,以及不確定的天氣,讓這款遊戲相當真實地模擬了戰場環境,也讓計算機難以應付如此複雜的情況。另外不得不提的是,《五星上將》另一部作品,《人民的將軍》的主角便是中國,玩家可以指揮諸如99式主戰坦克、武直9、85榴這樣的國產武器,在虛擬的棋盤上與世界各國來一場頗具真實感的較量。
在《人民的將軍》中,玩家可以操控ZTZ85、ZTZ99等等遊戲中並不常見的我軍裝備
推理類遊戲(例如《逆轉裁判》、《彈丸論破》系列)
很多推理對人類來說相當簡單,對計算機來說卻是極其困難的。自然語言學習已經可以提煉出人類話語中基本的邏輯(譬如我前面說的那句話,在計算機看來便是「人類-推理-簡單,計算機-推理-難」),要找出遊戲中的邏輯漏洞,經常需要人類生活中方方面面的常識——藝術、社會等等。
關於自然語言中命題邏輯的推理,目前也鮮有看見這方面的科研成果。此類遊戲,以人類目前公開的知識水平,計算機只有用窮舉法來通關,即點擊每一個可能的對話選項,調查地圖上每一個地點。顯然的,通關速度將明顯慢於人類。
《無盡傳奇》&《太空帝國4》
兩款4X遊戲很相似,因此拿到一塊來說。極豐富的內容,近乎無窮的狀態變數,還有非常高的隨機性,花樣百出的任務,近乎無限的科技搭配,眼花繚亂的種族,功能各異的幾十種兵種,更別提這些兵種還能自由搭配裝備。種種這些,甚至直接讓這兩款遊戲無法被計算機學習。
玩家常常抱怨《無盡傳奇》的AI太傻。至於《太空帝國》這邊,AI唯一技能就是到處亂竄,在銀河系中示範近乎完美的布朗運動。對此我想說製作組真的儘力了,即使是阿法狗來做這遊戲的AI,智商多半還不如現有的傳統AI。況且內容如此豐富的遊戲,即使只有自己一個人玩,也可以樂趣無窮,不是嗎?
上述說的幾款遊戲,除非計算機性能出現爆炸式的提升,或者有新的更神奇的演算法出現,他們都難以被AI掌握。至少在20年內,玩這些遊戲還是我們人類的「專利」。然而技術在不斷進步,沒有永遠無法攻破的堡壘。只是筆者不禁的猜想,在未來,當所有遊戲的陣地皆被AI拿下時,昔日萬靈之長手中驕傲的資本空空如也,卻握著世界上最偉大的智能造物,我們的後代,到底是喜是憂?
然而計算機的想法估計很簡單:這麼弱?我可能認了個假爸爸。
本文所有關於Alpha Go原理性的描述,均基於DeepMind項目組2016年1月發表於《Nature》的論文《Mastering the Game of Go with Deep Neural Networks and Tree Search》,不對最新改進版Master負責。
本文版權屬於愛玩網(http://play.163.com),轉載請註明出處.愛玩網百萬徵稿計劃火熱進行中,拿高額稿費,開網易專欄,得專屬周邊,請來這裡——>愛玩網百萬徵稿計劃
推薦閱讀:
※怎麼評價《人類一敗塗地》這款遊戲?
※《FGO》收入全球第一,大逃殺類手游《地球末日》風靡全球——AppAnnie8月手游報告
※哪個瞬間讓你覺得手機搶走了你的生活?
※用吃雞的眼光去直播電影《大逃殺》
※科隆遊戲展Devcom 2017開發者大會