人類與AlphaGo對戰星際爭霸2的前景是怎樣的?
討論這個問題的人請對此有個基本了解:
http://m.huxiu.com/article/173013.htmlhttp://tieba.baidu.com/f?kz=4853834082不要把他和傳統ai混為一談這個新的ai無論是從輸入輸出(遊戲畫面和模擬滑鼠鍵盤,和人類相同)還是原理(自我學習能力)都與傳統ai大相徑庭。
2017.08.10更新
——————————
今天DeepMind和暴雪聯合公布了用於AI開發的API、Python包裝的一個便於在SC2上做強化學習的介面,詳見:
DeepMind and Blizzard open StarCraft II as an AI research environment | DeepMind
這是初步訓練得到的AI進行採礦、造兵的結果。
DeepMind也試著讓這個AI和遊戲自帶的最簡單的AI對戰,但一場未贏。
雖然這只是剛開始的階段,然而只要稍微懂一點SC2、並對現階段機器學習有所了解的人,光從這張圖中就能了解到開發SC2的AI是多困難的一件事了,貼一些我在Q群里的聊天記錄。
這是人工智障呀
你看這兵營把自己一個礦給堵了現在的情況是,這個自我學習出來的AI,連礦都沒法好好采……你見過這種操作?兵營比槍兵多233我大概能猜出來為什麼會喜歡把建築放在礦區了因為AI學習、包括實踐的時候,相當於在全範圍內找能放建築的地方然後發現,誒,這裡被擋住了(基地),誒,那裡也被擋住了(礦),然後移來移去,誒,這中間有空地,那就放這兒好了結果是,本來被隨機分配在基地和礦的位置,有一大部分被修正為兩者之間的位置了(礦區) A:
所以為了追求完整的ai從三歲開始訓練嗎問題是,你如果不修改一些訓練方法上的設定,甚至人為引導它,它很可能就永遠都是三歲了現在的AI並不像很多人想的那樣光靠不斷訓練就能提高的本身方法、結構上的限制,會導致它輕易地掉進一個局部最優,然後就出不來了再怎麼優化,你都是在一個高原上找小水坑,而難以找到那條離開高原的路B:現在的ai可以創新么(從我對神經網路訓練上來看,似乎它永遠實現的就是一個經驗估計
針對於已有的訓練結果猜測可能的值缺乏真正的創新真正的創新還很難吧監督學習基本就是在學你給它的數據的pattern而強化學習,那就屬於不斷地試錯來提升A:因此圍棋反而是最容易的一門ai了?對於深度學習來說,圍棋的確是最容易的遊戲之一了輸入和輸出都很明確,而且規模很小泡芙說的創新問題,其實是強化學習可以做的包括之前DM的那個打小球,打出一條通道,把球彈到背面去這也是它自己試出來的最優解只是這種情況(環境、操作)比較單一,試錯成本不算高但換了SC2這種遊戲,狀態空間實在太大了要通過無腦試錯來學習,效率實在太低,而且很容易跌進局部最優 而不像人類,可以藉助自己的先驗知識,屏蔽大量沒有意義的操作和輸入信息
從而在剩下的有限操作中尋找最優解但現階段要想讓AI自發地去獲取這種高級別的邏輯抽象、經驗歸納總結能力,還是太不現實了
這裡的例子說明了什麼問題呢?
對於人類來說,比如我們生活中的經驗告訴我們,兩點之間直線最短、碰到東西擋路得繞開。那麼,即便是第一次玩SC2甚至第一次玩RTS遊戲的人來說,他也能明白,我往礦區放建築大概是會擋住他們採礦的吧,所以自然而然就避免了這種選擇。而對AI來說這些概念完全不存在,它只能局限於這個環境本身,並在其中不斷地試驗來尋找優化方案。
因為人類具有將觀察到的(少量)信息抽象為高層次的經驗知識,並將其泛化應用到方方面面的能力。人的一輩子就這麼點長,而且只有一條命,不可能什麼遇到點新東西,都要通過反覆成千上萬次試錯才能學會,那樣人類估計早就把自己作死了——換成現階段的AI,那就像是,已經知道跳進河裡會淹死,卻不知道跳進海里會淹死,還自己跳進去試試看行不行得通,跳一次淹死了還不夠,因為樣本太小不能說明問題,我還要再多淹死個幾百次,才能否定這條路線。
這種通過反覆試錯的辦法,確實能在一些小規模的問題上優化到很高的水平,甚至比人類還好(比如Atari遊戲和圍棋)。然而一旦到了SC2乃至現實世界這種超大的狀態空間與近乎無限可能的操作的情況下,這樣的試錯辦法甚至都比不上剛出生的嬰兒的學習效率(事實上嬰兒就算智能水平低,學習速度還是很快的)。
這也是為啥SC2的AI這麼難的原因之一了,因為它碰到了現階段機器學習和人工智慧發展的瓶頸。
現在回過頭去看之前的回答,確實有很大一部分沒答到點上,因為連前提都搞錯了233...當我們在那裡扯AI玩遊戲時可能表現不理想的情況時,卻沒意識到,現在想讓AI玩遊戲都是件登天般的難事。。。
——————————
放浪者:如何評價DeepMind和暴雪新開源的星際爭霸2機器學習平台?
這篇回答的答主簡單總結了一下DeepMind發的paper的結論,和我的推論基本一致:
DeepMind發現做SC2的AI的難度遠超想像,用現階段已有的方法讓AI去學習,基本只能完成最簡單的幾個小遊戲(環境、目標相對單一,並且一切都可見,不存在戰爭迷霧的限制),而一到完整遊戲里就一點辦法都沒有。
於是這次公開SC2相關的API及工具,也是因為他們撞上了AI發展的瓶頸,決定將這交給後人了。
所以還在YY AI能把人類怎麼怎麼樣的,至少在SC2上,或許看不到了,真的到了那一天,還有幾個人在玩都不知道。。。
=================
以下為2017.05.30原答案
——————————
首先SC2的AI不可能叫AlphaGo,因為Go是圍棋,所以我暫且把它叫做AlphaSC。
——————————
關於操作的問題,官方明確表示過會限制APM,甚至同樣會模擬人類的注意力問題。
也就是,它不可能同時注意到地圖上發生的所有事情並立刻做出應對,它被騷擾了也會要反應時間,它忙於正面操作時背後被捅了也不一定能完美應對,更不會同時來個十線操作。
因為DeepMind開發它的重點本來就是希望AI在大局觀、戰術策略的博弈上能有所建樹,並希望能把這種能應對複雜局面、信息不對稱的非完全博弈下的AI進一步擴展到現實問題的應用中。但實際上,限制APM和注意力並不全是刻意為之的,很可能是因為性能的限制因素,首先它就很難用有限的性能(單機上跑)做到高頻率的分析與決策,所以勢必要給它規定一個最小的決策周期,既然如此,那就把這個周期規定在人類的APM上限,這對兩邊來說都能接受。
運營方面,假如兩邊都準備好好運營打一波正面決戰的話,那作為一個相對來說比較單純的優化問題,AI應該能輕鬆地戰勝所有人類選手。
——————————
然後就重點說說戰術上的問題,SC2中按理說不存在一套完美的運營體系。
具體來說,你不可能保證在能防守前期敵人任何可能的大招、一波的情況下,還能有裸雙甚至裸三+全力補農民的經濟,還能有非常快的科技,甚至還能同時去壓制敵人一波。也就是說,運營流程本身是有trade-off的,經濟、科技、兵力三者不可兼得,來自東方的神秘力量更不是你能控制的。於是就有了星際的五行相剋:莽克狗、狗克偷、偷克穩、穩克諧、諧克莽,毒奶克一切。既然不存在萬金油的運營流程,於是在和對手的博弈中,就存在取捨——如何抉擇才能剋制對手的戰術,而抉擇的前提是了解對手在做什麼,所以問題的根本就聚焦在了偵查上。可能有人會說,AI能使出360度無死角偵查,但要知道偵查也是有代價的,理論上前期你是可以拖七八個農民對全地圖進行地毯式無縫搜索(蟲族成本相對小一點,因為開局能靠房子和狗),從而屏蔽一切野建築和藏農民。但若是這樣默認進行了無死角偵查,等於上來運營就讓一分鐘,別人不跟你玩花樣直接跟你來極限一波,拿命擋?
而對敵人家中的偵查總是有限的,畢竟對面也不傻,也會反偵查,大門不可能一直開著給你想看就看。而在時間和空間上都有限的偵查下獲取的信息,能推斷出多少東西,會被欺騙什麼,又是不確定的。。
如果就普通的拉個農民去全圖逛一圈,那總會有時空上的漏洞的,這個漏洞被利用了的話情況可能就超出了AI的意料。這裡就涉及到一個現在的AI尤其是利用了深度學習的AI的普遍的弱點了,它們擅長從大量的數據與大量的迭代中獲得一個十分出色的性能,但難以從少量樣本中得出什麼有意義的結論。正好相反的是,人類很擅長從少量樣本中學習並快速做出調整。
如果打過天梯的玩家應該會知道,假如你能學會一套成熟的運營流程、一波、甚至大招,並將其練得十分精通,那麼其實晉級大師都是很簡單的事,因為每次搜到的玩家大都不同,對你已經練到滾瓜爛熟的這招毫無招架之力。而一旦你去和別人打番戰、比賽,分分鐘被針對到死。所以在和AlphaSC對局過程中以及之後,人類能快速地分析它的打法特點,它傾向於選擇什麼戰術,它在什麼局面下會做出怎樣的應對,它的偵查方式是否有固定的pattern,有的話是否能找出漏洞並加以利用,然後對其進行針對。而AlphaSC卻並不會從和人類的這幾盤對決中學什麼,因為這只是他所有對決中的1/100000,就算考慮進來也幾乎沒有影響。所以,AlphaSC只能從當前對決的局面中進行分析和決策,而人類可以從和它的所有對決中進行分析,這是人類在這場博弈下的巨大優勢。以上是AlphaSC可能面臨的一些重要問題。
但像是偵查、戰術決策方面的問題,對人類來說也是一樣要面對的。所以反過來,AlphaSC比起被動的偵查和防守,選擇主動的去狗人可能是更簡單的選擇,而它或許能想出很多比人還狗的狗招,這就很讓人期待了。另一種可能就是AlphaSC學會了城市化泉水鉤,用無懈可擊的防守和運營打防守反擊戰。但考慮到蟲心末期各種防守消耗單位的弱化,以及虛空以來各種騷擾單位的加入/加強,前者(主動騷擾、進攻)看起來還是更靠譜的選擇。總之,前面的很多可能的AI弱點也是建立在人類有機會把握主動權的基礎上,若是AI能夠在強大的運營的基礎上,在戰術、節奏上處處把握主動權,牢牢控制住局面,那人類耍再多花招也只是無關痛癢。
——————————
看到 @eyounx 的回答,再補充一點關於訓練本身的問題。
AlphaGo下圍棋的時候,其中的快速走子網路,能在幾μs內下一步,從而能快速下到終盤提供一個粗略的預估結果。就算是策略網路和價值網路,分析一個局面的時間也是ms級的。
而星際2里,先不說分析遊戲畫面所需要處理的數據大得多(例如1920x1080對比圍棋的19x19),對實時分析所需要的性能的要求很高。
星際2引擎本身的性能限制也是個很大的問題,最多只吃兩個CPU線程導致,能流暢運行8AI對戰、沙漠風暴決戰之類的電腦還沒有誕生,諸如錄像恢復中的快進,速度通常也超不過遊戲速度8倍(如果單位數量多的話變成單倍也有可能)。
而按照現在AlphaGo的訓練方法,強化學習需要從當前步開始演算到終局,得到勝負的結果作為正或負的反饋。利用自我對弈的棋局訓練價值網路,也需要大量的棋局。最新版AlphaGo里還可能用到類似於GAN的自我對抗的方法不斷地產生更強的AI。
這一切都需要快速地演算大量的棋局,而SC2遊戲本身演算速度的限制會導致這個訓練周期變得異常之高(考慮到畫面也需要渲染,會比錄像快進更慢)。可能的一些解決方法:
1. 鞭打暴雪的辣雞程序員,為dead game大幅優化甚至重寫引擎。2. 之前DeepMind發了視頻演示暴雪專門用來給AI開發提供的圖形API,如果能完全依賴這個專用API進行演算、決策和操作,能大大減少圖像渲染和分析上的開銷。引用一段我在評論里說的:「 我現在的看法是盡量不靠實際遊戲畫面來分析,畢竟這有性能上的問題,也有實用性上的問題——畫面設置是能改的,如果限定於特定的畫面設置顯得很奇怪,而且如果要作為能在單機上運行的AI,和玩家對戰或者作為助理,為了它專門在後台去渲染整個畫面再分析整個畫面,那顯然是too expansive。 」3. 開發能夠並行運行多個遊戲,同時進行AI的學習優化的方法。4. 尋找能從更少的遊戲樣本中高效學習的辦法。5. 以往遊戲錄像只能從遊戲開頭根據因果演算來跳轉,最近的版本(大概3.12)加入了Rewind退回功能,在遊戲結束時可以反向演算退回到某個時間點,這或許就是為了方便AI開發引入的。但如果能夠快速跳轉到任意時間點就對AI開發更友好了(一種辦法是在錄像文件中加入類似視頻的關鍵幀)。我覺得第4點是最關鍵的一點,也代表著未來AI的發展方向,但也是這裡面最難的一點,短期內很難看到大的突破。誰能率先解決這個問題的話,那必然是AI發展歷史上的里程碑。
——————————
還有一個問題就是機器學習中經常提到的overfitting(過擬合)的問題。
通過大量的強化學習、自我對弈訓練得到的AI,其實最擅長對付的應該是它自己以及自己的前輩(比如AlphaGo-Master能讓AlphaGo-Lee三子,卻不可能讓李世石三子)。
它在對局中會默認對手的水平和它自己一樣,曾經看到有人舉了這麼個例子,十分生動形象:AI帶著99個槍兵扎了一針A了上去,看到對面有100個槍兵,然後拉回來了……
——因為在它以往的經驗里,開闊地形下,相同的科技和攻防,99個槍兵打100個槍兵的勝率不到10%……
=================
總之,不論對於DeepMind還是暴雪,AlphaSC的開發可謂是任重而道遠。
阿法狗這180人口部隊帶飛龍要吃李培楠的部隊輕而易舉啊……
我來說一下SC到底有多難,大家知道圍棋很難、德州撲克很難,都被攻克了,SC的難度比(圍棋+德州撲克)都要難太多:
1. 即時策略:SC是即時策略,需要實時決策;德州撲克和圍棋都是輪流下棋,每一步有相當的時間可以思考,特別是思考時局面是凍結的,不會變化。圍棋和德撲都基於樹搜索這種基本技術,然而在SC中是否能基於樹搜索,這是一個大問題,因為搜索是很慢的。如果不用搜索,壓力全部交給強化學習學模型,那麼強化學習能否做好?要知道AlphaGo去掉搜索樹那是打不過人的。
2. 缺乏模擬器:樹搜索的還有一個問題就是需要隨時推演,棋牌遊戲模擬推薦耗時為0,SC模擬推演非常困難,尤其是在極短時間內完成推演。因此樹搜索用上來難度極大。
3. 對局步數:圍棋平均200多步結束戰鬥,德撲10步左右,SC多少步?一般一局SC半小時,就算一秒做一次決策,1800步,然而一秒一次肯定是不夠的,人的手速都能到6次操作/秒。按照6次計算,超過1萬步,圍棋的50倍。上面不是有人說電腦的APM可以遠超人類所以是優勢嗎,是的,前提是,你能學出來,而不是靠程序員直接編程出來。1萬步長,給目前的強化學習技術造成巨大困難。
4. 不可完全觀測:即看不到對手在做什麼。德撲是不完全可觀測,但是也就是10步左右,還是基於樹的。不完全可觀察,而且有1萬步,我個人感到比較悲觀。
5. 強化學習的能力:目前的強化學習方法,個人的評價,還很原始,需要產生大量的數據,然而SC的運行速度給收集數據造成非常大的麻煩。並且SC的狀態空間跟圍棋、德撲也不是一個量級的,需要新的模型來處理如此巨大的空間。
總的來說,SC的每一步都充滿挑戰,DeepMind號稱用5年時間完成,也是對其難度有所預估。
註:以上所說的都是打全盤SC,一些打了個微操的難度極小,完全不是一個量級的。
===================
沒想到有這麼多外行的回復,在這裡討論沒有任何意義,我不會回復。做出來再說
要公平對抗有兩個重要前提
1.阿狗能得知的信息和人類一樣多,也就讓一個屏幕顯示的內容,一個畫面和一個小地圖2.阿狗的有效apm被限制,而且不是限制到三四百,100-200已經是極限了,不限制的話你能看到無限接近於讀取後台的悍馬2000的操作,到時候就打一波人類幾乎擋不住阿狗的優勢主要在於無限穩定的運營+精準的偵查判斷+只要不限制apm無限強的正面。但是人類善用欺騙性戰術和多線還有視野還是很有機會打死的。
圍棋之後幾步雖然計算難度極大但是終究是可以計算的,而星際是有視野盲區的無法準確判斷的,一時半伙我不覺得ai可以打敗頂級職業選手,或者說至少需要很長的學習過程 之後才可以。星際最考驗的就ai的判斷速度和在沒足夠信息的情況下的判斷能力,至於正面和運營真的是絲毫不用擔心。我相信終究ai還是可以開發出真正的全防流+一拳超人的……你就想像一個不會失誤和疲倦而且全方面更強的innovation或者state或者snute好了。當然這一切的前提是黃旭東不解說這場比賽……先上結論:很多人都說阿法狗智商會被碾壓,但是我是持相反態度的,阿法狗在星際爭霸2項目上很有可能還是可以戰勝人類。
操作層面不必說,就算apm被限制,要知道對於Ai來說,每一下操作都會是有效操作!所以即使apm被限制到300,阿法狗的操作仍然會是十分恐怖的
智商方面,阿法狗可能智商不高,但是他的紀律性和偵查絕對是超一流的。紀律性上,每個timing的偵查肯定是滴水不漏,建築學漏小縫什麼的想都別想。偵查上,計算機強大的運算能力將會被展現的淋漓盡致。看到過的所有的兵種用了多少錢多少氣,目前采了多少錢多少氣,多出來的錢和氣去哪裡了?目前人口是多少,水晶有多少根,是不是有水晶沒有找到?這些都被電腦算得清清楚楚,就算智商再高,能架得住電腦如此運算?
歡迎各位和我討論簡單猜測 我認為星際2的戰術戰略應該不是ai最難突破的部分 以ai的思維每把比賽肯定都儘可能進行最大限度的偵查和封鎖偵查 盡量屏蔽野兵營、各種一波、裸偷礦等非常規戰術 同時根據最少的偵查即時預測提前進行準備準時攻擊對方的兵力和科技薄弱期 運營肯定也是近乎完美的
那麼之後問題的核心就在於兵種把握、交戰微操和地圖環境這幾樣職業選手最難做到的上限ai做的如何了 如果都有悍馬2000那樣的極限操作來配合戰術的話即使只是普通的運營也會變的極為可怕所以一個完善的ai應該至少是一個戰術大師 有可能還是一個操作狂魔補充幾點 1運營完美這件事是非常可怕的 職業選手的x分鐘xx人口這種事情一般人絕對做不到 尤其在同時操作騷擾單位和預判對手戰術時做到不落下 不信可以自己試試 到遊戲十幾二十分鐘以後即使職業選手也容易出現運營失誤 例如多/少補農民 科技有疏漏 注卵和菌毯等 而ai永遠不會忘2偵查上蟲族提速房子和人類雷達都可以很容易的看到不容易看到的地方 再加上ai可以用人類難以做到的超多線程全圖動態偵查 ai在信息戰上絕不可能落於下風 大家倒可以想像一下人類該如何偵查和判斷ai的戰術阿法狗不是悍馬2000!
阿法狗不是悍馬2000!阿法狗不是悍馬2000!一幫沒打過星際的就不要來秀下限了,你要知道谷歌那些人不傻的呀,如果真是毫無懸念的挑戰他們不會搞的呀。各種提到ai操作無敵的,都是被悍馬2000洗腦了,你們難道覺得谷歌的人工智慧會花功夫寫個腳本出來忽悠大家?那簡直是醜聞了好嗎。
所以操作層面我覺得正相反,如果是我來做這個ai,一定會想辦法限制操作水平不能超過人類選手,比如韓宗6000分水平吧。還是前面的原因,靠操作碾壓人類不需要一個ai工程師來做,吹操作的都是對AI的侮辱。除非有一天阿法狗做出實體用機械臂操作滑鼠鍵盤來打。
其次之所以阿法狗要在圍棋之後挑戰星際二,或者說挑戰即時戰略遊戲,是有原因的,要不怎麼不去再挑戰個象棋啊。這種遊戲在戰略思維上和棋類無可比性,在信息不對等的前提下,首先如何獲取信息就成問題。比如上手打一張新圖,有經驗的蟲族大概知道房子停哪兒可以看到信息又不容易死,阿法狗會嗎?
其次看到的信息不一定是真的,我不會下圍棋,不知道圍棋有沒有假動作之類的。但是星際太多了,我就想問問會長的鏡花水月阿法狗怎麼解?
所以我預測在阿法狗充分訓練之後,對陣喜歡純運營靠基本功碾壓的選手比如showtime,比如藤田剛,輸本這種是有一定優勢的,但也能打,四六最多七三開。對陣狗哥,老僧,dark這種玩智商的,阿法狗遭得重了就,一旦被打入未知領域都得死。
還有一點我覺得需要納入考量,就是學習效率。如果有一天阿法狗碾壓了人類,我想知道他練了多少盤呢?如果是靠技術手段短時間練了一百萬盤打贏了衛星有很大意義嗎?我練一百萬盤如果還是二十多歲我覺得我也能打贏衛星,我和阿法狗誰強呢?
所以拭目以待吧。其實這場比賽人類方黃旭東壓力還是比較大的,但是還是有機會贏的
相信AI開始玩星際以後,會出現讓人類無法理解的策略。
人類之間比賽看多了就會覺得頂尖高手無非也是拼rush或者拼偵察+運營等不多的幾套策略,然後在短兵相接的時候拼微操。
很期待AlphaGO轉戰星際的時候,也會像下圍棋一樣,玩出很多人類沒有想到,但是非常有效的新策略。
AI和AI下圍棋的時候,會發現執白勝率特別高的問題,這提醒了我們現有的貼目規則對白棋有利。 那麼AI和AI打星際會不會發生某個種族勝率特別高的問題。
很期待看到AI VS AI的比賽,這樣就可以知道哪個種族是最強的了(估計電腦玩科技和多線佔優的人族會比較強)。只不過從此其他種族要被人類選手冷落了,這樣就能逼著暴雪趕快出星際三了
你確定你說的是AI?
一本正經的答題的不少人,大概這輩子都沒碰過以下贏比賽為目的設計的AI。普通的遊戲AI從設計上就不是為了簡單迅速徹底贏過人類,而是為了讓人類贏的舒服而有挑戰性。它們設計的方法不是贏面大小,而是給予人類對手逐步上升的壓力曲線,非常多的「AI」並不能稱之為AI,那只是一個預先寫好的出兵方式和比例罷了,有時候甚至為了編寫方便直接修改資源或是省略建造條件。
1.StarCraft AI簡要回顧
那麼來說說真正意義上的RTS AI吧。
有很多人研究從現實到RTS的決策問題,但是這方面的里程碑之一是2010年 AIIDE大會上的第一屆AIIDE StarCraft AI Competition,可以說是RTS AI起步階段的一個重要事件。(那麼98年遊戲發售自帶的AI是啥?反正人工智慧界不怎麼叫它AI)。這一賽事在研究領域反響很大,之後出現了CIG會議上的星際AI競賽IEEE CIG StarCraft AI Competition,以及大學為主的Student StarCraft AI Tournament。在這些競賽中,AI之間成千上萬盤互相搏殺,以決出各自的高低。
以現在的眼光來看,這些年來的AI是比較原始的。早期的AI與其說是AI不如說是戰術機器人,它們基本是按照給定的判斷條件進行戰術實現,而沒有局面評估,臨場規劃和學習改進一說。AI之間經常出現穩定互克的戰術,快攻AI會輸給防禦AI,防禦AI輸給發展AI,而發展AI又會被快攻AI在開場迅速滅掉。
之後AI的裝備開始升級,部分AI具備了計劃功能,能夠根據建造意圖進行優化的資源和順序規劃;有的AI具備了精細的微操模塊,在局部戰鬥中佔據優勢。再之後的AI具備了學習功能,能夠記錄對手的戰術特性,相對應的出現了戰術的複雜化,能夠臨場決定使用固化到代碼中的預定戰術之一。戰鬥模擬器也出現在了AI里,允許AI在戰鬥開始前評估局面並預測結果。現在的AI開始走向通用,由預定的少量戰術變為根據對手情況微調的戰術族,也對一些知名AI對手的戰術進行預先的解析和防備。
那麼這些AI在人機比賽中表現如何?
它們有很強的戰術實現能力和運營規劃能力,局部微操強勁,容易把初見者一波流打的找不著北。
但是戰術基本靠開發者預先撰寫,數量有限缺少變化和臨場對應,因此對有一定水平的選手來說摸到套路之後就變得相當容易解決。
2. AI的瓶頸問題
- 計算層面
模擬環境限制:
即使是廣泛應用在AI競賽的StarCraft也並不是一個對AI非常友好的遊戲,由於SC本身閉源因此難以高效模擬,使得評估和改進AI消耗大量計算資源。
信息複雜度和實時響應:
輸入的信息非常多,包括單位信息,位置,技能,等等,需要快速的處理並即時分析局面做出快速響應。
- 演算法層面
非完全信息下的決策和局勢分析:
標準遊戲中存在戰爭迷霧,不可能在獲得全局信息的前提下進行決策和局勢評估。
小概率事件預防:
在對局中存在大量的勝負手,尤其在非完全信息下難以有效預測和預防。
3. 谷歌加入帶來的變化
- 計算層面的問題將不成為問題
過去的StarCraft AI計算問題多是基於個人電腦的計算能力水平,而谷歌和Deepmind開始肯定是要上超級計算機的,數量級的算力變化可以暴力解決這些麻煩。
如果不加限制的話,AI對信息的收集利用將是遠勝於人類的,APM的利用也遠勝於人類。通用戰術完美運營加上微操特化AI足以解決大部分人類對手,不過開發AI的目的不在此處,實戰中AI的信息獲取和APM也會被限制到類人水平。
但是可以肯定在單純局部計算的運營和微操上,未來的AI即使不顯著強於人類,也絕不弱於人類。指望在這方面佔便宜是不太現實的。
- 演算法層面的焦點在於非完全信息博弈的神經網路實現和訓練
完全信息決策下的RTS遊戲....在最早的AI競賽中使用過,結果是以防守反擊和剋制兵種為主要策略的AI勝出。而對人類來說,如果AI的計算層面不受限制,那麼顯然相應的AI足以對人類的任何戰術在策劃階段就作出應對,獲勝的希望是很渺茫的。
但是不完全信息的動態博弈就是另外一回事情了。非對稱信息博弈問題有完整的理論解,可以證明現在的解法能夠確保獲得納什均衡,在零和遊戲中統計獲勝。問題在於大部分問題和圍棋一樣,指數化的複雜度不容許窮舉求解。局勢中的大量未知因素則成倍增加了不確定性,也是之前的SC AI通常單方面依賴自身預定戰術而不能夠像前神經網路時代的國際象棋軟體那樣通過棋子估值,推算和棋局資料庫進行動態局面應對的主因,將假設的主動權握在自身可以大量減小計算量。
事實上這一問題是不存在完美解答的,人類的策略最後也不過是近似解。AlphaGo出現以後,神經網路技術被運用到局面估值和剪枝演算法之中,原先指數複雜度的問題可以用少得多的實際計算量近似估值,並且精確度高於人類。這是和過去決策水平穩定遠低於編寫者水平的AI根本不同的地方。這一代自我對練深度學習的AI在大量訓練後得出泛用的統計解並不困難,但是如何獲取單局最優甚至在遊戲中獲取對手信息即時修正計算模型恐怕將是一個挑戰。用遊戲語言來說,就是如何在盡量利用已知局面優勢和預留餘量處理意外事件之間做出平衡。神經網路和深度學習理論上不亞於人腦,究竟在這一問題上能做到何地步則值得好奇。
- 人類的缺陷
多線程運作能力:人類大腦一心多用的程度很有限,而AI不受此限。
精確數學思維能力:AI可以在極短的時間內自行模擬出高效的建造順序,或是通過資源消耗計算對方兵力,人是很困難的。
穩定長時間的發揮:AI在決策之外是不存在人為錯誤的。
思維慣性和心理素質:AI不受思維慣性影響,隨時都以超然身份重新評估局勢。
4.未來怎麼看
- 人犯錯就會輸。
對AI來說是實時,對人類來說同樣也是實時,而AI的0.5秒和人類的0.5秒不是一個概念。這類問題都是局面越簡單對人類越有利,反應時間越長對人越有利,輸入越直接對人類越有利。
- 四平八穩的局肯定輸。
缺乏變化的情況下AI會不斷積累有效信息,結果不用想。
- 遊戲本身不平衡人也肯定輸。
AI自我訓練尋找遊戲bug或者不平衡點的能力顯然遠強於人。換版本換地圖換種族從頭訓練更是人類被玩弄,沒有疑問的。
- 遊戲平衡,人類在自身不犯錯情況下,採取賭概率的戰術有可能贏,但是統計上要輸。
首先要賭AI沒有足夠的信息推斷出這一戰術,其次要賭AI在不知情的情況下沒有預先做出相應準備,再次要賭這一戰術帶來的優勢足以彌補全局運營和微操的劣勢。最後即使都賭贏了,在AI計算能力遠勝於人的前提下,統計來說還是要輸的。
統計勝率隨遊戲內容而變,最極端的情況是公平骰子純隨機開大小,人類理論勝率高達50%。但是StarCraft不是純隨機,AI的統計勝率應當會大大上升。
- 這個未來一兩年內就能實現。
基於自我學習的AI已經在非完全信息的德州撲克上擊敗人類,現在這個問題的解決程度相當於AlphaGo擊敗樊麾,而從德撲到StarCraft沒有數量級的差別。這個差別不是指遊戲本身,而是指對手的水平——不管局面多複雜,人類的分析水平只有那麼點,AI比人類更強就能贏了。
我覺得ai就是穩,沒有莽偷狗諧,也沒有奶。
毫無疑問,最終的勝利是屬於人類開發的人工智慧的。而且這一天很近,個人猜測,如果DeepMind認真做星際一或星際二的話(包括DOTA或LOL),一到兩年時間,就可以戰勝所有人類選手。
人工智慧在操作方面的優勢,已經無需贅述,看到大多數的答案都已經很明確和形象地說明過這個問題了。但從這類問題的評論和回答來看,很多答主都不是人工智慧相關專業人士,所以還沒意識到,大局觀也會是人工智慧碾壓人類選手的優勢(alphago最突破性的特點)。我之前的研究領域和深度學習非常相關,所以主要說說這一塊。
alphago的設計思想比深藍更強大和通用,與之前絕大多數人工智慧系統都不相同。主要體現在: 強大的模糊判斷能力,能夠不斷提升的判斷能力,構造學習樣本的能力,學習人類對局的能力。
1.人工智慧的模糊判斷能力。
星際或moba這類遊戲,狀態空間爆炸,並不會把人工智慧堆到傻。圍棋也是計算機無力窮舉所有變化的遊戲,但alphago只需要在一定的計算深度上比較準確地判斷局勢優劣,就可以近似地認為,它判斷清楚了。
alphago是用一個叫價值網路的深度學習網路實現這一功能(輸入局面則輸出勝率)。也就是說,狀態空間的數量即使是無窮的,並不會使人工智慧無力判斷,只是略微降低準確率。
價值網路並未見過所有狀態空間,但依靠深度學習精巧的設計,它可以對未見過的狀態空間也具有比較好的判斷能力,也可以認為是「模糊」判斷能力。
用深度學習網路訓練出的價值網路,就是alphago大局觀的核心源頭。也是它與深藍(97年國際象棋上戰勝卡斯帕羅夫的程序)根本上的區別。
如果把深藍的判斷函數必須成照本宣科的「普通少年」,那深度學習的價值網路,最開始的時候,就是沒上過學的「天才少年」。
2.能夠不斷提升的判斷能力。
傳統人工智慧,通常局面判斷函數是「寫死的」,固定不變,主要依靠專家憑經驗設置,越複雜的遊戲,判斷函數偏差越大。為國際象棋設計判斷函數相對簡單,圍棋是連頂尖高手對很多局面判斷都有分歧,更別說寫成代碼規則。(星際相對圍棋,判斷要簡單很多,普通愛好者對頂尖高手對決時誰優誰劣,判斷大體不差,兵多礦多科技快就是優)。
深度學習的價值網路,是可以通過不斷學習來不斷提升的。也就是說,專家寫不好,甚至世界上沒人能寫出一個好的判斷函數,沒關係!讓電腦自己學,見多識廣超過人類數倍以後,總會學得比人好,隨著學習時間的積累,會越來越好。
換句話說,「天才少年」很聰明,教啥會啥。
3.構造學習樣本的能力。alphago用強化學習的方式,不斷產生新的策略版本和新的局面,為價值網路和策略網路提供學習「教材」。這種「左右互搏」的學習方式,配上大量計算資源,可以產生的「教材」可謂無窮無盡,每天上萬盤的訓練是人類選手永遠不可企及的。
換句話說,「天才少年」很勤奮,比人勤奮不知道幾百倍。
4.學習人類對局的能力。價值網路是可以用人類對局當輸入的。把高手對決的局面都當做「教材」灌給深度學習,以比賽勝負結果為目標,訓練出來就是價值網路。以人類後續選擇為目標,訓練出來就是alphago的策略網路。這樣,理論上,人類所有的比賽都可以成為alphago的教材,不會有它沒見過的套路。
換句話說,「天才少年」見多識廣,人類見過的它都見過。
(你要說它貪多嚼不爛會忘,您提了個好問題。可惜「天才少年」比張無忌天分還高,學太極拳劍學意不學招,忘了招那是「無招勝有招」,掌握了規律精髓,那是「全忘了」的融會貫通,那才最嚇人呢)
5.戰爭信息迷霧。信息迷霧,就是不完全信息對抗,德州撲克就是這類遊戲,人類頂尖高手們也是在比賽中完敗於人工智慧的,最近還有論文專門講解了演算法。也就是說,信息迷霧問題,已經有成型演算法針對,只是系統工程上的演算法組合創新,人類沒有「護城河」。
綜上所述,「天才少年」聰明好學還勤奮,人類套路都見過,全方位碾壓人類。
職業棋手們基本上公認,alphago的大局觀勝過所有人類棋手,比它的計算優勢可怕多了。圍棋回合制,沒有操作差距,慢棋更是可以反覆斟酌,人類還贏不了alphago。那換了星際,大局觀被碾壓,操作沒法比,結局顯而易見,只是時間問題。
當然,說一千道一萬,人工智慧的勝利,屬於人類。即時戰略類遊戲在線對戰時,採用的都是幀同步,什麼概念呢?簡單的說,其實星際爭霸2就是個回合制遊戲,每一個回合,選手發送一串指令集,去操作當前局面上的單位。只不過每個回合大概只有0.1s時間,再加上指令導致的動畫,看起來像是一個連續而混亂的場景。
所以,本質上星際爭霸2和圍棋沒多大差別,但這次AlphaGo並不會直接讀寫這些指令集,而是讀取屏幕的視頻源,發送滑鼠和鍵盤指令。也就是說AI也需要不斷的切屏操作,才能看清大局,不斷的發送滑鼠和鍵盤指令去操作單位。同時為了更公平的競技,會限制AI的切屏頻率和滑鼠鍵盤的輸入頻率,也就是說同一個回合內,人類的指令集長度和AI的指令集長度是差不多的。
那麼這就很有看頭了,視頻識別本身就是一個技術要求非常高的東西,目前技術來看AI的眼睛似乎並不比人好,操作也可以限制為比人更差。那麼AI能勝人,靠的就是策略和大局觀。比起圍棋,星際本身的可觀賞性也更高,大家也都看得懂。等著AI開發新戰術吧。
不過,走完星際2這一步,感覺AI用在現實戰爭也就不遠了。也好,有了AI,說不定以後,經過一通紙上談兵就把就戰爭打完了,不需要實體戰爭了。因為一旦證明AI對人類是無敵的,就必須相信AI的判斷。
我來歪個樓吧,以現在暴雪的尿性,五年後星際有可能都沒人玩了,deepmind五年才能研發出這個ai,現在這批職業選手還能挺到那一天嗎,恐怕到時候的星際就跟現在的war3一樣了吧,當然了,我的美好願望是到時候因為deepmind和人工智慧的熱點讓星際再小火一把,就跟現在的圍棋一樣。
上面一些大佬說的專業辭彙我不懂
不過我估計了一下 ,TVT的話人估計打不過它。
因為TVT的戰術比較於其他種族對抗比較少的,主要還是拼內力和基本功操作。而且現在頂級T比如藤田肛,全太陽,maru一些人就是靠內力和基本功吃飯的。
打ai基本是打不過,你有極限五線空投,ai就可以打出個五線防守加反空投。而且ai的運營也不會出問題,選手說到底也是會受心態影響的,即使是頂級選手也會出現一些失誤。當然,如果黃旭東站在人那邊當我沒說,一杯奶倒進去晶元全燒了我個人感覺很可能會輸,對,就是ai輸給人類
當然,阿爾法狗操作牛逼,可是他沒有人類的意識,比如阿爾法狗開局偵查,你把口堵了,沒有信息他會怎麼辦呢?他會裸雙還是4追獵在下二礦?萬一我狗他呢?我p兩船兵你怎麼辦?你怎麼選擇戰術?我野VS野隱刀野水晶甚至修地堡。誠然,阿爾法狗可以做出很優秀的應對,但是他沒有人類的意識。
在舉個例子,我一把星空加速空放在VS上,阿爾法狗看到以為先知起手,然後我反手就是野隱刀,你見過AI會判斷戰術欺騙的嗎?那得看阿爾法狗會不會騙,不對,那時候的名字應該叫阿爾法SC了
.
圍棋那種博弈叫"公平的博弈",信息是公開對稱的。
RTS的技術分兩部分:
一個是操作技術;
另一個是詭術與騙術。
分來來說,第一項AI絕對佔領先位置,因為AI操作不會失誤呀,不會蠢到A自己兵啊,不會連自己SHIFT位置都被奶沒啊。
第二項,這才是大家關注的重點,阿爾法SC能不能自己獲取信息,怎麼獲取對自己有利的信息,怎麼確定自己獲取的信息是可靠的。人類啊,狡猾狡猾滴,AI派一個兵過去了,以為自己獲取到了正確的信息,其實錯了,那個信息是人類故意給你,是陷阱上的誘餌。這時候就看AI是不是能明白這個圈套了。RTS對戰玩對多了,人會多疑的,圈套太多。
講個WAR3過去有意思的例子吧:
一個不死族大神,虐菜連贏十幾盤沒輸過,愈發膨脹了,沒想到這一把又遇到一個菜鳥人族。講道理,菜鳥人族連英雄祭壇都不會造,怕不是剛玩這遊戲。大神心想這等新手得好好調教一番,於是前期各種壓制、殺農民,買了骷髏棒,用一根,A一根,以娛樂的心態很開心的把dk升到了5級......之後也估計是大神玩膩了,大神決定用大墓地拍臉來羞辱人類玩家最後一波帶走。哪裡知道,人類偷偷摸摸買了飛艇,開了雙礦,島上的基地升了三本,還有出了一隊獅鷲,兵營偷偷造在鳥不拉屎的地方產騎兵,最後還憋出了一隊迫擊炮。大神基地剛一拍臉,人族飛艇直接繞後,迫擊炮兩輪就把大神礦給強拆了,城管一般,勢不可擋。唯一經濟來源斷了,人類兵力與大神勢均力敵,人類家裡還有一噸塔,大神傻了,大神無法應對了,大神打了GG。
這是我見過最深的套路了——扮豬吃虎。
所以,棋類遊戲玩多了,容易交心啊,而RTS和MOBA玩多了容易撕逼啊;因為在後者眼裡,棋類玩家都太「耿直」了。(別扯什麼德州撲克,RTS的形勢優劣根本找不出一個統一而標準的模型出來好么,大家都是憑感覺「猜」的)
最後,阿爾法SC真出世後,大家的看點應該在套路與反套路上,肯定很有意思。
RTS遊戲的勝負就和石頭剪刀布一樣的好么,運氣占不小比重的好么?如果操作技術水準差不多的話,只要對遊戲有一定理解,新人戰翻老司機不是常態么?
至於屆時比賽的輸贏......
這是黃旭東決定的,和阿爾法狗團隊以及參賽選手這些凡人無關。
相比下圍棋,AI的挑戰:複雜度更高,即時戰略沒有時間思考,
比下圍棋更容易的地方:各個單位不是平等的,有點象棋的意味,可以算清楚在遊戲的每個節點,各個單位之間的換算關係。
AlphaGo的明顯優勢在於微操運營基本功方面,這些方面人類高手總會有些失誤而AlphaGo不會,這一點方面就很可怕了。人類的優勢應該在於戰術方面通過不對等信息的博弈,在放戰術的時候做表情來欺騙AlphaGo。另外,西方的AlphaGo應該會很厲害,但是我們有東方的神秘力量啊。
谷歌要做的人工智慧是不僅僅會打星際的,不同於只會下圍棋的阿法狗,谷歌想做的是利用星際的變化性和不確定性來做一款可以在多變環境下自我學習的人工智慧,而不是靠大量學習星際錄像訓練出來的只會打星際的人工智慧,所以就別提操作了,更別說預設好的特定規則了。
用操作和快速準確計算來戰勝人類沒什麼好稀罕的,這本來就是電腦的強項。你和電腦比比看誰算數快,誰打字快有什麼意思?谷歌要挑戰的是給AI看星際錄像,在不告訴AI這是什麼東西的前提下,讓它自己學習和分析,從而獲取最優解或者說學會這件事情。推薦閱讀: