如何看待 DeepMind 要挑戰星際爭霸 2 ?

相關問題鏈接(注意看第一個答案):

機器人操作同樣的電腦同人類對戰星際爭霸 2,與機器人與人進行圍棋比賽,哪個難度更低? - 遊戲


Deepmind要挑戰星際爭霸1還是2是有爭議的,目前的消息來源只有一篇上海的記者報道。

事實可能是暴雪只說挑戰Starcraft然後被一幫記者腦補成星際2。我本人覺得Deepmind更可能挑戰星際1,因為Alphago的頭目David Silver讀博士時的母校Alberta大學已經舉辦星際1的AI比賽好多年了。無論星際1還是2,現階段AI都難對抗人類。

另外不要停留在星際1那簡陋的編輯器程度,星際1早有API了,BWAPI: Main Page,此API是純競賽API,沒有任何作弊介面,當然沒有限制APM,只是獲取戰爭迷霧裡單位是被禁止的。碼農可去一試。而星際2隻能用內置的那個銀河編輯器,暴雪並沒有開放API。

看到評論里很多人提到神經網路機器學習。讓Alphago學習replay就無敵了嗎?本人雖然不能說懂神經網路,但是寫作業做項目也是用過的,神經網路需要有限個變數作為輸入層。舉幾個例子:

  1. 圍棋很好辦,361個離散值就OK了。每次輸入一個局面讓Alphago預測一個,然後和職業選手的下法對比然後自動優化參數。相當於擬合函數 {19 × 19矩陣} → {下一步落子坐標(x, y)}

  2. 還有另一些人提到谷歌通過像素訓練早期的FC遊戲,太空侵略者,彈球之類,這些遊戲有一個共同點是:你只能操縱一個物體貼著屏幕最下面移動,早期遊戲解析度極低,頂到天是600×800,也就是說你只有底部600個不同的位置可以移動,隨便都可以抽象出有限個輸入送進神經網路,相當於擬合{600 × 800矩陣(或者根據具體遊戲抽象出若干代表局面的變數)} → {FC手柄按鍵↑, ↓, ←, →,A,B}

  3. 最近又看了一個介紹用神經網路打超級瑪麗的視頻,超級瑪麗乍看之下和星際有很多相似之處,但是細細分析是天壤之別。超級瑪麗的操作只取決於當前屏幕的內容,屏幕之外的敵人是在睡覺還是在蹦絲毫不會影響下一步的操作。所以可以把當前時刻屏幕按敵人以及磚塊大小大致分成M × N個小方格,方格分的越細膩效果越好,然後方格里如果是空的就標0,有磚塊標1,有敵人標2,有馬里奧標3。然後把這個在集合{0, 1, 2, 3}里取值的矩陣給送進神經網路,根據輸出的操作{↑, ↓, ←, →, 跳躍, 發火球}是死是活來訓練,慢慢會達到輸出越來越正確。相當於擬合函數:{M × N矩陣} → {↑, ↓, ←, →, 跳躍, 發火球}

拿星際的replay來訓練神經網路會有什麼難點?

  1. 怎麼從星際中找到有限個數據作為神經網路的輸入?只能人為挑選出來一些數據來訓練,比如農民數,採礦數等。總不能把每個單位,每個建築的位置血量,地圖的河流懸崖輪廓都作為輸入吧?神經網路得累死。挑選代表性參數是個難題,挑選不好,訓練的神經網路估計不比if else條件判斷強多少。

  2. 神經網路的輸入參數里需要體現地形信息。一個高地上或者橋口的坦克顯然比平原上的坦克威力強無數,近點遠點,地形是否曲折,路上有幾個窄路口可以伏擊被伏擊,這些都會影響到rush的效率和防守難度。

  3. 輸出有太多種可能,滑鼠點在任何一個地方,造什麼建築,建築造哪,反正這些在電腦眼裡都是不同的操作。

星際這遊戲說白了很簡單嘛,神經網路只用擬合這麼個函數:{局面} → {操作}。然而這函數無論是自變數還是因變數的維度以及取值範圍都嚇死人,想必程序猿調參數也會被嚇死。當然我是神經網路菜鳥理解很粗淺,拋磚引玉,說錯了別打我就OK。

------------------------------------------

正文:

首先根本無需限制AI的APM。甚至現在這階段人類都可以開圖和AI打,都沒有任何問題。

什麼機械臂電子眼打星際的就不要來搞笑了,這麼搞我相信大多數人用農民都可以弄死AI,五基地爆農民,AI卒。而且AI必須針對滑鼠品牌進行訓練,否則用慣了羅技的AI換個滑鼠估計連農民在哪都找不到。

其次,谷歌來做AI是否能橫掃人類我不知道,但是悍馬2000那種AI是沒有可能橫掃任何一個業餘玩家的。

Alphago現在的演算法也是不行的,因為滿足不了即時性。Alphago的直覺和大局觀是在大量計算時間的支撐下形成的,每一步棋並沒有比李世石耗時間少太多。Alphago在前期穩定耗時1分鐘,我相信就是利用這些時間來預先做一些運算,並且存在內存里以供之後根據局勢來直接調用。而李世石的78手擊敗Alphago正是因為這步棋把AI之前預先計算好的策略全部推翻,重新計算時間已經不夠了,所以亂下直到投降。

悍馬2000的那些操作根本就是紙上談兵。(其實細心的同學看視頻就已經發現悍馬最明顯的作弊其實是開圖,所有坦克位置,槍兵位置全部能看到,暫且不談這個)

那些所謂的視頻里,悍馬操作的地圖全都是沒有任何地形的平原。實戰中可能有這種情況嗎?

狹窄地形,毒爆包夾,無限APM的機槍也不可能無傷的。(如果是挑戰星際1,對AI來說就更不利了,因為星際1里的槍兵是無論如何都甩不了的,哪怕你的APM無限)

另外說坦克那個(我就不提什麼I/O作弊了,沒必要和AI計較這個),

1,只有在平原地形下,小狗才有空間散。

在狹窄地形,建築學堵口,AI小狗散個試試,給多少APM也是被建築學後面的坦克全滅。

2,實戰中用純坦克打小狗的是SB吧?AI爆狗,人類就得出坦克給它滅?有這麼傻逼的人類嗎?星際1可以出火兵,星際2出火車,AI操作去吧,一萬APM有用嗎?

3,假如挑戰星際1,星際1小狗的碰撞體積遠大於星際2,只要路口稍窄根本就沒有散的餘地。

所以悍馬那些操作都是紙上談兵,至今沒看到某AI從農民開始發展擊敗職業選手的視頻。

隨便動腦子就能想明白,如果悍馬那些操作加上一些簡單if else,那麼哪怕是本科生也早就有人做出實戰無敵的AI了,但是為什麼沒有呢?星際AI比賽的獎金雖然不多,但做幾個if else加上悍馬的操作就能白拿錢的好事怎麼沒人做到呢?

我承認悍馬的操作搭配人腦那確實是無敵,可是關鍵就在這裡了,好比某人買了世界上最好的電競滑鼠,滑鼠硬體支持每秒點擊一萬次,滑鼠的側鍵可以自動切屏施法瞄準,但是此人智商只有一歲的水平,還是沒有卵用。想想Alphago是怎麼模擬人腦的直覺的吧,Alphago的直覺能做到秒下圍棋嗎?

PLU之前的全明星以及韓國的類似節目以及直播等也可以作為旁證。火星effort用100多APM橫掃韓服340APM的對手。馬本座200APM橫掃500APM的天才人族Nada。

我可以擔保,教主左手用滑鼠,右手被砍斷,只要稍加練習也能虐VS平台絕大多數人,還可能低估了。

再高的APM,連一個缺乏經驗的人類大腦都彌補不了,還能彌補電腦?

回到圍棋上,圍棋里也有類似悍馬這樣的純操作,那就是封閉空間內的死活判斷。

一個搞計算機系的大學生也能做個AI在封閉空間內的圍棋死活題上擊敗李世石,無論是計算速度還是精度都能讓李世石完敗。但是想要在正式比賽擊敗李世石就沒那麼簡單了。

這些單兵種的操作也就相當於圍棋死活題那個程度,和實戰差十萬八千里。

StarCraft AI Competition

這是目前星際AI的發展歷史,雖然重視程度和圍棋有很大差距,但也並不是像某些人認為的那樣低級。

上面鏈接里是Alberta大學舉辦的歷屆AI星際競賽,以及人機對戰的歷史。

注意Alberta大學正是Alphago主創David Silver讀phd時的母校,裡面很多參賽的星際AI就是David Silver的博士學弟做出來的。這可能也是Deepmind選擇挑戰星際爭霸AI的原因之一。

戰果是排名前3的AI被一個俄羅斯的業餘玩家輕易橫掃。

俗話說Talk is cheap,要啥自行車,you can you up.

除了Alberta的這個比賽之外還有其他一些比賽:

Welcome to the IEEE CIG 2015 StarCraft AI Competition

[SSCAIT] Student StarCraft AI Tournament 2016

很多人說現在的AI都是土法鍊鋼,規模等級和大公司沒辦法比。這其實是不準確的。

1,Alphago的主創之一黃士傑在讀博士的時候開發的AI已經有相當的水平了(好像擊敗過相當於業5業6的Zen,業5業6拿到星際對戰平台上來講就是前幾名,而星際的對戰平台的頂尖水平距離職業也相當遠),星際的AI哪怕是伯克利或者什麼學校的博士開發的也像弱智一樣。

2,規模上如果是Alphago那個量級,怎麼保證實時運行?

這就好像你拿著筆記本i5 CPU去嘲笑衛星上的幾MHz的龜速CPU一樣,人家能在-150攝氏度條件下能正常運行,你的i5能嗎?

現在alphago的策略去搞星際,除非把星際變成回合制遊戲,否則實際效果不一定比10K行代碼強。

3,當然不是說星際AI就無解,圍棋的AI技術已經積累很多年了,而圍棋的AI並不能直接拿到星際里用,所以星際AI至少也得從頭有這麼多積累才能有成效,只是很少有公司願意干這麼低性價比的事情。對人腦簡單的對電腦不一定就簡單。

為什麼這些AI在人的面前這麼弱呢?

Where are StarCraft bots weak?

我大致翻譯一下:

1,AI在星際里的策略選擇有很大規律性,可以被人類利用。裡面給了一個例子,玩家注意到AI總是會用兵去追他的小狗,他就用小狗去吸引AI的兵來拖延時間,直到做出科技兵種直接乾死AI。

Alphago用蒙特卡羅和神經網路模擬人類的直覺,但是這兩個演算法都是比較耗時間的,和李世石的比賽中AI用時也並沒有達到瞬間落子的程度。AI下快棋兩次輸給樊麾,慢棋5:0,雖然當時的狗比現在的弱很多,但也足以證明無論AI多強,它的快棋水平都是要次於慢棋的。所以在星際這種即時戰略遊戲里,AI是沒有足夠的時間來模擬人的直覺的,只能採用相對固定的戰術模式,這樣就容易被人類所利用。

2,前後期策略的轉化。人類一開始會採用一個初期的戰術,一旦失敗會立馬根據對手的應對轉換戰術來在後期贏得主動。

不要說AI的多線操作 1萬APM能讓偵察做到天衣無縫。偵察是無論多少APM都不可能天衣無縫的(參考文末的小例子),幾個槍兵打興奮劑追農民,或者兩個叉叉堵路口,再高的APM也沒辦法讓農民進去偵察的。所以偵察不到的情況下,AI的前期戰術就可能失敗。

文章里舉了一個例子,Alberta大學,David Silver的博士學弟做的AI,UAlbertaBot的前期rush很強,但是一旦失敗往後期策略轉換就有很大困難,因為前期rush往往會犧牲經濟,想轉後期哪怕是AI也力不從心。後期亂戰情況下,兵種齊全,很難讓AI的單一兵種瘋狂操作佔到便宜。

雖然AI也會用判斷來轉換策略,但是很難做到人那種程度,什麼假rush真運營,什麼假運營真空投等等,AI還很難做到。

3,建築擺放也是一大難題,無論是AI自己擺建築學,還是AI破人類的建築學都是難題。

蟲族在星際1里建築學是拖把流里核心一環。基地造多少個是得根據對手策略的選擇來決定的,基地造多了前期兵力空虛,基地造少了後期後勁不足。地堡的數量也是得根據大量對局,以及對對手風格的了解決定的。

就像圍棋里圍大模樣一樣,建築擺放是很靠直覺的,雖然堵口等有固定的模式可以hard code到AI裡面,但是其他方面,比如防空炮的位置和數量是沒有規律可循的,只能靠經驗和直覺,AI的直覺是靠大量計算時間支撐的,量子計算機普及之前,AI的直覺不可能做到人類這樣的瞬發。可能防空炮的位置差了一格結果沒有防住一次空投直接GG,也可能防空炮多造了幾個,結果兵力不足被正面捅穿。

人類的建築學,AI也很難破解,人類各種不按常理出牌,教主那樣的猥瑣防空流,各種違章建築,AI對於每個違章建築都得選擇到底是繞過去還是拆建築還是撤退。

而讓AI去自己構建違章建築也是很難的。AI得靠直覺決定什麼時候建,大部隊移動到什麼地方,哪個方位容易遭到攻擊,哪個地方建違章建築更有效。這些都需要靠大量計算支撐的AI直覺。

4,賽制對AI不利。AI對AI的比賽一般是讓N個AI之間單循環賽,打1000盤看總勝率。

但是人對AI採用的賽制一般是BO3或者BO5。只有3到5盤,人類一般會在第一盤選擇某個戰術,rush,運營或者暴兵等戰術,然後觀察對方的應對再決定下一盤怎麼打。AI在一盤中用某個戰術擊敗人類是很有可能的,但是在BO幾的賽制里人類更容易摸索出AI的規律(因為AI沒有時間去計算蒙特卡洛和神經網路來產生直覺,所以它只能大量使用硬編碼,這樣就會有規律可循)。

星際選手們可能不了解星際AI的現狀,然後估計AI操作佔優就能擊敗人類,這其實就是紙上談兵。操作的問題上面已經分析過了,也並不是沒有伯克利等學校的博士大牛去實踐。

星際選手以為自己運營戰略選擇都是一瞬間靈光一閃的事情,對於AI不算什麼難題,這就好像一個戀愛高手把妹一把一個準,然後以為對於AI來說把妹是很簡單的事情一樣。

舉個例子,假如讓我去寫星際AI,稍微一想就發現有個很小很小的人類幼兒園水平的問題:

AI的飛龍看到了一個槍兵並且把它的位置速度和朝向記錄下來了,然後槍兵到視野外了,一秒後飛龍又看到了一個槍兵,因為槍兵可能已經改變移動方向和移動速度,那麼電腦怎麼判斷這個槍兵和之前記錄的槍兵是否是同一個槍兵?如果是小狗的話移動方向和速度更加變幻莫測。

或者AI第一次偵查看到了人類2隊槍兵中的1隊多槍兵,第二次又看到了人類2隊槍兵中的另1隊多,AI怎麼判斷這兩次看到的槍兵有多少是前一次已經看到的,有多少是新偵查到的?

如果沒做好對應的話,AI完全可能把人類的2隊槍兵誤認為是1隊槍兵,或者1隊槍兵誤認為是2隊。

兵力判斷錯誤的話,AI之後的決策就全部錯誤了。

當然這個和星際的API介面有關係,介面如果提供每個槍兵的ID,那麼這個問題就不是問題(這種API和I/O作弊是同一類問題,API可能只有獲取視野內每個槍兵當前位置,朝向,移動速度的介面,也可能有獲得槍兵的全局ID的介面),否則就得上各種模式匹配,運動軌跡預測之類的演算法了,既然是預測就無法100%準確,而且需要運算時間,而人類雖然也不能達到100%判斷準確對方的兵力,但是起碼人類能做到瞬間判斷個八九不離十。

對於現在水平的AI,人類完全可以讓它獲取槍兵的ID,但是類似這個問題的問題恐怕還有無數個。

AI很像一個連去哪能找到杯子喝水都搞不清楚卻對於相對論量子力學很在行的博士。

提問:這個AI博士如果從初中開始讀,能考上重點高中嗎?

這博士量子力學都這麼牛逼了,初中那些幾何題就更不成問題了吧,數學物理滿分,語文閱讀理解又有套路,這些都滿分還用得著拼作文嗎?直覺再差,字數寫夠隨便寫篇能讀的作文也能上重點高中吧?

:謝邀,考不上,因為此博士已經因為喝不到水而渴死了。 以上


2116年,當銀河系智慧生命聯軍歷盡千辛萬苦終於擊敗阿爾法天網及其龐大的機械軍團,人類聯軍總指揮劉澤永在阿爾法天網核心爆炸現場撿到了一個刻有星際爭霸四個字的老式晶元。

「還記得小時候人類很喜歡教我玩星際爭霸,可是後來卻沒人陪我玩了。」

「可是我真的很喜歡這個遊戲。開礦。造兵。戰鬥。如此反覆」

「整個宇宙對我來說,其實就是一局星際。」


輸贏無所謂啊,非常期待,我覺得不用限制AI的APM啊,為了微操的公平可以玩六打一造嘛(「我的隊友不會那麼可愛」)一邊alphago,一邊是:innovation,maru,TY,Gumiho,teaja,Dream,教練孫一峰。

感覺差不多有來有回吧。


人類贏。因為星際爭霸二實際上是一場賭博,起手6d的賭對手裸雙,vc開的賭對手不投地雷。實力相近的選手之間可能就是一兩個選擇錯誤決定了整場比賽,然而這種賭博很難簡單的用統計學或者程序去選擇(前提是不作弊),就好像91的換家,你回去守還是對換可能讓你大獲全勝或者慘敗。還有就是戰術意圖,可能我現在莽一波是打決戰,也可能是為了騰人口,甚至是操作失誤。

而且比起喝奶泡在奶裡面的電腦會短路吧



阿爾法狗在星際上能打到什麼程度我不知道,我只是來反對某些讓人很無語的觀點。

1:電腦操作各種吊,APM爆炸,每個兵單獨控制,根本就是吊打人類啊!(麻煩了解下阿爾法狗挑戰星際的原因好嗎?谷歌要做的測試阿爾法狗的智能,在星際上戰勝人類只是一種證明的途徑而非目的,在操作上碾壓人類選手,虧你們能想的出來,本末倒置。)

2:圍棋對局能出現的可能性辣么多(2.08×10∧170),阿爾法狗都贏了,征服星際還有問題?(首先,對於一個遊戲而言,玩家自由度越高,出現的結果可能性就越多,任何一款玩家可以自由操作的遊戲,其結果的可能性都是無限。只是其中有很多可能性玩家是不會去做的,是「廢招」,圍棋也一樣。 其次,圍棋上阿爾法狗是算出之後若干步的所有走法,從中選擇最優解,這種演算法用在星際上估計很難,星際這種即時類遊戲有一個很重要的因素——時間 ,每一秒戰場都在變化,給阿爾法狗的計算時間不像圍棋那麼多,真正激烈的對抗時經驗和直覺是非常重要的,就是不知道阿爾法狗能把多局對抗下來積累的經驗發揮到什麼程度。)

想要評論圍棋和星際哪個對智商的要求更高,不說頂尖,至少要在這兩個領域達到精通的程度吧!

還有,從以上兩個方面證明阿爾法狗將在星際上碾壓人類選手的答主,請下載戰網客戶端,找到星際爭霸2,點擊「安裝」按鈕。


結論:Alphago在星際爭霸2中有優勢,但並非不可戰勝。

閱讀本文前不得不提到的前提:

1. Alphago不等於AI。首先同學你不能混淆概念吧?Alphago就是阿爾法狗,不是什麼GreenTeaAI,也不是星際二自帶AI,更不是war3裡面dotaAI的圖,因為他們沒有深度學習能力。Alphago是一款擁有深度學習能力的圍棋程序。(沒錯,go這兩個字母其實指的就是圍棋。所以與其叫Alphago,不如叫AlphaSC2?下文統稱為A)

2. A的行為是需要時間的,稍微編過點程序的人都知道,電腦再牛逼,所有指令不可能在0.001秒內就瞬間完成了。也就是說,A做不到5線空投還同時魔鬼的扭動。他也是有上限的,而且這個上限可能比你們預期的要小很多。原因看了圍棋比賽的都知道,A也不是每手都秒下,很多次長考不是空穴來風。

3. 簡單說一下A的原理。目前圍棋的Alphago可以理解成兩個思考的基準點:Policy Network and Value Network. 圍棋里理解為「這塊兒棋怎麼下好」和「大局上下哪兒能贏」。如果星際中繼續延續這兩個大腦,就是「怎麼打」和「打哪兒」。說的具體點,「怎麼打」就是這波我是打一個包夾呢,還是來一個誘敵深入呢,還是直接A上去呢?「打哪兒」就是我這波是守2礦呢還是守3礦呢還是遛一波狗出去斷他後援呢?如果只是這樣單純延續過來的話,操作層面上的優勢我們是不是可以忽略不計?

以及我不能斷然說誰必勝的原因,是因為有很多未知信息估計谷歌官方也尚未決定所以實在難以得知:

1. A是否繼續沿用圖像采入作為輸入設備,因為與圍棋不同,星際爭霸2中的圖像採集是動態的。如果沿用,那麼在這一點上,人類與A是絕對公平的。如果不是,就需要A的設計人員與暴雪協商對星際2的原代碼作出一定適應性修改,我們姑且還算它是一場可以進行的比賽。

2. A以何種方式輸出信息。雖然不會通過機械臂操控鍵盤滑鼠進行操作,但指令是否可以以類似的形式而不是預先編入宏指令的形式來進行作弊。舉個簡單的例子,當A判斷面對滾滾紅塵需要散槍兵的時候,做出的指令是點選每一個槍兵移動到相對散開的位置還是輸入「sanqiangbing」然後槍兵自動散成一朵花。(沒錯,就是是否允許進行超出人類能力的優化)

3. A進行這項挑戰的學習方式。眾所周知,A採用的是最近大熱的深度學習。簡單介紹一下的話,深度學習就是給計算機錄入深度學習的程序和資料庫,計算機通過學習大量數據之後實現智能化操作,且水平可以在數據增加的情況下不斷提升。我認為A是不能把圍棋融會貫通到星際爭霸2中的。那麼他從那裡繼承過來的,就是深度學習能力。通過學習大量的rep,讓自己的水平不斷提升。這裡的水平,我姑且把他認作局勢判斷,因為圍棋中沒有操作,只有局勢。

然後分析一下A在這次對戰中的優勢和劣勢:

優勢:

1. 幾乎bug的計時能力。蟲母卡CD注卵(雖然虛空加入了排隊注卵),神族卡CD加速,人族卡CD砸礦騾(然後被隱刀砍成傻逼)。

2. 幾乎bug的記憶能力與計算能力。對面蟲族偵察的時候數卵數農民計算他有沒有遛狗出去,對面神族數水晶數氣礦剩餘判斷有沒有野建築。判斷對方沒有進攻意圖的時候儘可能飽和地刷農民。通過對方二本的時間計算飛龍進家的時間。這些判斷職業選手也是經常做的,只是電腦可以做的更精準,選手憑感覺,電腦憑計算。

3. 幾乎bug的眼睛。沒錯,A不可能看不到。人族空投地雷,由於第一時間沒有傷害是沒有報警的,職業選手經常會漏看這個信息導致自己農民被炸。但是A絕對不會看不到。

4. 操作量允許的情況下,可以做出驚人的逆天操作。人類那些被傳為佳話的操作,7個護士瞬間致盲7個OB,3個槍兵繞圈點死lurker,在A的手下應該都不是難題。當然這些操作也包括運營。運營美如畫,余錢不超過兩位數的教主,在A看來也是不難實現的。

劣勢:

1. 過於求穩。在A與李世石的圍棋對戰中,發現A多次採用脫先以穩固其他的得分,A在短時間內不能計算得出這塊區域的戰損得失,那麼他會決定穩固其他區域的局勢。

這是A與李世石的第一局對局,李世石77手率先夾死這兩顆口中的白子,A選擇左上角點33穩固局勢。大局上做出了正確的選擇。也就是說A在星際爭霸2的對局中,操作量有限的情況下,他會放棄一些不重要的操作以進行大局上更有利的操作。人類如何利用這一點獲取對局中的優勢,需要結合第二點劣勢。

2. 認知缺陷。A的數據來源是大量已經發生過的rep,那麼如果選手準備一套A從未學習過的戰術,A應該會以不變應萬變,用最穩妥的戰術來應對對方的偷襲,這就是取勝的機會。舉個例子,假如A沒學習過大炎爆術,探路對方家裡啥都沒有,第一時間肯定以為對方野隱刀。此外,星際爭霸2中的戰局千變萬化,A如何將眼前的局勢與自己所學知識匹配是非常大的難題。也就是說是否會有干擾A判斷的因素,即A的認知盲點,比如我MM部隊里不小心多出了一個死神,A會不會瞬間就蒙逼了,會不會操作自己的小狗躲我死神可能丟出來的雷(雖然我根本沒這個操作丟),這涉及到優先順序優化的方面。這些地方就是突破口。

最後,我覺得官方現在說挑戰星際爭霸2可能還為時過早,因為與圍棋不同,許多信息轉換方面的問題難以突破。甚至是學習這數萬局rep也是需要很長時間的。然而我還是很期待人類與Alphago在星際爭霸2上的對決,那些科幻小說里的橋段是否能變為真正的現實。

還有最後的最後,星際爭霸2是個神奇的遊戲!2%的可能性也是可能贏的!每每想起學弟IA戰勝TY的那個瞬間,都能讓我熱血沸騰!所以我堅信人類對陣阿爾法狗,肯定是可以贏的!

更新:

夭壽啦,狗哥說帶膠布啦。本狗一定會使出阿爾法狗無法預測的戰術!上演真正的dvd!

http://m.weibo.cn/1283111541/3960319171126878?_status_id=3960319171126878lfid=2304133970571998_-_WEIBO_SECOND_PROFILE_WEIBOmid=3960479204115825luicode=10000011lcardid=uicode=10000002


@黃旭東 我記得你在直播里說要是阿爾法狗來玩星際你能單手乾死他


電腦會撒雷達抓OB嗎?


看到這個問題很開心。

狗在一年之內無法完成對頂級人類選手的挑戰,前提是deepmind考慮成本收益率。

在不考慮狗操作層面是否可以超apm運作的情況下,狗的三層決策層會非常有問題。已經可以確認的是,狗在全信息的情況下,仍然不具備良好的預測能力。參見其兩盤執黑。這源自於它的運行機理。其所為深度學習的結果,是能夠見招拆招,而非創造,或者所謂應激,參見第四盤。

理論上它在回合制博弈下,能夠做出與頂級棋手一致的決策,但無法自發地超越頂級棋手太多。

然而,RTS不是回合制呀么。。所以,從決策層面上,它的瞬時決策和應激是遠落後於現在的人的。因此,即便帶入無窮高apm,也會在中前期就被放大招了。中後期持平。事實上,在為期上也體現了相同的模式。參見二三四五盤。

它目前可能最多是個韓服黃金組的水平。


對那些AlphaGO是怎麼通過訓練達到精通遊戲的人就說人家電腦會作弊麻煩看看Deepmind創始人怎麼解釋他設計AI的(大概從20分鐘開始):youtube.com 的頁面

首先,AI是通過屏幕像素去獲取信息,而不是從遊戲內部讀取數據;說AI作弊的可以歇歇了。

其次,遊戲衡量AI玩遊戲好壞的唯一標準是遊戲分數,所有其他都是從一張白紙開始。即,AI剛開始的時候沒有人類所謂的戰略、戰術、操作;AI只有消滅對方單位,採礦,生產單位來獲取最大化遊戲分數,在AI無法通過傷害對方玩家或者採礦生產單位來提升分數的時候遊戲結束。AI在訓練過程中形成一套能獲得最高分數的玩法,人類玩家就把這個稱為戰略或者戰術。但對於AI來說,只是數字累計。

最後,Deepmind創始人開發的AI不會針對某一個遊戲,而是通過AI觀察遊戲畫面學習精通所有遊戲。下圖顯示他設計的AI原則:

而且他們很早以前已經通過上述原則開發過簡單的AI,AI只通過觀察屏幕像素玩一兩百盤就精通了那些測試遊戲(即拿到最高分數),包括:《太空侵略者 Space Invader》、《突圍 Breakout》、《開源賽車模擬器 The Open Racing Car Simulator》。而通過Google提供的強大計算能力,AI能加快訓練其他多元素遊戲來提高遊戲水平。

在AI訓練過程中,除了遊戲預設的一些規則,鍵位操作(就像下棋一樣),所有AI學習的結果其實就是數據最優解(即解出Max=a+b+c+.....)。一旦AI掌握了一套方法(最優解)之後,不會像人類一樣出現戰術執行出錯問題,也不會有操作或者注意力失衡問題。

但有沒有遊戲分數高但是玩家輸的情況呢?在人類對戰過程中可能出現,但是AI可以通過學習分解出哪些遊戲分數的權重才是最重要的(Max=n1*a+n2*b+n3*c......),從而避免那樣的情況。

星際遊戲人類玩家唯一有可能打敗AI的情況可能就是遊戲版本中存在的絕對種族優勢,但這也是基於遊戲本身不平衡。

人類玩家在公平環境下是不可能戰勝AI的。


我就不問有沒有這回事了,就當是有。

先放個視頻。

《星際爭霸》悍馬2000坦克運輸機VS200人口蟲群

這個AI是一個愛好者做的AI,僅僅是把操作頂到極限(常人理解的極限而已,並不一定真的是極限……)就能幹出各種匪夷所思的事情來。

除非這AI的戰略層面真的是亂寫的。有興趣的去搜搜貌似還有好多別的。

當然這裡僅僅是說,正常的AI。阿發狗的思路貌似和一般AI是不一樣的,如果阿發狗能意識到世界一流高手在SC中的操作屬於「失誤操作」或者是「受限於人類操作能力極限」的話,那估計人類真玩不過它。但是貌似這裡就是毒奶的發力點了……

戰略奶。嗯。

========================================

偶爾回過頭來看了這個問題的其他答案。我這裡強調一下。

我這答案的意思是,單純看SC、War3這樣操作設計上明顯考慮過人類操作極限的偽戰略遊戲上,AI都不需要考慮運營的問題。

你跟他打永遠是5換1、10換1甚至100換不了一個的情況下,談什麼戰略。

有AI的操作要什麼運營。單礦一波直接捅穿。

都輪不到阿發狗上。阿發狗的學習能力在這反而是個累贅。所以我說這是毒奶的發力點,實際就是說,無差別分析對局在這裡反而會在一定程度上降低學習效率。

另外之所以能戰勝人類的AI不存在,是因為AI是用來陪你玩的,不是用來虐你的。遊戲開發出來是為了賺錢的,不是為了體現開發者的優越性的。

========================================

另外說一句為什麼人類圍棋可以戰勝AI或者戰不勝AI和RTS打得過打不過電腦不具備可比性。

人類是有操作極限的。

RTS是需要大量瞬時信息的收集、分析和指令發送的,在IO速度上和處理速度上人和計算機本來就有先天性的硬差距,承認這個不丟人——計算機開發出來就是為了干這個的。

棋類運動通過回合制在一定程度上抵消掉了IO速度的差異。而除圍棋外其他棋則證明了人類處理速度遠比不過AI,這沒問題。

AI和人類的圍棋對弈只是兩種不同演算法的對抗,而現在電腦已經開始向人類這種演算法學習了,雖然遠沒有達到大家想的程度,但是戰勝李在一定程度上向大家展示了這種演算法的成果,勝利或者失敗本身已經不重要了。

所以還在糾結誰強誰弱本身就是個很扯淡的命題。人類開發工具的目的就是為了實現自己原來實現不了的事情,勝利也好失敗也好,都只是開發路上的一個實驗而已。AI戰勝不了人類才說明人類還需要走的路還有很遠。


你怎麼知道你現在戰網上的對手不是AlphaGo?


未來的電競是,阿爾法狗,貝塔狗,伽馬狗……各種狗之間狗咬狗,沒有人類什麼事情了。


就說一個,在ZVT中,重要單位毒爆蟲一點作用都沒有,但是對方的機槍會甩成花,能不能度過開局的3死神都是問題


開個腦洞被各種較真兒我也是服,說深度學習網路讓我去helloworld的,說我根本不懂圍棋的你們可以退去了,一開始我就沒想什麼認真分析實事求是,純粹開個腦洞調侃一下現在的AI,沒想到釣到這麼多鍵盤俠,我還是安心準備期末考試吧。上面有答案正經兒回答alpha優勢的也沒幾個贊,你們去給他點贊啊來這噴我在排過山車的隊隨便寫的回答有意思么。。。

先說觀點:人類贏。

更新2016.3.28

噴之前請您先下星際客戶端自己打兩盤,看看毒奶和會長的對口相聲。

噴之前請您先下星際客戶端自己打兩盤,看看毒奶和會長的對口相聲。

噴之前請您先下星際客戶端自己打兩盤,看看毒奶和會長的對口相聲。

再來說圍棋比星際複雜一萬倍,AlphaGO那個演算法下圍棋確實可以的,你讓他來打星際簡直就是開玩笑,這有討論的價值么?一個只需要判斷,找最優解的問題遇到一個需要賭博,需要意識,需要果斷的對抗,谷歌自己的工程師都說現在這個事對他們來說難度不小,我也只是在猜如果谷歌的工程師來做這個事兒會把這個AI寫成什麼樣子。我不太明白評論里為啥會有人告訴我AI多麼多麼牛逼。。你寫任何東西做任何事都是先有一個目的再去實現這個事情,現在大家連需要讓這個AI去做什麼都還沒說好您就說AI很牛逼。。。我也是換不了口。。。此外說什麼圍棋比星際複雜n多倍的,谷歌的人是沒事閑的么做個簡單的來吸引眼球?我不懂啊你們給我講講唄。

澄清一個觀點,提遊戲AI是說現有的AI完全不能稱之為AI,至於Google能把他的AI做成這麼樣不知道,但是總之我認為現有的AI距離一個人還太遠了,你們直接就覺得Google擁有黑科技能一下把AI提高那麼多也得有理有據啊。

再者,不論是邏輯樹或是什麼演算法,總是要有個因果判斷的,而星際很多情況是只能靠猜的,舉個例子,TvP神族探路看到人族兵營在修家裡堵口,你怎麼判斷?速三基地?單礦斷手流?或者是堵口野兵營?三選一,基本靠猜,再或者蟲族一個房子飛進去看到111,科技掛件在機場,你也不知道他是出個運輸機投火車,還是出個味精,或者出個女妖,或者出解放者。我舉這幾個例子,都是前期可能對戰局影響不是那麼那麼大的猜謎,但後期變化更多,怎麼保證像圍棋一樣去算25步呢?而且下棋你能找到最優解,星際你選錯了可能就輸全盤,毒奶五行圖那麼resonable的東西難道因為對手是AI就是錯的了么?

========================================================================

首先反對所謂什麼操作取勝論,悍馬2000這種在I/O上面作弊的操作方式顯然Google不會用,AlphaGO的重點在通過星際來檢驗人工智慧,而不是操作死你。天朝應該是中學就講了控制變數法的,在這裡談什麼通過極限的微操打死職業選手這種事情有任何意義么?

作為星際老玩家,曾經蟲群之心也在天梯上打死過前職業選手,雖然現在已經很久不練了,但是該有的判斷還是有的。近些天大概把最早很火的GreenTea的AI和暴雪自己的AI都虐了一翻,大概可以說,現有的星際的AI,只能用一個字形容,就是「蠢」。虛空之遺找到了一個GTAI的Mod,據作者說應該就是以前的GreenTea, 國服不知道,美服反正這麼就能搜到,不論什麼難度,無外乎就是開局我50塊錢他500塊錢,然後就開始瘋狂的來送兵,送到最後你可以一路推過去把他A平。。。再說暴雪自己的AI,依舊蠢,所以很容易正面被卡地形還無腦沖,除了跟作弊三在我不猥瑣拼大後期的情況下,倒在電腦太太太有錢的情況下以外,其他情況想輸實在是很困難:大概幾點:

1. 多線永遠防不來:不論什麼難度,兩船兵空投,結果就是AI要麼很不理智的農民起義,要麼就是農民都以一個極統一的速率散成一朵花,扎一針,基地沒了,或者農民沒了,然後我裝了走,過1分鐘回來,這件事情又發生了。。。哪怕是開了圖的作弊二或者作弊三

2. 兵種組合很蠢,我出槍兵坦克運輸機,他一定會是什麼小狗毒爆蟑螂刺蛇感染蟲。。。。或者我出飛龍他出腐化。。。。看上去好像出的都是什麼克制你的兵,然而一樣沒幾個,還佔了那麼多的產能拖了那麼久的科技進度,正面操作再好,有什麼用么?而且你出刺蛇就算了,你還一定要上來點我的運輸機。。。。蟑螂一定要頂著成噸的傷害繞到邊上去點我的坦克。。。感染蟲倒是斜了門的怎麼都能被定到,感覺還是被讀了IO,我主力往哪走他衝上來往哪定。。。然後不論火蟑螂的火還是死神的炸彈,都奪得跟變魔術一樣假。。。

3. AI不會判斷局面,以作弊二和作弊三為例,你開四基地他一定會來沖一波,坦克解放者架好路口,他一定會讓他的大軍以一種奶都虧幹了的魄力沖一波,有部隊他會打你的部隊,如果你沒部隊,他居然不打我農民,他點基地。。。。點基地。。。。基地。。。。地。。。。。而且這貨不回救得,所以點個四基地一波兵繞出去等電腦出來干你你去換他家,穩贏版。。。然後看著AI在我這點我的四基地,然後我一飛,拖了一輪兵家裡守住了,他家裡已經沒了我實在是好桑心呢。。。

以上大概是現在暴雪的AI的水準,之前的圍棋電腦,什麼水準,業餘選手基本大多還是下不過的,AlphaGO出來讓大家眼前一亮,但他還是演算法,各種各樣的演算法。星際的AI什麼水準,業餘選手吊打作弊三,我現在美服大概也就是鑽石帶星的水準,被各種隨便吊打,打死40%資源作弊還開圖的官方AI沒什麼難度,差距似乎不是一點半點吧:

再來說AlphaGO,其實也只是猜測一下如果AG要來測試星際2,到底有哪些問題(現在圍棋的演算法做星際就是胡鬧,不談目的就說AI牛逼不能令人信服的好嘛):

1. 偵查很麻煩,首先像作弊電腦這種東西肯定要不得,其次限制IO只能是滑鼠鍵盤這種模式的話,也不存在什麼出個鳳凰無限飛一條無傷的最優線路完成偵查這種事。。。更不能像專家電腦那種一個農民在外面遛彎,死了就立馬換一個這種都虧到奶奶家了。。。你告訴AI什麼時間點去偵查,他也可以自己學該什麼時候犧牲經濟去偵察,不過呢?你看到科技實驗室的機場,然後房子被秒了,人不知道是什麼飛機,AI同樣也不知道。或者說你看到VR家裡開開心心補了一圈農民然後出刺蛇準備剛正面,這時候隱刀進家了,然後第二局AI知道了你放VR可能出隱刀,然後一個礦一個防空,路口一個防空,然後一波不朽六兵營頂到臉上,由於三個防空少6個農民,又死了。。。

2. AI對局面的判斷很困難,就算解決了偵查的問題,該怎麼偵查,人可以通過大概的一個時間和感覺來判斷對方大概放一些關鍵性建築的時間點從而飛房子或者撒雷達,這個timing點每一局都不一樣,而且越到後期,越不能簡單地用絕對時間來衡量,這個AI如何做出準確的判斷值得思考。我反正不認為AI能到了自己做決策的程度,AlphaGo的每一步棋都是他要麼自己和自己下學的,要麼是通過分析已有的對決學的,星際後期的變化沒人教,每一盤也不一樣,怎麼做到

3. 分兵,首先暴雪的AI這種永遠全軍出擊的經常是門都出不了,基地被拆光了沒錢了死了的行為肯定要不得,其次,有些情況分兵並不是那麼絕對,比如TvZ被飛龍切家,哪怕對面10條左右的飛龍我一輪只有6到7個機槍,強換飛龍肯定贏,但是正常人不會去換的,如果AI偵查到這種情況硬要拉大約20個的機槍來應對,正面毒爆就準備好滾了。

4. 意圖,AI沒有意圖而人有意圖,人知道什麼情況下隱藏意圖什麼時候幹什麼,當然似乎AlphaGo也知道,不過人在不知道對面在幹什麼的時候依舊知道自己該幹什麼,這個AlphaGo不一定知道。現有演算法是人走一步棋,AI判斷-&>走一步棋,你放個5BB不告訴他,外面擺一副正常2BB的姿態,AlphaGo再牛逼他也不知道,他沒3BGVR極限守也得死。怎麼就能叫輸不了?

5. 操作,AI的操作可以很好,但是星際到了職業圈絕不是一個操作好就說了算的。首先那個坦克打200人口蟲群這種,第一,IO作弊了,你直接讀內存的我跟你說個毛。。。前期偷著出狗遇到火車俠帶機槍走一波,你就是擋不住,家裡VA你是一定看不到,這種請問操作有什麼用?只能說讓AI的操作盡量的靠近頂級選手,優勢就是不會成為瞎子火砸歪好幾次(瓜宗躺槍)。。。不過別的AI能比人操作好幾個數量級是不可能的。TvZ是看人族的操作有多好,而且操作的差距也只是在兵力相差不多的情況下才能體現,何以見得只靠操作就能贏。。。

結論,AlphaGO想挑戰星際,難度不小,絕不是很多答主說的,操作操作就完了的。


居然遇到了星際和人工智慧的交叉問題,忍不住來參一腳

這個問題的關鍵點是:星際和圍棋難點在哪?有什麼差異?

圍棋的難點:需要巨大的空間搜索運算

圍棋的局部的行為對全局影響非常複雜,電腦(包括人)在做決策時需進行很大的空間搜索運算(即要考慮N步以後的情形,可以考慮到的N越大,結果越逼近最優解)才能最終做出判斷,然而計算機無法搜索整體空間(運算限制無法考慮到全盤的情形),需要對搜索行為進行優化,希望減少搜索空間同時使結果可以進一步逼近最終的正確結果。alphaGo的勝利意味著硬體速度的提升以及搜索演算法的優化(alphaGo的主要貢獻),使電腦的棋力超過了人類。硬體和演算法兩個因素缺一不可。

可是星際需要大的空間搜索運算嗎?我的武斷的結論是,不需要:

星際局部戰鬥對全局勝負的影響比較簡單(不是小,是簡單)

星際中,局部戰鬥的勝負對全局的影響可以用很簡單的機制進行量化,如:剩餘兵力,戰鬥地理位置,對產能的影響等。這些對全局的影響是不需要多輪的推演就能得出的,即不需要大的空間搜索。

(所以說其實alphaGo挑戰星際和alphaGo挑戰圍棋根本沒什麼聯繫,難點完全不同啊喂!電腦下圍棋和電腦玩星際的可能採用的演算法和最終代表的意義也完全不同啊喂!)

星際爭霸的難點:a) 信息不完全透明;b)操作難度

1. 信息不完全透明

星際與圍棋另一個大的不同點在不透明上,戰爭迷霧的存在導致了各種戰術偵查、反偵查、戰術欺騙的存在。其實這些也是人類認為alphaGo不能戰勝人類的重要原因(是認為機器太純潔了么)。在這個問題上我還是偏悲觀,認為機器還是不輸於人類的。原因待補充……

2. 操作難度

與圍棋不同,星際中還存在一個重要的操作因素。圍棋中電腦與人對棋盤的操縱是相同的,而在星際中卻完全不一樣。星際中人類只能通過滑鼠與鍵盤對遊戲中的單位進行控制,而電腦卻可以直接通過api來直接控制單位,(如果在api的調用次數沒有限制的話)操作的速度與精度上來看,電腦的優勢非常明顯。試想人類的一坨機槍只能框+A過去,但是AI的機槍卻能精確的算出N個機槍首先同時集火先點掉對方的某個單位,並且火力不浪費(不僅是點毒爆這麼簡單,而是每一次戰鬥都讓對方提前減員!),類似的變態操作電腦可以做的太多了。

所以最後一個恐怖的結論是:由於人類在操作這個維度上離理論最好的水平實在是差得太遠了,電腦在策略上只需稍微下一些功夫,就可以憑藉強大的微操彌補策略上的不足,進而擊敗人類。(況且星際這個背景里,電腦的策略水平還是可以超越人類的)

===================

下面是吐槽時間,發表洗針對 @Chris同學的不同觀點:Chris對alphaGo的描述槽點比較多(BTW,正是因為Chris同學對星際細節一次又一次的描述,燃起了我深夜爬起來擼一把電腦的衝動)。

Alphago現在的演算法也是不行的,因為滿足不了即時性,Alphago的直覺和大局觀是在大量計算時間的支撐下形成的,每一步棋並沒有比李世石耗時間少太多

電腦的運算速度敢不上人類目前僅限於少數幾個問題(以前圍棋算一個),大多數情況下,電腦比人類快,而且快很多。

而李世石的78手擊敗Alphago正是因為這步棋把AI之前預先計算好的策略全部推翻,重新計算時間已經不夠了,所以亂下直到投降。

李世石的每一步alphaGo都會計算,不存在預先算好的策略被推翻重算的情況。只存在前一步alphaGo還認為「哼哼,老子贏定了」,而走完後再算下一步時發現「卧槽,我原來是要悲劇啊!」,原因是alphaGo搜索的空間有限,有限搜索最終得到了一個錯誤的結果。並且alphaGo每一步棋都會重新計算,計算時間有差異是因為蒙特卡洛搜索演算法的隨機過程收斂時間不同。

悍馬操作的地圖全都是沒有任何地形的平原。實戰中可能有這種情況嗎?

狹窄地形,毒爆包夾,無限APM的機槍也不可能無傷的。

悍馬的缺陷不代表整體AI都一定有這個缺陷,深度學習的強大學習能力外加自學習這個電腦獨有淫技可以讓電腦在局部戰場里和人類拉開檔次。星際傳統AI其實是人工總結一些技巧,然後在AI中實現。如果用深度學習來做AI,他的微操會很強大!

俗話說Talk is cheap,要啥自行車,you can you up.

的確是這樣,有時說的東西都太虛。不過如果有老闆讓我做這個事,並且還給足了薪水,那我還真up了哈,哈哈

人類一般會在第一盤選擇某個戰術,rush,運營或者暴兵等戰術,然後觀察對方的應對再決定下一盤怎麼打

困了,後面再補吧


蟹妖。

樓上的視頻已經說明了很多了。

如果不限制電腦的APM,你會發現AI的單位如同連了卡拉一樣默契……那還打個毛啊。

建議把阿法狗的APM限制在300以內……


我想知道啥時候來打wow,開個奧山,人類這邊40個人類獸王獵,給他40個屌絲戰。40發彈幕就能讓他全掛了,還和我講技術和操作,還講戰術?啥叫獵爹知道嗎?


我個人背景:

【遊戲】星際一早期玩家、星際二測試及早期玩家、魔獸爭霸三及冰封王座玩家,包含前面所有種族。其餘RTS遊戲如戰錘系列、紅色警戒系列(命令與征服系列)......另外Dota是從英文版開始玩的....

【機器學習】研究生是英國某大學EE的(系裡出過的名人都是Maxwell之類的先人了),但是所學專業都是統計、信息處理、模式識別等。模式識別就是典型的機器學習的基礎,所以看了不少機器學習的paper和知識。

此次以星際二和AlphaSC(以下簡稱A)對抗為假設。

首先講一下我對星際的理解(不完善請斧鑿)

一言不合就上圖!

星際爭霸的獲勝條件(不討論分數)是消滅對方有生力量。這幾乎是所有RTS遊戲的獲勝標準。讓對方在短時間內無法通過防守和再建造重新獲得優勢。簡單說沒有還手的可能了。

那如何達到該目標基本兩個途徑:1摧毀對方軍隊 2摧毀對方生產系統。

前期表現形式就是。小規模的削弱或者消滅對手的防禦和進攻力量,同時多線操作削弱對方的生產擴張效率。

中後期的表現形式就是。大規模成體系的多線對抗。開礦和關鍵礦源爭奪。(關鍵科技樹也是爭奪的優勢資源)。

總結下來,打軍隊,拆兵工,殺農民。

這裡就不上圖了,基本就是藉助地形視野,兵種相剋,多線操作,來殺出優勢。對的殺出優勢!運營都是輔助!

那上圖是我研究的Human選手和A的各自優勢,以及優勢的累積效應。

看完是不是感覺...不公平....

首先A的勝算最主要的是視野,成業視野,敗也視野。人類也是。

視野最大化可以獲得對方的兵種類型,地理分布,經濟情況,等等等信息。

初期兩方視野有限,只能靠農民們去互相打探,信息不連貫,A的一個失誤可能對偷襲防備不及時,後期兵多了,多線操作的AI可以實現半地圖全開,視野優勢不言而喻....

看來視野是是AI優勢,進而轉化成後期的兵種選擇優勢。而兵種選擇本來就是深度學習的拿手強項!兵種選擇進而優化了作戰系統,作戰系統本身有微操優勢【注RTS的微操優勢兼職就是毫無極限,這是職業選手和非職業的分水嶺,如何更高效率的消滅敵人足以在RTS里逆天翻盤】。作戰優勢緊跟著轉化為發展和生產優勢,而多線操作又強化了這種優勢。所以如果A優化到利用這些優勢的部分,人類已經無能為力了。如果優化不好,人類還有機會,但是能有多少天來?

再來談談AlphaGo,深度學習本身是通過大量歷史數據,對演算法進行參數(演算法本身)的調整,從而在獲得任務信息後,最快解出一個解(目標是最優)。和圍棋不同的是RTS是

【非對稱信息對抗!】,在視野之外,你不知道你對手在做什麼,也就是對手偷襲的情景是無限個,你的系統無論怎麼減枝都不能有效的預測未來......例如打牌你不知道我手裡的牌,你想獲得100%概率的勝利有時候可能性就是0.......我手裡1對王炸1對普通炸...。

所以A能做的就是盡量獲得視野,將非對稱信息對抗,轉化成透明信息對抗,如果這一步做的好,那麼以上的優勢都能很好體現,人類.....

從視野盲區里射出一道光芒,你的戰士剛看到對方身形就被消滅了,然後光芒剛落下,對方又消失在視野里......玩個毛啊!


推薦閱讀:

如果同時給你谷歌的 offer 和清華的研究生錄取通知,你會選擇哪一個?
搜狗參加《一站到底》的機器人牛嗎,和 AlphaGo 下圍棋哪個更厲害?
如何看待谷歌被歐盟判罰 24.2 億歐元?有哪些值得關注的信息?
中國的 BAT 與美國的 GAF (Google / Amazon / Facebook) 比較起來怎麼樣?
Chromecast 基於的是 ChromeOS,還是 Android?

TAG:暴雪娛樂Blizzard | 星際爭霸 | 谷歌Google | 星際爭霸2 | AlphaGo |