三年內的電腦程序AI是否能在星際爭霸，星際爭霸2，魔獸爭霸3之類的RTS競技比賽中，用戰術擊敗職業？

12-30

此問題提問於2016年3月份，阿爾法打李世石的時候。
原問題：按照目前的AI發展進度三年內的電腦程序AI是否能在星際爭霸，星際爭霸2，魔獸爭霸3之類的RTS競技比賽中，用邏輯計算出的戰術（而並非是完美的操作）擊敗職業選手？如果不能，大概需要多久？
附1：

Alpha Go已經嘗試星際2了，據設計者說，αG在打到了白銀水平，然後由於大維京（遊戲平衡設計師）的新補丁，然後αG就死機了，重新換了三個學習模塊回復正常然後十連跪……
（划去）
經證實是謠言。
附2：αG下個目標是星際爭霸1的著名選手「教主」Flash…
（划去）
已經改挑戰司令了。
附3：2017年10月31日Ai大戰人類，硬編碼AI大概相當於1800分天梯選手，目測跟我初中的時候差不多，VS10級水平不能再多了，被宋炳具桑蘇吊打。

現在是2017年10月，從目前的研究水平來看，難度還是很大。

現階段還不能將「打敗人類最強玩家」的目標提上議程，當前的主要任務是打敗其他AI玩家。

我們現在聊幾個話題——

RTS為什麼這麼難？哪裡難？比圍棋難嗎？

Dota的中單不是被打爆了嗎？星際爭霸的微操不是可以躲避炮彈么？
RTS AI能不能作弊？和遊戲內置的AI有什麼區別？

和圍棋相比，RTS遊戲有幾點噁心之處：

1.多Agent操作，多個玩家操作多個單位，每個單位的定位又不同（相比之下，圍棋棋子地位平等，只在位置上有重要區別）；

It is a multi-agent problem in which several players compete for influence and resources. It is also multi-agent at a lower-level: each player controls hundreds of units, which need to collaborate to achieve a common goal.

2.不完全信息博弈，在雙方沒有直接交鋒前，無法相互窺見經濟發展的細節。星際爭霸中的主要體現是戰爭迷霧，而Dota在戰爭迷霧的基礎上還有開霧、隱刀、真假眼等高級視野纏鬥技巧。（圍棋至少能相互看見全部棋子）；

3.狀態空間無窮大，動作空間無窮大。玩家有非常多可用操作，也有很多狀態組合，無法簡單的學習（圍棋雖然有非常多狀態，但至少可知其上界為3^19^19種）；

4.微觀操作和宏觀操作協調問題。以星際爭霸為例，生產製造、經濟物資分配屬於宏觀操作了；包圍、躲避、集中火力屬於微觀操作，這兩者的學習訓練思路是截然不同的；

（前段時間，DotA的AI中單打爆人類玩家，說明微操方面AI已經超過人，但是AI在多人配合團控、抓人、分配野區資源等等宏觀操作方面還不具備強的能力）

5.反饋非常遲緩，玩家有可能會互不相見的發展20分鐘，然後一分鐘內決戰勝負。這是對深度增強學習的一個挑戰（下文會說到），而圍棋AI則可以通過觀察對手的布局，每時每刻修正自己的決策。

6.實時性帶來的非理性問題，RTS不會給人充分的思考時間，所以很多操作是非理性的。博弈論的重要假設是對方是理性的，但是在這種情況下，AI需要對不完全理性的對手做出判斷。（不按常理出牌的案例後面會說：亂拳打死老師傅）

所以說真正的做一個完全公平的AI是很難的，星際爭霸和Dota自帶的AI有各自的作弊介面。據暴雪介紹，星際爭霸最高三個難度等級的AI使用了額外的視野、發展速度和資源。

RTS目前在研究上有很多任務要做：

1.微操方面，基本的思路是繼續研究Deep Reinforcement Learning，神經網路怎麼設計是個大問題。而且DRL在宏觀操作上能不能用還是個未知數（雖然現在可以用的，但打不過人）。RL需要對環境做出交互來修正Policy，那麼上面的問題5就來了，即使是用Temporal Difference Learning也搞不清楚（完全看不見對手）。在這種極端反饋條件下，如何做Reward？

2.宏觀操作上可能要涉及到認知論、博弈論、現代控制論以及其他我根本沒有聽說過的新知識等，單純搞深度學習就太想當然了。我認為，此時RST AI已經脫開了「機器學習」的範疇，來到了更寬廣的「人工智慧」範疇。下圖左側是微操（戰術層）的AI領域，右側是宏操（戰略層）的AI領域，路漫漫其修遠兮。

這是這兩天的一個比賽，很能說明問題：

Facebook悄悄參加星際AI大賽，然後輸了｜中國團隊奪得第四。

我的幾點看法：

1.自動化所和Facebook都敗給了獨立玩家，但是獨立玩家是硬編碼的，寫入了自己的風格，並沒有搞AI；

2.亂拳打死老師傅，第一名的玩家瘋狂寫命令進攻，而AI機構的操作明顯干不過。

現在的條件的確是比前幾年好多了，暴雪和DeepMind現在開放了星際爭霸2的AI測試平台，這是以前不敢想的。玩家的遊戲數據也公開了，多好啊。

最後送上一個綜述：A Review of Real-Time Strategy Game AI

一篇最新的星際爭霸進展：StarCraft II: A New Challenge for Reinforcement Learning

一篇最新的DOTA論文：Emergent Complexity via Multi-Agent Competition

題主都說不用操作優勢用戰術，別聚焦在操作上面吧

請大家不要看小頂級選手戰術，和戰場的瞬息萬變，我舉這個例子中間有無數個變數，我實在無法明白電腦會怎麼考量？你想想你作為電腦，應該拉幾個農民去防守？這個演算法怎麼弄？

大家請先看一個視頻2014年星際2精彩和逗比瞬間(4)_網遊·電競

今天給大家講一個頂級神族選手zest修地堡的故事，這裡要注意，在星際2裡面的計時是比實際快的，所有的東西都在一瞬間發生

有一些非常精彩的細節

zest的探姬2:14到對手2礦

蟲族拖兩個農民過來防守

探姬放下水晶A，這是一個非常聰明的舉動，卡住位置不能通過（請大家記住這裡）

隨後探姬放下水晶b，這個時候要攻擊探姬，只能繞氣礦過去

第三步非常精妙！zest取消了水晶a，放下水晶c!!咬水晶是非常弱智的行為，所以蟲族農民又開始哭著跑回去

這裡又爆智商了，zest非常賤的堵在眼裡讓蟲族攻擊！！

因為蟲族攻擊了，zest瞬間起跑就比蟲族快一點點，就那麼一點點，於是有了下圖讓zest放下水晶d，把兩個農民卡在外面！！！完全都在zest計算之中

最後你以為探姬被卡在裡面了嗎，那就錯了，zest神一般放下一個地堡把自己擠了出去！留下3根水晶守護的一個炮台，調戲完兩個農民還瀟洒走一回！

對手被迫取消基地

接下來更精彩，探姬跑去三礦繼續修，然後故事叫做你以為你分一個農民追著我咬我就有用的咯？

迫使對手用六個農民（兩個被卡在裡面了）防守！（所以不要跨大操作的作用）

最後有狗的情況下還修成這樣

最後第二次取消基地

題主問的是是否能在戰術方面擊敗人類選手。那就必須對操作能力進行限制。因為操作方面人類肯定是不敵AI的。因為不限制操作的AI多年前就已經非常強了，當年還是星際1的聯賽時代，我下載過許多高難星際1AI，不限制AI操作的情況下至少我是被完爆的。職業選手肯定比我強得多，但畢竟隔了這麼多年了，AI設計也在進步。

限制方法可能是每分鐘有效APM數等等，例如限制為200，這就已經超過絕大多數時候的人類選手了。或者是限制AI不能進行同時的多線操作等等。否則人類選手使用的騷擾等多線操作幾乎沒有價值了。

而三年這個時間，又充滿了不確定性。如果有專項資金來做，很難預料會有什麼樣的進步速度。我只簡單說說自己對AI戰術的理解。

首先是獲勝手段是否明確的問題。這一點和圍棋相似，因為地圖上並沒有某個戰略點是不能被讓出的，你必須要拆毀對方的全部建築才算勝利，因此局部犧牲和放棄是可以被考慮的。這一點對於AI來說判斷起來有難度。但鑒於圍棋方面已經有很好的成績，那麼我們可以假設AI可以通過參考人類對局的方式建立自己的判斷體系。

第二點是偵查和反偵查問題。因為RTS遊戲有戰爭迷霧，是信息不對稱對抗。偵查和反偵查無疑直接決定了戰術的剋制關係。如果限制操作的話，AI的偵查能力應該比人類選手強不了多少（但肯定要強因為它們沒有失誤），反偵查能力同理。但這要建立在一個前提上——AI與人類選手要進行較多的實戰對抗。因為人類選手也不是傻子，跟AI打和跟真人打所使用的細節處理肯定是不一樣的。比如大家都知道，星際1v7電腦的關鍵就是派一個農民去噴電腦的基地，這樣電腦就會拉出十幾個農民追你，嚴重拖慢經濟，這就是利用AI的特性偷雞的例子。AI剛開始的時候由於都是研究人與人對戰得出的打法經驗，所以人類一旦變招，它是需要時間來適應的。隨著對戰的逐漸增多，AI調整完畢之後，人類選手在這些細節處理上就越來越難佔到便宜了。

第三點是宏觀操作，包括常規的基地運營和兵力生產。這方面AI必定是完勝的，因為這需要的EAPM（每分鐘有效操作數）很低。但宏觀操作還包括戰術設定，關鍵是戰術選擇比較難。與其說是AI在開發戰術，倒不如說是AI設計師在考慮這個問題。因為有時偵查會被完全封鎖，或者對方會給你假情報（比如只是作為幌子的某個科技建築），在這種情況下，根據不完整的偵查信息去制定戰術反而不如直接賽前設計好戰術嚴格執行來的高效（俗稱使用萬金油戰術）。如果情況真是這樣的話，那麼AI在戰術設計上短期看不到什麼完爆人類選手的希望。

最後是微操作。即使按照我所說的，限制AI的操作能力，AI在微操作方面也有著獨一無二的優勢——零失誤。也就是說，只要AI操作所顧及的地方，對手是沒有機會抓到失誤的。比如說星際2的力場釋放、魔獸3的十字圍殺或吹風操作、星際1的機槍打LURKER操作等等。如果人類選手想要在微操方面跟AI打平，就必須使用多線操作，然後利用AI多線微操被限制的這個規則來對抗AI。否則在戰術基本持平的情況下，正面與AI對戰是看不到什麼希望的。

以上內容僅僅是個人猜想，如有對AI理解上的缺陷，歡迎指出。

今天是2017年10月14日，ai已於數月前宣告不敵sc2簡單電腦，暴雪嘉年華將遍邀ai公司，共商ai發展大業。

既能也不能，全看怎麼定義「贏」。

如果投入財力人力，請來那些最好的電競選手，和工程師一起調教AI，一點一點告訴它怎麼偵察和封偵察，怎麼建築學，怎麼誘騙，操作有哪些細節要領，教會AI各種高端一波戰術，當然有可能贏職業選手。

但是這麼多大公司投入資源，為的不是贏一局星際爭霸本身，而是讓AI能夠面對一個複雜的事物，在僅僅告訴它基本規則的前提下，通過自我的學習和進化，能做出比所有人類更優的選擇。相比AI攻克的上一個項目圍棋，星際的不完全信息、更多的要素和選項、極短的反應時間，都遠比圍棋更接近實際應用場景，是向科幻里的那種強人工智慧邁出了歷史性的一大步。

通用型強AI的誕生會是比windows的出現還要重要的計算機領域開天闢地的大事，最先完成和主導市場的公司一定數錢都數不過來。三年就想搞定？

16/03/29更新：看清題主的題目。看清題主的題目。看清題主的題目。很重要所以要說三遍！題主清楚地說了「用邏輯計算出的戰術（而並非是完美的操作）擊敗職業選手」。但仍有很多回答和評論在扯操作。。。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

我認為永遠不能。

能擊敗職業選手的戰術，始終來源於職業選手、或者職業選手的教練，或者F91。

在狙擊的情況下，AI可以通過統計來針對性地放戰術，比如RUSH那些喜歡裸雙的，偷那些老實的。但如果平等對決，對方知道自己是AI的情況下，AI的計算就陷入了剪刀石頭布的怪圈，又或者是被打入了一個未知領域--人心。

AI想靠戰術戰勝職業選手只有一個方法：電腦-作弊1。

人類不可能贏了，別的不說，就跟你來幾次5線空投怎麼防？

最近李世石被阿爾法狗4:1擊敗引起了廣泛的討論。接著阿爾法狗的製造人聲稱向星際爭霸進軍，嘗試去擊敗職業選手所以引發了討論。

關於這件事情星際選手是這樣回答的：教主Flash聲稱，讓阿爾法狗放馬過來我不怕。

事實上，應該說圍棋和星際的差別是很大的，因為圍棋很多時候是靜態的，有時間去思考，比賽過程也很長。別人能看到你的落子，你也能看到別人的。當然這並不否認圍棋是一個非常高深的遊戲。而星際爭霸對於視野的要求是有局限的，就是在不開圖的情況下，你不可能知道對手每時每刻的行動。對於最強選手來說，及時的偵查也不能做到別人做什麼，你立刻就會知道這種程度。所以關於視野的把握，關於對於比賽的理解是阿爾法狗的設置的關鍵

另外大局觀是不能忽略的，什麼時候應該做什麼事情，不是一個簡單的事情。有的選手為了追求快速進攻，打兩礦一波如果被對手發現你的意圖，是放棄經濟提前進攻？還是改變戰術，通過多線來打亂節奏？這些都是阿爾法狗需要解決的問題。

另外關於操作，了解星際的人都知道電腦可以完美操作20機槍打100毒爆，這種操作是人類選手無法比擬的。還有樓上提到的五路空投，恐怕也是非常難以完美應對的。這些都是問題，即把電腦設計成什麼水平才是公平的。圍棋可以通過研究棋局？但是如果電腦具備了10000以上的apm，來應對人類選手，這恐怕就是不公平的。不過即使這樣，人類選手也可以通過一些戰術來克制電腦，從而規避掉完美操作的情況。

所以說阿爾法狗能不能擊敗人類，我的回復是只有5成的把握，或者說人類選手使用怪招就能讓電腦出現臭手一樣，人類還是有希望的。另外比賽的公平性恐怕會是星際爭霸阿爾法狗將來飽受詬病的一點。

消息從哪裡來的，完全沒聽過AG測試過星際

我覺得是可以的，舉個WAR3例子，同樣是兩隊人交戰，人類在單位時間能可以控制1個單位，但是AI在單位時間內控制的是12個單位，1個單位時間就差了11個單位的操作，2個呢，3個呢，AI也是在不斷的學習，除非在人類在比賽時用了一種至今都沒有使用過並且可以致勝的戰術，但是在戰術都很成熟的今天這貌似有點難

一年半過去了。曾經完美征服圍棋的deepmind團隊終於發現自己妄想挑戰星際是多麼愚蠢的決定。這坑深不見底，根本填不平。搞了一年多 AI學到的最牛逼策略就是把人類基地飛起來逃跑。回頭來看你們這一堆一堆吹AI的，忽略星際客觀難度的真是笑得我前列腺都出來了

瀉藥啊

我覺得人類未來想在星際上戰勝ai的方法有一種：

拔網線。

人類為來在星際上給ai造成困難的方法有一種：

膀胱戰術。

拔網線自然不必說。為什麼膀胱戰術有用呢？ai又不用上廁所對吧。那麼為什麼城市化能夠給ai造成麻煩？我們知道人類之所以在圍棋上仍舊自認為有能力戰勝ai的原因在於計算速度的限制，計算機無法通過窮舉法來推演每一步，只能通過對大量數據來判斷接下去幾步的最優解。

圍棋開盤階段有大量的可能的方法，因此計算機需要為此做巨量的計算，因此李大師在前期能夠輕易地取得很大的優勢，然而隨著局勢的發展，可能的結果越來越少，計算機的出結論的難度也越來越低。很明顯地我們可以看到alphago在前期對每一步的運算時間遠遠長於後期。

星際爭霸正與此相反，前期雙方單位數量、基地複雜度都非常低，ai完全可以利用強大的計算能力微操強行一波推，根本不用考慮什麼戰術。而在後期雙方的可操作單位都相當多基地相當複雜的情況下，ai運算所需的時間則變得非常長，這時候微操的運算量極其龐大。對對方某一步都進行求解幾乎是不可能的事情。

那先對大量可能的情況進行求解並儲存，然後再從中取得數據呢？這樣面對的問題除了計算能力之外，還要解決io相對太慢的問題。

然而膀胱戰術需要面對兩個問題，第一是如何撐過前期ai的一波推，以及後期ai玩多線、微操騷擾世界上哪個人類高手可以擋得住？

所以，還是拔網線吧

許多人對ai的理解還是把它當成了外掛，發揮了電腦多線程的優勢。可是明顯阿爾法狗的失敗證明了並不是這樣，人家的ai是模擬人類打遊戲，而不是開掛，這暴雪自己都可以做得到。模擬人類並不簡單

星際爭霸作為本人唯一一款喜歡的遊戲，並真的是從98年玩到至今還在觀看的比賽，我認為以後也難有這類的遊戲能超越星際，並不是說情懷，而是星際真的是太有內涵了。

樓主問的這個問題，簡單點就是阿法狗 VS 教主（flash）

阿法狗就先不說了

教主說兩句，教主在星際一韓國決定放棄星際1開始星際2的時候，教主就轉過去了，然後教主在之前退役了，最近20天內教主首次出現在韓國直播平台，當天fans觀看就接近10萬吧。在正式直播前教主的ID已經在平台開始練習了，我看了場練習是和禽獸（BEST）的，結果是兩三年沒打星際1的教主繼續毀滅星際，虐盡其他前職業選手。

最近也都還在有空的時候晚上看兩把教主的直播，感覺是和巔峰時候有差距，但依然可以毀滅星際。大局觀和意識依然是無敵的，欠缺的是操作，假以時日操作上來了，真的是依然毀滅星際。

說了這麼多，大家也對教主有了解了。

那麼說說阿法狗，如果真的有一天阿法狗 VS 教主

從阿法狗的學習能力來說，阿法狗的腦袋裡估計已經存好了幾十萬上百萬盤的對戰分析和戰術了。+上人工智慧無可挑剔的操作，教主完敗的可能性估計接近了99%

但就如剛才說了，圍棋有N種的可能，星際的戰術也在調整，但星際的變化是絕對不可能和圍棋比較的。所以就算有創新戰術出來，還是很難戰勝阿法狗。即便是有創新革命性的戰術出來，我認為教主獲勝的可能性也就是提升到5%頂天了。

因為現在遊戲電腦的AI和阿法狗比，這個根本不是一個層面。

題外話，阿法狗VS教主的這樣的意義本身應該是廣告層面，站在競技角度來說毫無意義。即便這樣，教主完敗那又怎樣？我們依然還是深愛著這個叫「星際爭霸」的遊戲....

今天ai大戰送兵巨

ai的直接優勢在神乎其技的飛龍操作上展現的淋漓盡致

然並卵

我覺得所謂的AI和職業選手玩LOL，場景應該是這樣，攝像頭對著電腦屏幕，根據圖像識別來確定敵我雙方，技能冷卻，操作，以及戰術。機械傳動移動滑鼠和點擊滑鼠和鍵盤。而不是遊戲裡面搞個超級AI。那還不如玩末日人機呢！到這個程度，我覺得才算是公平一戰。結果如何，不得而知。

我和你換家，ai會怎麼防

ai火無非就是沾了深度學習的光，深度學習無非就是會搞個分類，算個分類的概率。阿爾法狗也就是算了每個格子的概率罷了，具體推測局面的部分還是老的剪枝法。

ai目前連人的語言都沒法理解，能理解人的思想抽象到遊戲層面的操作？

如果按照目前的框架，靠深度學習的算概率來解決這個事可能性太低，這個不像圍棋可以用排除法，這個真的是有無數種可能的，概率怎麼算？概率算不出來用什麼戰術？

個人認為三年內估計都不會有這種黑科技出現。

如果有投資，三個月就可以

個人覺得，除非有強行靠兵力優勢rush下來的戰術，否則ai要做到100%的紀律性然後跟你剛中後期的正面應該沒什麼問題。

操作相當的情況下狗不到就是虧，而ai不會犯人類一樣的紀律性錯誤。

如果禁止ai這麼干，必須按人類的打法有來有回的話，戰術方面可以用資料庫和無縫偵查彌補，操作方面持平，也是佔優勢的，推進的時候保守就好了。