在與AI的電競交鋒中,人類好像還能再搶救一下?
來自專欄網易愛玩7 人贊了文章
這個月OpenAI的表現可以總結為:在吊打了被綁住雙手的普通高手後,轉頭卻又被頂尖戰隊「教做人」的故事。對於「跌落凡塵」的OpenAI,我們有五個問題。
網易愛玩百萬稿費活動投稿,作者 豪豬,未經授權請勿轉載。
大約半個多月前,DOTA圈發生了一件不大不小的事情:在一次公開賽事中,人工智慧OpenAI在現場數千名觀眾以及直播頻道數十萬人的圍觀下,直落兩盤輕鬆戰勝由半職業選手組成的戰隊,人類僅在最後一盤才扳回一局。
這一天讓人們回想起了2017年初橫空出世的阿爾法狗(AlphaGo)吊打圍棋界的恐怖。賽後,OpenAI遭遇了不小的爭議,有質疑比賽規則的,有質疑AI是否「作弊」的,總而言之就是兩字:不服。
對此,OpenAI的團隊則表示將在月底DOTA2國際邀請賽TI8上挑戰頂尖的職業戰隊以證明自己。隨著8月底連續2場「人機大戰」,人類選手們用自己實力讓OpenAI明白了「還未夠班」的道理,OpenAI與人類孰強孰弱的爭論也暫告段落,但由此引發的諸多疑問還未解答。
OpenAI在8月的兩次交鋒為何先贏後輸?
在8月初的比賽里,OpenAI面對的是平均分6500分以上,由4個半職業選手+1名現役職業選手的組合(最低天梯排名也有1000名),在第一局比賽前5分鐘人類選手擊殺數就以0:5落後,13分鐘的時候人類更是被全面碾壓並「乾脆利落」的輸掉比賽。第二局戰況稍好一些,人類選手們足足「抵抗」了近30分鐘才敗下陣來。
到了8月底TI8的這輪交鋒上,形勢則完全逆轉。在頂尖高手嫻熟的配合下,AI成了被吊打的「小朋友」。儘管這幾場比賽OpenAI不乏一些精彩的亮點,比如微操依然犀利,對小規模戰鬥的擊殺判定依然精準,開局抱團推進的策略選擇頗為有效等等。
但總體而言,AI在8月初就暴露的問題依然沒能解決。比如,當著對手面開霧後繼續補兵、開局基地插眼、對勝率判斷存在重大問題、無法識別「隱刀」這個道具的作用(哪怕人類選手當著AI面隱身)以及對線補兵的問題等。
為何兩次對抗的結局如此不同?
第一個原因是心理素質。
觀眾衡量選手水平時往往會以其高光時刻為對照,卻經常低估心理因素的影響。要知道,不管職業還是半職業選手,他們是活生生的人,面對微操已經足以打爆頂尖選手的AI,人類選手從開局起就面臨著源源不斷的心理壓力。
這種情況下非職業選手很容易產生明顯的情緒波動,進而影響到後續發揮,特別是團戰失利之後,半職業選手就明顯給人感覺進退失據了。
反觀職業選手,因為綜合訓練強度大,經歷的各種大賽多,所以面對這些問題都有足夠的心理應對。所以,在第二輪交鋒中,儘管有不少頂尖選手遭遇被AI「秀一臉」的「侮辱」,但他們的發揮依然穩定,並沒有受到太大影響。
第二個原因是實力差距。
8月初與AI交鋒的人類選手已經算得上「路人大神」,不過與職業戰隊相比最大的短板在於沒有長時間訓練帶來的團隊默契與戰術選擇。
由此帶來的問題就是團隊缺乏默契,以及不同情況下團隊與戰術的選擇——比如團戰配合問題,在路人看來無關緊要的小失誤,在行動精準的AI面前就是一個致命的漏洞。這些問題經過AI的放大,呈現在我們面前的當然是選手們「菜雞」般的表現。
隨著這些短板被職業戰隊補上,AI在策略選擇上的短板就暴露無遺了。
在第一天比賽日,儘管前30分鐘AI表現很強勢,可隨著25-30分鐘的關鍵團戰失利之後,AI突然像是不會玩了一樣,不僅出現開大招打野的昏招,而且控制的英雄到處亂逛,最終被人類輕鬆戰勝。
第二日的比賽,雖然中國傳奇教練隊在微操上不如其巔峰狀態,但多年職業生涯的戰術素養和大局觀還在,特別是B神寶刀未老的強大刷錢實力,讓AI吃足了苦頭。
換句話說,在執行力和戰術選擇更高明的頂尖人類選手面前,一旦AI判定的高勝率套路被人類破解後,缺乏應變能力的弱點自然就清晰的展現在我們面前。
兩次「不公平」的交鋒意義何在?
坦白講,這兩輪交鋒對人類選手而言都不算公平。
首先是比賽的規則的不公平。
區區18個可選英雄且不能BP就不說了,還有不允許使用幻象和召喚類的英雄與道具等限制,而且8月初的比賽甚至給AI配備了5個無敵信使。
其次是AI信息獲取與反應速度的不公平。
無論是上輪交鋒人類神牛跳刀被AI光速變羊,還是本輪交鋒斧王跳刀吼的連招被AI各種秀,這種反應速度哪怕頂尖人類選手都做不到。也難怪有人質疑:斧王跳刀吼只有0.3秒延遲,AI基本都能以「0.2秒」反應速度讓斧王的跳吼落空,這還是「模擬」人類的反應速度嗎?
如果我們從商業的角度看待這兩場交鋒,很多疑問都能有合理的解釋。
OpenAI團隊用這樣不公平的方式展示自家產品,那點「小心思」我們也能理解:融資的時候向投資人介紹產品時用「AI可以在特定情況下戰勝人類」明顯比「AI雖然被吊打,但不乏有若干亮點」更有說服力。
對賽事方來說,這是一個很好的曝光機會,還有什麼比「AI大戰人類」這樣的噱頭更能吸引主流媒體的目光呢?對觀眾而言,看到一場別開生面的比賽既有話題性,又能滿足新奇感。
唯一不爽的,估計只有職業選手了:在這樣的規則下交鋒,贏了沒意義——打敗這樣的對手有何「榮譽」可言?輸了那更不甘心,以後還怎麼在江湖上「混」?
倒是AI在信息獲取與反應速度上的特點被一片「AI作弊」聲中被忽略了,事實上,筆者認為這值得一提:人類選手在面對巨大信息流時,大腦會針對不同信息進行優先順序區分,並且多數情況下會主動屏蔽一些自己覺得無效的信息。比如在DOTA團戰中,玩家經常會死追著一個目標打,從而忽略了自身可能身處險境——俗稱「上頭」。
而AI不同,它會對戰局所有信息都進行綜合處理,而且憑藉著256台Tesla P100強大算力的支持,這些信息都可以在規定時間內處理完成。這種對信息的全局過濾與計算,才是AI強於人類的地方——而AI秒羊,斷吼的「神操作」只不過是其中一部分罷了。
當然,這兩次交鋒對AI的重要意義不止於此。在此前的訪談中,OpenAI的團隊曾提到,AI每天進行200萬局的對戰——這相當於職業選手180年的訓練量 。
換成1名普通玩家這麼練18年,不敢說媲美頂尖選手,最起碼對遊戲各種機制和英雄都爛熟於心了,可AI只學會18個英雄不說,居然還有基地插眼,開霧補刀這樣的低級操作。這至少證明了一點:如此量級的訓練看似驚人,可就憑目前AI的演算法,學習的「效率」實在太低。
可從某種程度上講,AI學習更像是一個「黑盒子」,研究人員只能告訴AI基本的遊戲規則和學習的方式(演算法),剩下就只能靠AI在不斷學習中自行「領悟」。
至於領悟過程中有沒有出現BUG,研究人員很難判斷(數量太多,鬼知道哪場比賽出現過)。因此,通過更高強度的對抗以挖掘AI的不足是一條必由之路。
從採訪透露的信息看,兩次交鋒AI團隊都有不小的收穫:
第一次交鋒暴露出的不少問題已經為團隊指明了方向,其中一項成果顯而易見:AI「學會」了如何共用一隻普通信使而不是五隻無敵信使。
第二次的交鋒結束,但AI暴露出的勝率計算,胡亂插眼等問題同樣影響深遠——尤其是AI勝率預測的BUG,別看只是一組數字,但這往往決定了AI比賽過程中的策略選擇,明明勝率這麼高,結果實際遭遇戰/團戰的信息反饋又截然相反,很容易讓AI進退失據——解決了這個問題,也許下一次亮相,AI的整體實力又會有一次巨大的飛躍。
為什麼DeepMind失敗而OpenAI「成功」呢
相比阿爾法狗,OpenAI的遊戲之路似乎過得順風順水,從2017年3月OpenAI第一個可運行版本正式誕生,到去年8月份TI7總決賽現場正式亮相,OpenAI憑藉一手讓人驚艷的影魔,在中路1V1單挑中完勝頂級職業選手Dendi,從而實現了開門紅。
經過11個月的訓練與演算法優化,第一版的OpenAI Five就可以在一定規則限制下5VS5擊敗6000分左右的路人隊伍。到8月初,OpenAI Five已經學會了18個英雄的使用方法,與6000分左右的路人隊伍打的有來有回了;而8月底AI的表現也算得上可圈可點,讓人對它的未來充滿信心。
反觀阿爾法狗(DeepMind),從宣布和暴雪合作挑戰星際2以來就悄無聲息,結果9個月後突然宣布放棄星際2項目更是讓玩家大感意外。同樣是研究人工智慧,阿爾法狗背後甚至有谷歌站隊,無論是資金還是技術在理論上都比OpenAI團隊要強上不少,為何兩者的「命運」截然不同呢?
首先是兩者開局的「難度」不同。
DeepMind嘗試著直接使用圖像識別地圖上各元素的方式來替代使用遊戲API介面直接獲取遊戲各種數據,這無疑極大增加了難度(而且最終效果不佳)。而OpenAI直接使用了V社提供的API介面,可以比選手更直觀的獲得地圖內各種信息。
換句話說,DeepMind試圖直接繞過了AI發展的正常流程(由簡單到複雜,由弱到強),直接挑選了需要強AI才可以搞定的星際2(當然,DOTA2在某種程度上也屬於次一級的強AI),失敗是大概率的事件——事實上,DeepMind團隊在解釋失敗原因時也提到了開發過程中所面臨的難題都比想像的要更棘手,目前深度學習演算法的瓶頸等問題。
其次,兩者面臨資源需求不同。電子遊戲與圍棋雖然同屬遊戲,但從AI決策的角度看,兩者所需的資源(主要是算力)沒有可比性。
第一,棋局呈現出的信息是有限的,每一步落子有多少後續可能性「一目了然」;
第二,像先手、提子、打劫這些規則都是明明白白,對弈雙方任何行動都清晰可見;
第三,有明確達成目標的標準,沒有模糊的空間。
有了這些前提,AI面臨的唯一的障礙就是圍棋理論上擁有的近乎天文數字般的落子可能,而這AI恰恰可以通過遠超人類的算力「窮舉」所有可能,再這個基礎上再通過關鍵演算法的優化幫助(深度學習),才使得AI得以稱霸圍棋。
如果按這三個標準套入星際2和DOTA2這兩款遊戲,你會發現AI面臨的難度上升到了一個新的層級。除了勝利目標是明確的外,其他兩個特徵都不具備:
特徵一,兩款遊戲都有「戰爭迷霧」。
以星際2為例,迷霧背後可以做的事情太多了,對手是不是偷雞了?有沒有開礦?是攀科技還是暴兵?每一個決定背後又衍生無數的分支,對AI而言每一個決策背後的邏輯鏈條太長,使它們很難理解對手特定行為背後意義所在。
而現階段DeepMind的演算法無法幫助AI提高學習效率,甚至讓AI看人類選手比賽的錄像都比瞎練要有效率,可以想像,對9個月才學會「飛基地」的AI而言,以現在的效率等它戰勝簡單電腦恐怕要好久了。
特徵二,相比於圍棋3的361次方的落子可能,星際2與DOTA2戰局的複雜性增加了一個數量級。
像DOTA2目前龐大的英雄池以及BP所產生的英雄組合變化OpenAI就搞不定,要不怎麼一年多了才「學會」使用18個英雄?可以想像,隨著英雄池進一步擴大,OpenAI的演算法不改進,學習速度只會越來越慢。
相比之下,星際2難度更高,別的不說,單論星際2的單位不僅組合繁多而且數量龐大,甚至同樣兵種組合數量配比不同戰力都大相徑庭,在這種情況下AI還怎麼決策?
這個量級的算力已經不是目前AI所能承受的了。像這次TI8的表演賽,OpenAI這256台高性能設備已經佔了很大的空間了,再堆算力在演算法沒改進前投入和產出比實在太低,而且也違背了AI設計初衷(成本)。
最後,OpenAI更懂得宣傳和自我包裝。從1對1開始到路人5V5再到半職業隊,OpenAI的每一步走的都很穩健,為人類戰隊設置的諸多限制在引發爭議的同時,也成功的塑造了OpenAI「飛速進化」的形象。
相比之下,DeepMind團隊就要實誠的多,直接就把AI放在地獄難度的環境里摸爬滾打,愣是看著AI被虐了9個月,眼見情況始終沒有好轉就乾脆利落的宣布放棄。要按OpenAI的揍性,DeepMind在星際2里不還得從地圖全開,單一兵種限定開始?
AI為什麼老跟遊戲過不去
從深藍到阿爾法狗再到OpenAI,從國際象棋到圍棋再到DOTA2,每一次人工智慧名聲大噪都伴隨著一款遊戲的「淪陷」,這不由的讓人好奇:為什麼AI老跟遊戲過不去?
一大原因當然是宣傳的需要,AI技術並不是近幾年才突然出現的,在突破性的深度學習演算法出現之前,AI技術已經在實驗室里待了40多年。
事實上,一項新技術從誕生到廣泛應用,最艱難的不僅是技術瓶頸的突破,還在於漫長研發過程中海量資源的持續投入。考慮到不是每一個決策者/投資者都對AI技術門兒清(甚至在最終成果出現前,連科學家都說不清楚自己研究的方向是不是正確的)。那麼,總得有一個讓大眾能理解的載體展現AI技術的進展吧?
按這個標準,遊戲就很合適:一來它廣為人知,哪怕完全不懂的人,通過文章簡單的科普也能了解一二;二來其玩法也有一定的複雜性,能很好的展現AI的實力。
其次是遊戲本身的特性決定。從人類出現的那一刻起,吃飯睡覺之外的「娛樂」活動就已經牢牢佔據了我們生活的一部分,連動物都懂得嬉戲玩鬧何況人乎?
人類通過發達的大腦,發明出諸多規則不同的複雜娛樂,棋牌、電子遊戲在內遊戲類別正是其中的佼佼者。別小看這些遊戲,它們在某種程度上可以是現實中人類社會規則的投射與具現。比如棋牌遊戲的策略博弈,網路遊戲的團隊合作與集體決策等等。
同時,這些遊戲大多有一個「最終目標」,使得科學家可以非常直觀的看到AI行為產生的後果並進行相應的調試,從而達到提升AI決策能力的目的,整個過程不會產生任何負面的影響——雖然對那些被血虐的玩家而言遊戲體驗可能差了一點。
第三原因是遊戲的信息量與風險是可控的。從信息量的角度講,不管遊戲有多複雜,其信息量多少還是可以估算和預測大致範圍的,而現實中其他AI可涉足的領域,信息不但繁雜且隱蔽,AI根本不可能完全獲悉。
最近上映的一部電影《西虹市首富》就有這麼個場景:主角為了花光10億現金,專門到股市砸錢購買那些沒人要的垃圾股,結果股價反而因為這筆天量資金的湧入迅速上漲,最終讓主角狠賺了一筆。
像電影主角這樣突然心血來潮的行為,AI從何得知緣由又如何判斷其中的風險呢?所以,通過遊戲的訓練AI掌握人類的思維方式總比冒著巨大的風險讓AI給病人看病、炒股、制定政策要好。
我們應該如何看待AI?
每一次AI在遊戲內的進步都會引發玩家的擔憂,悲觀者認為照這個趨勢下去AI遲早會統治世界,到時候別說一些技術含量不高的崗位被AI替代了,連人類都可能淪為AI的奴隸。
這個論調看上去有點道理:像圍棋這樣棋牌遊戲,職業棋手的水平本來就是隨著時間的推移不斷提高的,可現在AI的橫空出世直接告訴所有人類「你們都別折騰了,我就是圍棋的天花板」,這讓人如何不心生絕望?
本來AI的計算能力就遠超人類,現在決策都比人類要強了,除了少數從事創意和科研的人類外,絕大多數人類有何存在的價值呢?
事實上,把AI在遊戲領域的成就當成是「毀滅遊戲」的人往往低估了人類心(阿)理(Q)素(精)質(神)的強大。
你AI牛B是吧?我不跟你玩不行嗎?遊戲開發商難道還會喪心病狂到強行安排AI虐玩家嗎?再說,AI強不強跟絕大多數人有何關係?難道沒有AI,我們的圍棋水平就可以達到世界第一嗎?難道沒有AI,我們星際2,DOTA2的天梯排名就可以俯瞰眾生嗎?既然做不到,那麼在我們頭頂的是某位人類大神還是AI有什麼區別呢?
另一個誤區是,AI在遊戲領域「血虐」人類只是手段而不是目的。正如前文所說,AI選擇遊戲領域持續發力,最終目的還是為了學習模仿人類的決策與預測能力,從而幫助人類進行決策——請注意,是輔助,而不是替代。
不過要實現這一目標,AI還有很長的路要走,尤其在樣本數量極少的情況下,AI如何通過「海量」的訓練來模擬人類基於經驗和直覺的決策呢?比如在遊戲領域,一些職業選手可能可以根據捕捉到的蛛絲馬跡判斷對手的戰術,可AI就得不停的進行自我訓練積累數據,一旦資料庫里沒有對手這種戰術,AI就會「犯傻」。
投資領域也是如此,當騰訊、阿里巴巴這樣的企業在上市時,AI如何判斷其價值?通過歷史上同類企業的情況進行分析?可在騰訊和阿里巴巴獨此一家別無分店,哪來的歷史資料?蘋果、微軟、谷歌都是唯一的數據樣本,如何預測這些企業未來發展前景?這要換成投資大師還用多想嗎?
至於AI替代人類工作一事,其實更沒必要驚慌,要知道現在已經有大量機器人應用於一些流水線生產的行業了(比如富士康),也沒見對勞動力市場產生太大的影響(真要讓在座諸位去工廠上班怕是沒幾個人願意),畢竟現在已經是勞動力匱乏的時代了,買一個掃地機器人總比請專職保潔員要便宜吧。
關注 網易愛玩 ,閱讀更多精彩的原創內容(づ ̄ 3 ̄)づ
您還可以繼續閱讀↓
網易愛玩:血源?仁王?天誅?《只狼》的遊戲基因從何而來推薦閱讀:
※「遊戲促使現實社會裡暴力蔓延」?這個說法不新鮮,也一如既往值得商榷
※一款武俠遊戲,讓BioWare和中國市場「決裂」
※《胡鬧廚房2》:單身狗也能玩轉的「分手廚房」
※孩子沉迷於電子遊戲
※閃光的最初——SNK三大街機名作起源