如何看待 TI7 上與 Dendi solo 的 OpenAI?

近日剛好DeepMind在星際2上的項目也有新聞出來,但據說是沒那麼順利,現在連簡單電腦都打不過。

而openai一亮相就完全碾壓一票頂尖選手,為什麼會有這種差別?

造成這種差異是因為兩個遊戲間的區別,還是兩個團隊的區別?

本題已加入圓桌 ? 電競風雲 · 決戰肉山,更多「刀塔(DOTA 2)」相關的話題歡迎關注討論


最新消息,AI已經被乾死50多次了:https://www.google.com/amp/s/amp.reddit.com/r/DotA2/comments/6t8qvs/openai_bots_were_defeated_atleast_50_times/

一個簡單的套路是勾對面的兵然後帶著在野區轉,AI就懵逼了。也有基本功超強的人正面乾死AI的。還有用小雞勾引ai讓他被塔砸死的。這樣看來openai的ai基本還是停留在微操碾壓的級別上,缺乏套路和反套路能力,離5v5還有很大距離。


OpenAI只是宣布一對一能勝職業選手。一對一相對容易,像星際這邊兩隊兵對戰已經可以打得不錯了。聽下來是用Self-play的辦法讓Bot去和自己玩不斷提高,五對五還沒有結果。

Update (似乎找到了克它的戰術):

OpenAI bots were defeated atleast 50 times yesterday. ? r/DotA2


聽聽現場觀眾的一次次驚嘆,不管難不難做,都起到了impressive的作用。不管是AlphaGo還是OpenAI的這一次,都已經走在推廣普及的道路上了

而我們不用VPN連tensorflow的官網都他媽連不上。。。


dendi憤怒的劈開了機箱,發現裡面蹲著一個cty。

其實有各種版本,蹲奇廳長的,世界第二可愛的,我虎撲的人才說蹲了個黃翔哈哈哈哈哈哈哈哈哈哈哈笑死

轉自網路,侵刪。


如樓上所說,這個ai已經被現場水友搞死了。

首先,大家必須要明確一個問題——開發ai的目的不是打贏人類,而是,在人類擅長的領域在和人類的公平競技中打贏人類。否則則沒有任何意義——光在影魔solo這一點上,不用人工智慧的ai,隨便寫個腳本都能戰勝人類,但那又怎麼樣呢?歸根結底,我們要的不是戰勝人類的機器,那樣的話流水線上的機器效率都能戰勝人類,我們要的是「智能」,就是電腦能不能不通過人為設定的價值模型和腳本,自己通過學習戰勝人類。

而這一點,openai並沒有做到。我們從兩個角度來說這個問題:

這是人類擅長的領域嗎和人類的公平競技嗎?

不是。

1,只有影魔,影魔沒有控制技,之所以solo用它是因為它影壓範圍不顯示考驗人類玩家的判斷能力以及影壓是非指向技所以考驗玩家對於英雄面向方向能否精確控制。這點對於人類玩家非常難,所以我們用它來1v1solo,認為這個代表了人類玩家1v1的最高水準。而對於ai卻非常簡單。例子就是即便人類頂尖玩家影壓也會失誤,但是這個ai現場實測的結果是影壓必中,換句話說,電腦是一個把影壓當指向技能玩的人,所以這本身就不太公平。

2,只有中路solo。dota以及星際這類遊戲和圍棋最核心的區別就是圍棋是信息完全對等的遊戲,而dota和星際不是,兩者都有很多隱藏信息。而中路solo恰恰是隱藏信息最少(估計只有下一件裝備的選擇方面是隱藏的)的遊戲方式。這一點的難度和正常遊戲模式完全不可同日而語。換句話說,中路1v1比的是操作,而操作這點本身就是ai的強項。而從信息的分析到判斷上,所需要的信息無非是對方英雄血量,走位和出裝,以及小兵血量,兵線和塔血量,這種程度的信息量,和圍棋沒法比。

此外,他擋兵無敵,我們可以看看拒絕者和奇蹟哥在dac上的solo,拒絕者第一波擋兵擋得好,直接利用這個優勢吊打了奇蹟哥沒給任何翻盤機會,所以說擋兵這個點在solo上的重要性是巨大的。而電腦實現這一點也完全體現不出來它智能的水平。

3,團隊配合。dota歸根結底是個團隊遊戲,而團隊遊戲中只考慮solo其實真的沒什麼意思。openai開發者說下個目標是5v5,但我個人覺得這沒有意義。有人可能會覺得5v5對ai來說難,實際上,5v5的重點是,ai沒法和人類在同樣的標準下競技,因為如果ai的決策是確定性的,那麼5個ai面對同樣的局勢會進行同樣的判斷,也就是每個ai都知道隊友會做什麼,這就和一個ai操控五個英雄沒區別。dota本身就是一個團隊遊戲,五個9000分組隊也不一定拿ti冠軍的原因就是團隊配合可以說是dota最重要的一環,而團隊配合的最終級目標就是大家每個人不用交流都能猜到對方想什麼。可是,ai天生就實現了這點。

綜上,openai挑戰的這個項目,其實是非常不利於人類的。而且,從對dendi的表現上來看,它取勝的關鍵也無非是精準的影壓,取消技能,和卡兵,換句話說,就是操作。有人可能會說——操作也是從零開始訓練出來的啊!開發者也說了最早ai啥都不會幹。如果這麼說顯然就是對於人工智慧的發展一無所知,這些都是目前機器學習中的基本,alphago也是這麼學出來的,而圍棋的難度,要遠超這裡影魔的1v1solo。

ls還是別的帖子里也介紹了,這裡OpenAI用的思路和隔壁Deepmind來學星際的思路是完全不同的。星際那個是直接讀取屏幕顯示數據然後從零開始學,而這個,根據大牛們的推測,首先是有API介面的,其次,類似於補刀,釋放技能之類的機制,應該是已經定義好的,否則短短兩周之內可能連補刀都學不會。所以說,一個是把一個什麼都不懂的嬰兒扔到電腦前讓他看無數盤星際比賽來理解星際是怎麼打的,一個是把一個有基本遊戲基礎的人放到電腦前讓他學影魔1v1solo,兩者難度不可同日而語。

所以,用它來說「ai打dota戰勝了人類」也是非常可笑的。

第二點

OpenAI真的戰勝了人類嗎?

也沒有。

至少,獲得了影魔至寶的現場水友們可不會同意。

雖然只訓練了兩個星期,但是開發團隊顯然對於他們的結果很有信心,否則也不會發影魔至寶了。

而這個被水友吊打的結果,我覺得是在他們意料之外的,否則的話,他們估計不會這麼草率地就披露這個AI了。

AI目前暴露出的問題有幾個:

1,訓練樣本不足。當人類玩家把兵勾走的時候,AI會出bug不知道該幹啥——這顯然是訓練樣本不夠的鍋,也就是說,遇到這種情況,ai不要說正常應對了,連基本的決策都做不出來,基本上表示懵逼:「卧槽這是啥,沒見過。」

此外,被人類玩家在卡兵的時候三影壓或者被殺雞這種情況,ai可以應對,然而作出的決定卻不是最佳的。

這兩點一方面說明訓練樣本不夠,說明AI也許只用了職業高手solo的數據來訓練。但也暴露了另一個問題——這還只是1v1,這還只是中路,這還只是以殺英雄或者拆一塔為目的的solo。而dota中的野路子何其多,究竟要多少樣本才能訓練得對於每種野路子都能做出最佳決策?liquid對lfy第三場先知配合拉比克拉上路兵線到野點然後兩分鐘推掉了上路一塔,這種情況可能在職業對決里可能都沒出現過幾次,AI如何對於這種情況進行正確的決策?

而換個角度想,如果AI不能應付dota層出不窮的野路子,會時不時地被人類搞出來的怪招弄得不知所措,那麼它距離「智能」的距離還很遠。

2,對價值判斷上仍有很大缺陷。這個團隊自稱他們沒有人為加入規則,一切都是給定殺人或者推一塔的目標之後AI自己學習出來的。Alphago也是這樣,然後,我們可以看到,在和人類的對決中,狗做出了很多人類不會做的動作,因為在它的價值估計中下那些步戰勝對手的概率更大。而這次對決中,我們發現AI的選擇和人類如出一轍——卡兵,對線,壓制,影壓帶走。一方面,這說明我們玩dota的方式是對的,但另一方面,它目前還是在對人類玩法的粗暴模擬。尤其是當它再被殺雞之後輸掉的時候,我們發現它顯然對於雞的價值判斷出現了問題。這也許也是訓練樣本不足的問題,但是從另一個角度講,這個AI暫時還沒有表現出它獨特的判斷力,我們無從得知他目前選擇的和人類玩家一樣的遊戲方式,是他判斷出來的最優解,還是單純地模仿而沒有進行判斷。

3,對於非對稱信息的處理目前看不到任何獨到之處。圍棋是對稱信息中最複雜的遊戲,而人工智慧已經攻克了這一點。而對於非對稱信息的博弈之中,人工智慧也攻克了現金局的德州撲克。然而,對於更複雜的非對稱信息博弈,AI目前還沒有更多的突破。而這裡,即便是中路1v1solo這麼簡單的信息分析,AI目前做得仍然不完美。ls有評論里說了,8000分大神仍舊可以通過使用特殊道具正面硬剛AI。這一方面還是說明了訓練樣本不夠,另一方面也說明了AI現在對於道具這個可以說是中路1v1唯一的未知信息的分析上能力不足。而在真正的dota遊戲中,未知的信息又豈止出裝和道具?換句話說,AI目前在這類遊戲中最複雜的幾個難點上,沒有令人看到什麼實質性的突破。

4,AI現在甚至還沒觸及到dota遊戲乃至人工智慧中的最複雜的問題——和人類合作。

上面已經說了,我認為AI的5v5不是終極挑戰,因為AI在團隊合作方面有先天性的優勢。ai的最終級挑戰,應該是如何和路人隊友配合爬天梯。這就和現在自動駕駛的核心難點一樣——單論開車,ai絕對比人類開的好。如果世界上所有的車都是自動駕駛,所有的路都是封閉的,那ai實現沒有任何難度。可是自動駕駛最大的難點就在於,如何和車開得不好也不那麼守規矩的人類一起在路上開車。而dota以及類dota遊戲人工智慧最大的難點不是如何和人類對抗,而是如何和人類合作。


先說結論:OpenAI的此次勝利,宣傳意義大於科研價值,所取得的成果遠小於AlphaGo

當我們在說AI戰勝人類的時候,我們在說什麼?

AI的最大優勢,是他們對於規則的理解更接近本質,他們通過優化演算法和大量計算,能夠更接近完美的解決方案,簡單點說,AI擴充了我們對於事物的理解。

這也是為什麼AlphaGo如此驚艷的原因,他能顛覆人類關於圍棋的定勢,創作出很多按現有範式來講很傻的動作,但這些動作最後被證明是有效的。

而OpenAI的這個DOTA2BOT(後稱BOT)呢?

他的所有行為都只是在模仿人類,並沒有任何超出人類行為的舉動。

從出裝路線,到開局的卡兵,到對線和影壓,除了精妙和精確的操作,沒有任何超出想像的舉動。

順便一說,影魔solo是個很取巧的選擇,把遊戲里的變數減少到了極致。

沒有控制技能,只有不同的輸出方式(平A和影壓),整個模型被大大簡化。

這場勝利毫不意外。

BOT擁有完美的操作,他可以一邊fake影壓,一邊走位,一邊買裝備拉雞,還能保證最優化的補刀,他的指令清晰而明確,毫無任何遲疑和情緒,就如同Dendi最後感嘆的:BOT完全沒有任何遲疑,這對於他來說是最不適應的一點。

更別說,這次BOT使用的遊戲內的參數,並沒有任何視覺方面的處理(其他幾個開源的遊戲AI競賽要求都是讀取遊戲畫面,對圖像進行處理再進行操作),這個基本等同於作弊了。

最後,從solo到5v5的全局比賽,這個難度的提升是很大的,基本等同於從一維到二維的變化,更何況,到時候AI使用的可不僅僅是SF這樣一個單純的輸出英雄了,看他們團隊的架勢,應該是5v5有了一些成果了,期待明年TI8上BOT的表現。

——————回復一些評論————————————

他們團隊所謂純自我對弈學習這種話就是扯淡,你們可以找幾個真的自我學習的項目去看看學出來的效果,都是一些看起來詭異無比但是效果很好的結果,這個BOT打的跟人類操作一模一樣,基本上是人類操作的加強版,沒有任何詭異的感覺,絕不可能沒有加入人類先驗信息,之所以選擇SFsolo也是基於這個考量,變數單一,如果他們真的自我對弈,放一些其他技巧性的英雄會更有看點,因為結果真的可能顛覆人類的理解。


這個AI的每一步操作都令人震驚,Dendi居然在短短几分鐘內就技不如人,甘拜下風。這位烏克蘭老司機不遠萬里來到西雅圖被AI虐的故事,簡直是聞者傷心,聽者流淚。(笑)

V社瞞著玩家和開發社區,偷偷請OpenAI做了一個這麼強的AI。V社的ChrisC一直負責dota2 AI及其API的開發,他之前說最近忙於國際邀請賽,大家原以為只是做一些普通的工作,沒想到原來是去做這個了。不過令開發社區比較失望的一點就是,V社並沒有讓已經能夠5V5的創意工坊AI打一盤表演賽,也許是為了節目效果考慮吧。也許以後就沒有人能問出,「為什麼dota2的ai這麼菜」這種問題了。

從AlphaGo在圍棋上取得巨大成功後,AI在其他領域取得進展也只是時間問題了,卻沒想到在遊戲方面這麼快。儘管前途是光明的,道路卻是曲折的。OpenAI在1V1上取得了碾壓性的成果,花費了20小時的訓練時間,而如果是在5V5上進行訓練,那麼需要的時間則成指數增長,所以離可見的AI戰隊VS職業戰隊的比賽也許還需要一段時間。儘管有人說AI應該通過攝像頭和機械臂和人類對抗,但我認為這根本不是重點。如果真的到了TI冠軍不敵AI的時候,我相信他們也會像AlphaGo一樣選擇永久退出Dota比賽,將這個舞台歸還人類。

大家還是要珍惜能和現在的傳統AI遊戲的時間吶,以後可沒有這麼溫柔又有一點傻氣的AI陪你玩了,屆時可能出現以下問題:「被AI完全碾壓,喪失了遊戲信心是一種怎樣的體驗?」,「拿下dota2AI的一個塔是怎樣的一種體驗?」 「打AI4=1,8000分以上來」

也許這就是傳統AI退出歷史舞台的時刻了吧,不過在此之前,傳統AI還是會陪伴著每一個新手的成長和娛樂玩家的日常遊戲的。


跑個題,看到Dendi還是挺心酸的,這個逼是真愛遊戲。

而且他為navi效死忠至今。
希望老司機一切都好,實在打不動了去做個解說吹吹比


目前看來只能1V1,但是我覺得5V5也只是時間問題。

其實吧,當AI能戰勝國際象棋冠軍時,圍棋選手也是很不屑的,因為圍棋比國際象棋複雜程度高了好幾個緯度,但是當阿爾法狗出現時,所有人都傻了眼,到後期,人類反倒從狗的戰術中學到了從未想過的新思路,柯潔也因此又提升了一個等級。我很期待未來dota的AI也這樣給大家提供新的戰術體系,使這個遊戲更豐富多彩。


怎麼感覺題主有吹OpenAI黑DeepMind的嫌疑呢…

這個限制的是影魔1v1中單一個塔,電腦只需要把補刀和壓人做好就可以,離使用5v5使用所有英雄的組合贏得比賽還是很遠的。無論是Dota 2還是SC2,解決整個遊戲都需要更多的計算資源和更好的演算法,這也揭露了目前RL演算法很多的問題,例如long-term credit assignment和meta learning。個人認為這些問題不解決,光靠A3C和self play要解決這些問題還是很有困難的。

所以比起爭論那個組織更強,還是更關注下OpenAI怎麼訓練的/如何更好地使用DeepMind提供的平台吧。


讓我想起了youtube上很流行的一個星際二AI用狗勇闖坦克陣的視頻。這主要還是要看到底限制了AI什麼,是不是會加入按多了手酸冒奶、眼睛看久了瞎,隔一段時間一定要放一隻手出來喝寶礦力,被人聊天流噴了就會改用激進策略等設定。不然你哪怕只是限制APM到60,人類從一開始就打不過的。


我記得直播說,這隻ai先蹲在泉水死活不肯出去,然後終於開始推點兵線了……

然後就完虐了sumail rtz等,最後再送一送老司機

想說它要是一直跟魚學的話,會不會學會a裝備送人頭什麼的


感覺好萌啊(? ̄? ??  ̄??)


我認為表演意義大於實際意義

AI確實是未來的發展趨勢

阿法狗也確實擊敗了李世石、柯潔等頂尖圍棋高手

但是dota2和圍棋有本質上的區別

OpenAI也不是阿法狗

openAI公司信心滿滿地邀請水友挑戰他們

勝利者可以獲得影魔至寶

然後...

openAI的頭都被水友們錘爆了

50份至寶短時間內被一搶而空...

廣大dotaer表示有本事別設置獎勵上限

我們能贏到你破產~~


偏個題,去年是VR年,今年又炒人工智慧,各種名詞一起上把人忽悠得一愣一愣的,各路營銷號圍觀群眾驚呼AI不可戰勝,人類馬上就要被AI超過了......
然而AI這塊,基礎理論都沒解決,距離真正的智能還早著呢,蛤字都還沒一豎,根本不必大驚小怪。
結果大家也看到了,這個BOT還是停留在操作的層面上,噱頭大於實際成果。電腦操作比人類強很奇怪嗎?報道的時候掐頭去尾就成了AI戰勝人類職業哥,搞個大新聞,完美。
至於說什麼bot只了學習20小時,要是學習幾天就逆天了,我還是建議外行別輕易下結論了,此學習非彼學習,不信就走著瞧,別忘了之前AlphaGO剛打完柯潔的時候多少人信誓旦旦地說SC也不在話下的...


solo更多比拼的是操作層面,ai在反應速度,失誤率方面天然有巨大優勢,這是計算機的機械本質決定的。
5打5則完全是另外一個遊戲了,類似圍棋,比的是策略。
AlphaGo之所以驚艷,是在人類一直引以為傲的複雜策略處理方面擊敗了人類。如果操作方面也有的比,那還造各種機器各種計算機幹嘛。


第二把dendi故意放兵看ai如何應對 ai在發現之後也選擇了放兵 這個細節真的挺驚人的


心塞 我打了兩年的影魔功力還趕不上一個才學習了20小時的ai 機器人這種學習速度簡直就是開金手指嘛!


請問 這個openAi哪裡可以下,

想感受一下。


OpenAI和兩個新英雄。。。

V社對不起,我再也不黑你們天天度假了。

就當全明星無事發生。


多看新聞,少yy


推薦閱讀:

《植物大戰殭屍 2》的遊戲體驗如何?
蘋果花錢讓 EA 延期推 Android 版《植物大戰殭屍 2》嗎,是否屬於不正當競爭?
《植物大戰殭屍2》能比上一代更成功嗎?
魅族 MX3 發布會有什麼精彩看點?

TAG:人工智慧 | 刀塔(DOTA 2) | 深度學習(Deep Learning) | 強化學習 (Reinforcement Learning) | DOTA 2 國際邀請賽 TI7 |