如何評價 DeepMind 於2016年9月12日公開的 AlphaGo 自戰棋譜及3月人機大戰解說?

2016年9月12日,DeepMind團隊推出了這一系列的棋譜。

地址在這裡:https://deepmind.com/research/alphago/alphago-games-simplified-chinese/。解說者是古力九段和周睿羊九段,解說內容有兩個:一個是AlphaGo和李世石對弈的5局;一個是AlphaGo自己與自己下的3局;解說內容非常詳細:

個人最感興趣的是樊麾在簡介中說:「AlphaGo在很多局部的定型,以及布局的配置上有很多自己的看法......AlphaGo的新招法,給了他們許多的啟發,這些啟發不光是技術上的,更多的是對圍棋的一種新的理解,一種更加自由的和開放性的想法以及思路,當然在實際運用上不一定立刻就會獲得好的效果,但從長遠看。一定會對整個圍棋技術的進步起到積極的作用。」

希望能通過對這個問題的討論,人工智慧和圍棋領域的知友能夠相互啟發。


研究了兩天,感覺世界又大了一點。

第一盤對於中國流的騷擾,後半盤各種驚天轉換。黑右邊茫茫大空中野蠻生長的白棋兩子,都給人印象深刻。

而這盤棋,我覺得雙方隨時會崩潰的局面卻保持了微妙的平衡,結果勝負只有兩目半。要知道,每隻狗的時限,都是五秒。。。很難想像人類在這速度下會下出什麼來,估計會留下一張不忍卒讀的棋譜吧。

第二盤是白汪老師猙獰畢現的一局,白在優勢下突發殺手,黑始終掙扎在薛定諤的條件下,有活路,但苟活贏不了,而唯一疑似的活法是自身極重的劫。黑汪老師選擇了奮戰至死,從白七十四手決斷開始,到黑伏誅,激戰持續了一百手。白汪老師幾乎展現了什麼叫機關算盡。而大戰的開始,源自黑汪老師對於中國流布局的不滿,選擇了激烈的爭頭,白汪老師用五十二手點給予黑方痛擊,從而取得優勢。而黑方稍稍過線的拼搏,以被吃光告終。

如果早看到這盤,關於打劫的爭論在比賽開始前就會煙消雲散。

這是一盤名局。

第三盤是慢棋。

這盤我不能評價什麼,因為要學習的太多。這盤有意思的地方在於最後中腹的戰鬥,雙方都覺得自己優勢。而白汪老師最後以自殺的134,136手,奠定了勝勢。而黑汪老師明明能吃掉,卻選擇了放生。。。。因為黑汪老師在慢棋條件下,計算了一個一百多手的收官圖,算定自己吃棋要輸一目半。白兩塊看起來必死的棋,最終分別脫困,右邊白142又是淡定的妙手,讓人想起了陳耀燁少年成名戰勝謝赫的諸葛退兵勢。

劣勢下,黑汪老師又一次選擇了攪局,越損越多,至兩百手後認輸。

布局留下的思考是,星位點三三的應對,所有人類都認為,拐下是嚴重的妥協,擋住才是氣節。

汪老師們分別對此說No。

而上方斜拆三的判斷,每一手都和我的判斷不符。。。

要學的太多了,感謝汪老師們,感謝谷歌


反對將AlphaGo吹上天的答案。

AlphaGo強,這是大家已經達成共識的。但是我不認為AlphaGo已經強大到足夠碾壓所有職業棋手的地步。沒有別的意思,我只是認為任何一位頂尖職業棋手仍然有10%-20%機會在執白的時候戰勝AlphaGo,以V18版本為準。

@zn gkcx 看到了AlphaGo強大的一面,不過AlphaGo在這三局裡的表現仍然可以看出一些系統性的缺陷。

先說被吹上天的白136。

這是白方扭轉本局乾坤的一手。妙手無疑。只是。。

AG能在一分鐘一步的時限內算到這一手,計算力秒殺所有職業高手(對這一步的必然性,古力和周睿羊合力研究了幾個小時才想明白,其謀劃深遠可見一斑)。

果真如此嗎?

注意旁邊樊麾的解說:

但是,在白棋136扳的瞬間,勝率開始發生了變化,似乎之前雙方沒有發現這步棋。

很明顯,白方下出136扳是偶然的。換句話說,如果「抹去AlphaGo的記憶」,給它一分鐘時間重算一遍這個局部,它未必能算到136扳。

我看過很多吹捧古棋的文章/帖子,裡面用到一個常用句式,

這個局部有XXX多的變化,而最終的結果都是黑方不行,證明白方在下這步棋之前一定已經胸有成竹,算清了所有變化才落子,古人計算力之強大可見一斑。

古人計算力是否強大暫且不論,這樣的邏輯確實是說不通的。

我靈感突發,感覺這步棋可行,走下去試試看?哎呦還真行哎╮(╯▽╰)╭ 復盤的時候再擺擺看對面換種走法行不行。。

AlphaGo雖沒有那麼多花花腸子,但是它確實也沒有算清所有變化,否則勝率不會在這裡發生突變。

接著這個局部往下說。

黑139,破罐破摔、安樂死的一手。

其後白棋於A位連回,黑H14吃兩子,白P12小尖連回右邊。此處樊麾評曰

因為白140多了一子,白棋142小尖已經與中腹聯絡了。至此黑棋大敗!

這個時候雙方都已經看清楚了形勢,白棋的勝率也飆升至65%。

好,那麼黑棋的其它選擇呢?

這是支撐白棋136妙手成立的核心變化。此後黑棋選A或B引出數十個樊麾給出或者沒有給出的變化圖,非常複雜。

其中,AlphaGo給出的雙方最善變化是

樊麾評論

AlphaGo認為如果黑棋直接在1位沖斷,白棋會在2位斷一個,黑3退,之後它計算至69手,認為此局面下白棋小勝。經過古力和周睿羊的檢驗,似乎每步棋都合理,雖然是官子階段,但是能夠想出一個長達69手的變化圖,而且每步棋都接近最佳手段,這實在是太不可思議了!

之後的變化,我簡單擺了一下,大致是黑棋盤面6目左右(或許有1目誤差)。

那麼問題來了。黑棋經過這麼一個長達70手的變化圖,計算出自己大概要輸1目半,然後放棄了這個變化圖。可是,實戰的選擇真的比這個圖好嗎? 且不說黑3走在4的分支複雜程度之高,就算按照這個平穩收官的分支,白棋也並非穩操勝券。注意,黑棋只需要便宜兩目就能逆轉。

比如說,白棋48就是激進的手法。如果黑49選擇在50位拚命開劫,結果如何? 如果黑棋稍微改變一下收官順序,比如27、28這個先手一目的交換先不走,為下面的劫爭多保留一個劫材,是否又增加一分打贏劫爭的把握?如果白48像實戰一樣,因劫材不足等原因退讓,此處消長,黑棋能否就此逆轉?

種種可能的變化,不管是按照人類的思維,還是AlphaGo的判斷方式,黑棋選擇上面兩圖的勝率都無疑大於實戰。AlphaGo的實戰,是在落後的情況下,選擇了安樂死。

實戰,黑棋的勝率一路暴跌,以致於走出了153這樣類似對李世乭第四局時的「瘋招」。只要AlphaGo在落後局面下瘋狂自殘這個bug沒有被徹底修復,人類就有機會戰而勝之。

畢竟,執黑的AlphaGo默認自己一開局就落後了。


2016年9月12日公開的 AlphaGo 自戰棋譜是在和李世石比賽前產生的,也就是和李世石對戰的V18這個版本。

以前知道樊麾下快棋贏過AlphaGo,還以為快棋AlphaGo表現會差一點,這次公開的前2局都是快棋,失誤應該比職業棋手少,如果是每步5秒的快棋,明顯更難贏AlphaGo。

不管是快棋還是慢棋,或者是對李世石的那5盤棋,總的來看,我覺得Value Network絕大部分情況下判斷還是很正確的,基於Value Network做出的判斷,各種出人意料脫先、轉換似乎都是小菜一碟。

職業棋手利用棋理來算下一步,是強項也是弱項,有時更快找到合理答案,或者是能找到比AlphaGo更好的答案,但有時候也會因此出現盲點,AlphaGo不懂棋理,不懂脫先,但是計算結果會告訴它這裡脫先不是問題,另一個地方更大。AlphaGo目前沒有好辦法找到最優解,但總的來說棋手犯錯的機會大得多,棋手一旦犯了價值判斷上的錯誤,很可能就被追究,而AlphaGo通常只是很偶爾犯一些不致命的錯誤,如果不是像第四盤那樣的致命錯誤,棋手很難贏。

下一次人機對戰,AlphaGo肯定是新版本了,如果這是個好版本,也應該是犯錯的幾率更低,至少是避免了某種類型的錯誤,另一方面,AlphaGo的Policy Network、Value Network是可以不斷進步的,理論上,越來越難贏AlphaGo了,能贏AlphaGo的應該是另一個更好的軟體。


正在仔細的擺,不過有一點可以肯定,最近職業棋壇的一些新手的出處現在明確了,是出自AG的自我對弈棋譜的。

擺完第一盤的第一感:AG太強大了,這是5秒一步的棋,但就是V18版本的5秒一步,其中蘊含的深刻的計算與判斷,都是頂尖水準的。

第一盤至少說明五點:

1、AG不怕打劫,需要打劫才能爭勝的情況下會毫不客氣的跟你打劫。

2、哪怕是5秒一步,AG仍然能夠在局部複雜戰鬥中看到幾十步開外的深遠變化(比如156手粘出),這個計算力是秒殺人類的,任何人類棋手在5秒一步的情況下也不可能有這種計算力。

3、AG也會保留變化(比如下邊黑棋不做粘三路和白棋粘的交換,保留斷的可能),需要保留則保留,不需要則交換掉(比如84手沖一下)

4、AG的全局判斷能力簡直逆天,在5秒一步的情況下依然能夠準確判斷各處價值,在不斷的作戰與轉換中掌控全局。

5、根據AG的成長曲線,V20版本的AG可以輕鬆讓人類頂尖高手兩子取勝。

把第三盤也仔細擺了擺,在一分鐘一步的時限里,AG已經可以做到行棋完全超出人類的思維之外,但過程與結果又是合理的,沒啥說的,以後跟AG學圍棋就好了。

1、在AG眼裡,黑棋最佳開局是星小目掛一下再回到中國流,白棋最佳開局是二連星。向發明中國流的前輩致敬。

2、對付中國流,掛星位再直接點角是最優解,向邱峻九段致敬,印象中掛角再直接點角是他的研究成果。面對點角黑棋拐住是正解,扳下以後的複雜變化業餘棋手可以捨棄了。

3、對付中國流小目那一邊,進入的最佳手法是碰星位,這個絕對是超出人類想像的一手。

4、二子頭被扳也不見得不能下,中盤作戰一切都要看周圍子力與全局配合。

5、136虎多送一個神來之筆,如果是人類在大賽中下出,必然是史上最佳妙手。AG能在一分鐘一步的時限內算到這一手,計算力秒殺所有職業高手(對這一步的必然性,古力和周睿羊合力研究了幾個小時才想明白,其謀劃深遠可見一斑)。

------------------------------分割線------------------

評論里有人質疑我對AG實力遠勝人類的判斷,質疑136是不是那麼絕妙,這裡統一回復一下:

1、AG不是圍棋之神,甚至可以說AG離圍棋之神還很遠,但離圍棋之神很遠和吊打人類並不衝突。假設人類在圍棋領域戰鬥力只有5,圍棋之神是100,AG是30,完全符合棋神吊打AG,AG吊打人類的假設。所以拿AG的下法不是理論上的絕對正解來說事的,都高估了人類,就好像我只是不入流的業5,野狐8D的水平而已,但是吊打業1,野狐2D的選手沒有問題,我的下法對於他來說都是神之一手,因為無論我下的是不是正解,他在實戰中都懲罰不了我。靠局後擺變化的,叫復盤勝。

2、有人認為AG的演算法不是基於邏輯的,所以還是有失誤,所以無論AG怎麼進化,人類還是有機會贏。這種說法首先一個大的誤區就是認為人類的圍棋是邏輯性的,事實是人類圍棋思維絕大多數都不是邏輯性的,而是經驗的提煉和總結。嚴格的邏輯是類似從數學公理體系推理出各個定理那樣的,請支持人類圍棋是邏輯體系的同學,用數學和邏輯學的方法論證人類圍棋的各種下法的嚴格邏輯性,把圍棋各種下法定理化、公式化。隨便想想也知道這是不可能的。既然人類圍棋不是邏輯嚴密的,那AG是不是邏輯性對於是不是可以完全碾壓人類沒有什麼關係。

3、136計算的變化是不是遠超人類。人類高手的實戰計算範圍大概是幾百個變化圖,合計幾千步變化。但只要看了AG論文的同學都知道,這個計算量對於AG不值一提。AG現在已經可以做到計算複雜局面下未來70步左右的變化了。一個簡單數學題:假設未來70步中,平均每三步棋產生一個分支,每個分支平均有兩種選擇,這70步棋一共有多少個變化?如果把AG對136這步棋所有的深度計算都以變化圖呈現出來,這本書有多厚?

4、還有人認為我是雙重標準,職業棋手認可的AG的下法就是AG棋高,職業棋手不認可或看不懂的是職業棋手水平差。這其實不是雙重標準,而是實力有明顯差距的必然結論,比如我看職業棋手的棋,不看講解的話也能看明白一些招法的必然性,但更多的是我看不懂或覺得莫名其妙的。但是我知道這些棋大概率是我水平差看不懂,而不是職業高手下的臭。所以你如果接受AG遠超過職業高手的水平,那對於我的結論就不會覺得奇怪,如果你還抱著人類高手不遜色,差距不大的意識,我不和你爭論,我們靜觀事情的變化發展就好。友情提示ZEN在得了AG的真傳後水平突飛猛進,現在已經可以快棋戰勝頂級職業高手,完全復現了AG的學習成長曲線,而ZEN可是隨時願意出來下棋的商業軟體。再過幾個月如果出現ZEN可以吊打全人類難求一敗這種事是很正常的,而AG這個時候可能也會出山,目標不是人類,而是虐殺ZEN證明自己的大哥地位。

5、今天瀏覽了一下其他答案,發現那個叫羋郁的又在這裡大放厥詞胡說八道,本來他的垃圾答案是沒有任何討論價值的,不過他還特意提到我,那我就不客氣了。他帖子里那個圖是AG自戰對局第二盤中接近終局的一個場面,這個時候黑棋怎麼下都不行了,已經是必敗的局面。而我們都知道,必敗局面下AG總會下一些莫名其妙的棋,類似於求投場,這是AG的演算法決定的,並不是AG水平的真實體現。拿著這種棋說事,可見羋郁對於圍棋,對於AG是多麼無知。尤其可笑的是,這人一邊擺出一副跟人討論的架勢,一邊兩句話說不過就拉黑,可惜你拉黑的再多,也不能給你的垃圾回答多帶來一個贊和感謝的。


我僅僅糾正一點,中國流小目一側的進入,靠在星位這一手早在阿爾法狗被研製出來之前很久就有人第一個下出來過,具體比賽我不太記得了應該是中國的連笑第一個下出來的,而且當時效果不錯,所以不要因為對職業比賽了解太少就對AI的一些招法感到震驚,有些招法職業棋手都下出來過


到現在還有幾個答案認為AlphaGo是靠窮舉的……看來科普的道路還很漫長……


從這幾盤棋能看出現行規則貼目太重了,黑棋壓力山大,白棋不犯錯不知道怎麼輸


可惜啊,若非吳大師復生,人族藉此譜將現有對圍棋的認知提升至新的境界無望矣。

----------------------------------------------------

回答圍棋的技術問題總被質疑資格,上個圖給自己打打氣

爆照騙贊了,除了本人(右一)以外,其他人沒有不認識的吧。


看的我目瞪口呆

講究變化多端的圍棋竟然都出現了「唯一最佳選擇」

看這三盤棋頂自己學至少半年

真的

何況遠遠不止三盤

何況「他」還在進化

人類圍棋將會出現前所未有的重大進化吧

進一步說,那人類智商呢


早上看了。

1,阿爾法狗已經超越人類,李世石很可能是最後一位戰勝最強電腦的棋手。

2,阿爾法狗有少許弱點,這些弱點在程序上是否已經修正未知。

3,人類或許只有少許在阿爾法狗異常時能有點貢獻。(因為其自己的計算能力更強)

4,具體點看,其特徵是多計算少感覺(特別是目數)

5,狗對狗的棋型真難看。

現在人類和阿爾法狗的戰鬥已經沒有意義了,現在是人類+狗 和 狗 的戰鬥,看加入人類後能否

取得少許的勝率優勢(5-10%),也就是說,人類是否還有輔助的功能了。


要是在下完當天就被職業棋手拿到,且只有總譜沒有各種內部變化圖,alphago概率數據等。

職業選手不一定屑於分析。

職業選手:」黑五跑去掛角再轉成中國流?毫無必要。「

職業選手:「怎麼擋13位?」

職業選手:「白棋在下面發展空間不大,黑棋點角巨大。」

職業棋手:「怎麼30位擋不擋a位?」

職業選手:「38固然是好棋,但是我之前肯定擋另外一邊(上圖a位s15)根本輪不到下出38的機會。」

職業選手:「這49 51 可以考慮扳。」

等等等等

經過一番亂戰之後

職業選手:「轉換還是挺多的,有點看頭。"

開始收官

職業棋手:「咦怎麼不接上,哦還真有棋。」

職業棋手得出結論:「這個版本的電腦比上個版本的電腦強了那麼一點,但是人類有上將李世石,可斬阿法狗。」

aja huang:"這個棋譜是五秒一步的快棋。還有慢棋的你要不要看?"

職業棋手:「what???」


形勢判斷能力天下無雙,短時間的計算力同樣秒殺人類。渾身BUG的人類,與有練門但摸不清在哪兒的狗狗……


以後v60的兩隻狗狗下棋:

黑狗下了一子

白狗一秒計算到兩三百手開外,發現是自己輸,於是投子認負

結束,黑棋勝

觀眾一臉懵逼


先佔坑了。


謝邀。alphago的話題已經趨冷,其動態日漸與圍棋不沾邊了,現在真正出彩的人工智慧AI是zen,zen比google厚道太多,不但給業餘棋迷提供了下棋的對手,而且其棋力現在也有長足進步……

還是先講講alphago最近放出的一波消息:

1.第一感沒有什麼新東西,只有一些新解釋。很多alphago的局部嚴重虧損,樊麾解釋為勝率下降並不多,或者以全局依然領先來掩護。既然你alphago這麼強,幹嘛不做個每步棋目數最優,直接吊打李世石30-50目不就完了嗎?

2.alphago的互搏棋,三個字:不好看。 一位阿老師下棋已經不那麼有觀賞性了,兩位?come on。比如,中國流碰星位,這種業餘低K愛下的棋,你說它實用,我不反對,你說它很實用,我也不反對,但你要說這種棋有觀賞性?那我就無法理解了。

看看前端時間金太子下的盤龍活,包括今年以來人類的各種妙手,這些個計算比起李世石的78手「水平線上的陰謀」不知道高到哪裡去了。是的,aja把alphago第四局的bug稱為水平線效應。

alphago的互搏棋有點像古棋,但猥瑣得多。

3.zen水平已經接近alphago v13,但實際上要更強。據說,zen只用了兩路TITAN X+XEON而已,這種配置老夫都玩得起。而alphago要吃多少TPU?

================================================================

update:

@zn gkcx 放一手alphago的神之一手。請這位YC7D,自稱業餘5段的高手來解答下這步高級下法中的玄妙。


從稱呼來看,阿爾法狗到阿老師已經是勝利了。


我不知道有沒有人找槍手,也不知道有沒有人主動當槍手,反正感覺是吹的不行了,迫不及待地要給阿發狗扣上頂級棋手的帽子,甚至足以秒殺世界冠軍。要有說服力的證明阿發狗的真實實力,難道不應該是「大量的直播公開賽」嗎?多找些世界冠軍,設定好避免放水的賽制,相對公平的決鬥,有那麼難么?公布個別幾幅數月前的棋譜,第一不能證明是阿發狗下的,第二不能排除有人篩選棋譜。科學應當容許這點質疑精神。


所以以後的高手下棋都是三兩步就分出勝負,只有臭棋簍子才會下到中盤宮子,就像小李飛刀從來就是一招,絕不會跟人家大戰三百回合的。


所謂的快棋也只是人腦思維意義上的快棋

商用CPU的主頻是2到3個GHz,這個的意思就是一秒可以進行十億次級別的計算,5秒百億次計算,就算單點需要幾十萬個計算點,也能算萬把點呢,還有個問題就是在內存的作用下這些玩意都是有效記憶/計算點。人腦實際的運算速度還是比較快的,但是內存低或者說很多感官都會佔用內存,所以對有效計算的影響太大。

我還是堅持之前炒噱頭的觀點,這從來都不是公平的競爭,這只是程序員借著高速計算模組對人腦的狐假虎威而已。意義有,但是完全沒有吹噓的這麼兇殘。

「贏李世石的真不是電腦或者AI什麼的,而是背後的程序員」這就是我對上次分配的觀點

再說影響,影響就是公開賽上會有人偷師電腦局譜在局部進行偷雞行為而已。可能以後會有西方「棋手」出來奪取某個時間段的世界冠軍也未嘗不會發生呢,哦呵呵呵


從資訊理論/控制論的角度講圍棋是信息完全透明的,也就是說可能性空間是確定的,或者說每一盤的解是有限的。這說明了什麼?

這說明李世石每走一步都在阿爾法狗的意料之中,李世石腦子裡想到的阿爾法狗全知道,李世石沒想到的狗狗也都知道。

對李世石來講他的計算能力是有限的,他只能計算有限的幾步,因而結果是不確定,他面對的是一個灰盒。

對阿爾法狗來說,它的計算能力是無限的,李世石每走一步,阿爾法狗可以窮舉每一種可能性,並且直接推演出結局。最後選出一種最優,它的結果具有確定性,它面對的是一個白盒。因而阿爾法狗是不可能輸的,輸了只有一種可能就是故意的。

完全是降維打擊。。

--------------------------------

下面的同學不開心,我說明一下在現場阿爾法狗只需要搜索,不需要推算。它所有步的完全解並不是現場推算的,而是靠平時左右互博窮舉的,它可以24小時進行。所有的結果存在資料庫中,在比賽中只需要搜索一下。


推薦閱讀:

有沒有人工取代機器的例子?
如果世界上出現了完美的人工智慧,我們應該怎麼對待他們?
人工智慧在製造業領域有哪些應用?如何幫助製造業轉型/升級?
如何看待五月下旬阿爾法圍棋與柯潔的三番棋以及和五強的相談棋?
AlphaGo戰勝圍棋冠軍和當年IBM深藍戰勝象棋冠軍哪個意義和影響更大?

TAG:人工智慧 | 圍棋 | AlphaGo | GoogleDeepMind | 李世乭 |