如何評價 AlphaGo 自我對弈 50 盤棋？

11-24

鏈接：https://deepmind.com/research/alphago/alphago-vs-alphago-self-play-games/

昨晚手機被阿爾法狗的自戰棋局刷屏了，大家一看棋譜的內容後，既興奮，又覺得有點不可思議，世界冠軍時越就說：「這是來自未來的棋譜」！阿爾法狗的團隊宣布將要公開阿爾法狗自對弈的50盤棋譜，這個消息對我們圍棋界來說真是天大的好事！有點像當年王重陽走後留下了一部九陰真經，而且還是網路公開版的。接下來，各路武林豪傑肯定會好好地去研究這本武林秘籍！

我看網上有人說：「機器的招法是基於深度計算而得來的，人類去學習，這不是東施效顰嗎？」我覺得這個說法說對了一半，的確，有很多招法是機器經過大數據計算而得來的結果，沒有像它那樣強大的計算能力，我們將無法做到和效仿；但為什麼我們要去效仿呢？機器還有很多好的招法在我看來，其實是不需要依賴深度計算的，而是憑感覺就能得來的，只不過我們的感覺被自己過去的經驗所禁錮和束縛了。

其實這次阿爾法狗已經告訴我們，圍棋的開局下哪裡都可以，其好壞優劣是相對而不是絕對的，關鍵是看之後的運用。阿爾法狗已經夠強了，但從它在布局上的招法來看，它也在不斷創新嘗試。就像開局點三三，局部下完後，誰好？阿爾法狗也不知道，但它在點完三三之後對子效利弊的理解和運用上比我們高出一籌，所以它無論是點的一方還是被點的一方，都能贏。

開局點三三這個局部一下完，就像一個剛出生的嬰兒，他與生俱來的性格是沒有絕對好壞的，決定他未來成長的是取決於家長如何去引導他發揮性格中好的一面。

從這裡就可以看出，圍棋是活的。所以我們拿到阿爾法狗50盤對局這本武林秘籍後，可以學習，但不要盲目模仿，一旦盲目模仿，你又會陷入到一個新的思想禁錮之中。就連阿爾法狗都在不斷創新嘗試，而有著心靈能動性的我們，怎麼能思想禁錮不前呢？

再強的招法，它只是招式，就像武俠小說中說的一樣，最後你是要忘掉招式的。所以我們學習這本武林秘籍，學習什麼？我覺得，在認真學習阿爾法狗的招法後，你忘掉的的東西就是你真正學到的東西！我們要學的不是具體的招法，而是招法背後所包含的邏輯和意境。如果一味沉迷於招法本身，那你很可能將被阿爾法狗禁錮了自己的思想。我希望看到的是，一年後，阿爾法狗對局中的招法已經被人類棋手再次創新，而不是模仿。

今天開始，我準備好好學習一下這本「九陰真經」，不過得盡量去活學，不然沒準就成歐陽鋒了。

知友們，你們覺得這本「九陰真經」學了有用嗎？有用的話，應該怎麼去學？歡迎在評論區說說吧。

歡迎關注我的微信公眾號：耀宇圍棋

剛剛在野狐上看了第一盤和第二盤，說下幾點最直接的感受：

1，中國規則看來確實白棋優勢，十之勝八，如果按棋份來算，黑AG已經被白AG打的降了兩次先相先了。據說六目半也是白棋優勢，看來圍棋的貼目應該在5.5-6左右

2，跟柯潔的三番棋看完，一直覺得估計要下個定先柯潔才能和AG抗衡，看了AG的前兩盤棋之後，我甚至覺得柯潔定二才能有勝有負。從前兩盤看完，AG的計算力在中後盤的一些死活上面甚至能夠接近百步，無數次在人類看來無法理解的脫先，天下劫和大龍互殺的複雜情況下，正常收官後仍然能保持極小目數的差距，特別是第二盤66的尖（當時看來覺得AG是不是出bug了）還有後面208的挖，我彷彿看到AG的目光，已經看到了這盤棋的終點。。。真是太可怕了

3，好像國象里的人機大戰，機器已經在讓一個8路兵跟人類下了。如果人類棋手再和AG下的話，感覺就是對AG的不尊重了。。。

AG和人類下棋的時候，如果它有心態的話，一定是這個樣子的：

才飲長沙水，又食武昌魚。萬里長江橫渡，極目楚天舒。不管風吹浪打，勝似閑庭信步，今日得寬餘，子在川上曰：逝者如斯夫！

補充一點：這十盤棋AG都是兩分鐘一步

謝謝邀請。

粗粗看了下棋譜，感覺非常震撼。個人感覺，有 3 個點特別值得注意：

【1】阿老師的「思維」是沒有連貫性的

在阿老師自戰譜中，脫先非常頻繁，甚至到了匪夷所思的地步。究其原因，我猜是這樣的：

在阿老師的演算法中，它並不關注你上一手下在哪裡（除非上一手是提劫這種受到圍棋規則干擾的選點），只關注當前的局面的最優解——聽起來有點不可思議，但從圍棋規則上來說，這種思路其實是完全正確的。

而人類無法擺脫連續思維的影響，一方面可能是受到了「沉沒成本」的影響，從情感上不願意在已經投入大量思考的局部中解脫出來。另一方面，人類的思維能力、體力、時間有限，也無法真正地做到在每一時刻都能重新審視局面。

【2】阿老師是不講「棋理」的

阿老師的有些棋，在大部分學棋者看來是匪夷所思的，比如第一局中，在面對黑棋的迷你中國流時，白棋的連續「碰」定型讓人瞠目結舌：

棋理告訴我們，在棋局初期，不要主動在對方的勢力範圍內貼身肉搏。因此這種「碰」的著法容易被圍棋老師認為是初學者非常容易犯的錯誤。但令人諷刺的是，這種如此「業餘」的棋竟然是「讓天下一先」的阿老師下出來的。

如此看來，我們過去總結出的一些「棋理」，很多也許是錯的。

這不僅讓我聯想到 傳統醫學。

傳統醫學給人的感覺，就是聽起來挺像回事的，但其原理並不能被完全用邏輯搞清楚。當現代醫學發展起來後，有些傳統醫學學說被一套更為科學的理論所替代，另有一些則被證明是錯誤的。

一個或許不算太恰當的比喻是：阿老師的棋之於傳統棋理，就如同現代醫學之於傳統醫學。

【3】在阿老師的字典里，沒有「冒險」這個詞，與之相比，人類才是更喜歡「剪枝」的那個

人類下棋的一個弱點，就是經常會拘泥於局部最優解，有時候局部最優解看不清楚，那就會選擇簡明的解。

舉個例子。

如果有 2 種下法：第一種局部可以便宜1目棋，但整條大龍有死亡的危險；第二種局部虧1目棋，但整條大龍是凈活，那麼人類幾乎一定會選擇第二種下法，因為我們看不清楚大龍的危險程度，因此從數學期望上來說，第二種下法是更有利益可圖的。

但阿老師則不一樣。它或許會完全算清楚第一種情況下大龍是否會死，如果不會死，就會非常果斷地選擇第一種情況。

比如第 9 局：

從局部來看，白 152 應該下在一路扳，這樣白棋是凈活，而現在白棋卻選擇了粘，局部黑棋可以殺死白棋。

粘相比於扳來說，可能會在官子上便宜一點點，但是卻冒著整條大龍死亡的危險，作為人類絕對不會這麼下。

但阿老師卻這麼下了。

我相信，這絕對不是因為阿老師沒有算清楚局部變化（因為這個局部變化很簡單），而是它算清楚了後續更多的變化，然後確信白棋粘並不會讓大龍死亡，所以就是要爭這一目棋。

這麼看來，阿老師的算路，可真是深不可測啊。

# 向阿老師學習 #

想過來答一下這個老題。

先上一張圖：

這張圖來自於：https://www.youtube.com/watch?v=PR2bB2oM5VE。是柯潔和樊麾講解烏鎮人機大戰第三盤的視頻截圖，國內的也可以看圍棋TV。這個圖是講解的時候柯潔突然想到AlphaGo在某次自戰譜裡面也走出過類似的棋型，於是他就擺了一下。

重點在右下角：面對黑棋右邊布下的迷你中國流陣勢，白棋仍然選擇AlphaGo的招牌動作：點三三，點完以後落後手又被黑棋跳出右邊一子，然後白棋五五點刺，這一步有點出乎意料，但也在人類棋手的認知範圍之內；然後黑棋（5，7）位逼住白子，白棋下一步，（6，8）位肩沖黑棋！對人類來說簡直是匪夷所思的一招棋，柯潔也表示完全看不懂，不知道他想幹嘛，「簡直是另一個世界的圍棋」。白子點刺後立馬把點刺的子送死，就在黑棋的勢力範圍邊上吊了兩顆白子，到底收穫了什麼呢？職業棋手們也只能猜測可能對棋型的厚薄有影響吧。

然後這盤棋是白棋贏了——對，白棋走了這麼個莫名其妙的肩沖，在人類棋手的眼裡白棋可能還虧了，然而他就是能贏。。AlphaGo的自戰譜給人的感覺就是這樣，雙方走了很多人類難以理解的棋，然後有一方突然就不行了，然後就分出勝負了——雖然所謂的「不行了」在很多情況下是指「落後半目」的意思。。完全是另一個境界的圍棋啊。。

PS：看了第二盤棋的解說才明白當時說的「柯潔發揮近乎完美」是什麼意思，前面很多步柯潔的走法就是AlphaGo的推薦著法，直到80手以後AlphaGo的勝率也才60%。柯潔能做到這個程度真的是非常非常不錯了；而且感覺他在人機大戰以後著實謙虛了不少，一直強調是「運氣」哈哈～

https://youtu.be/OZyVjKcrqMM
http://www.weiqitv.com/video/59562b6e28865487758b456c
ALPHAGO - 來自未來的棋局第一集常昊樊麾劉星講解

裡面有一些極為精彩的分析，AlphaGo很多招法並不是無緣無故的。很多看起來違背第一感的選擇也是有著深層次的原因的。真的是全局性的思維模式。棋盤上任意選擇一步棋都有可能會對所有未活的棋塊造成影響。無法形容身為5k棋渣看到解說細細擺出背後變化是的感想。真的是。。。

黑棋和白棋互有勝負表明阿老師距離圍棋上帝還有距離。白棋壓倒性的勝率優勢表明這個距離比人類近的多。

由於水平不足，看了自戰棋譜，只覺得精妙但不能懂。後來看了圍棋TV里，劉星、樊麾和五位國手針對五盤棋的十小時視頻講解，才覺得，圍棋真的是變天了。

原先棋手走出妙手，大家盛讚「真是天才般的算路」，現在，誇的是「果然厲害，跟阿法狗下的一樣」。

未來，可能會有更多領域掉入這個境地。——「你真棒，你跟電腦想的一樣。」

才發現，之前人類自以為的創造，其實就只是重新發現了早就在躺在那裡的標準答案。所謂的創造，並沒有無中生有，而是在人類解鎖的小小遊戲地圖上，又照亮了一點點新的戰爭迷霧。

《紅樓夢》《荷馬史詩》以及人類史上全部誕生的和將要誕生的精彩故事，早就隱藏在六個大猩猩盲目打字輸出的浩如煙海的紙堆里，人類只是把他們翻檢出來。

如果跳到一個更高的層次上，俯視那些人類歷史上的大師們，會發現，一切大師、巨匠的光環之下，他們或許就只是大自然編寫出來的一段優秀的搜索代碼。他們靠著簡潔的語句和演算法邏輯，在自己這段程序被賦予的為數不多的時間裡，最大限度地為我們搜索出最接近最優解的數據。——一如數學家們用了上千年時間，從「周三徑一」，逐步推進到現在的圓周率。

一切「創造」，淪為「發現」。

在《棋魂》漫畫里，是「神之一手」。

在藤澤秀行先生這兒，是「棋道一百，我只知七。」

在陸遊先生那，是「文章本天成，妙手偶得之。」

the end

AlphaGo自戰對局打譜簡易指南

1. 最容易學的是布局階段的手法，極力推薦

2. 人類不可能擁有和AlphaGo相媲美的價值評估，各種脫先、轉換、中盤纏鬥最難學，任何職業棋手都無法全部領會，包括柯潔。水平不夠的就省略這部分學習，買本好的實戰中盤手筋書效率更高，等有專業解說書賣再學習不遲，你只能學幾個手筋，永運學不會像AlphaGo那樣判斷

3. 先手極重要，下棋要緊湊，碰、肩沖將會更常見

4. 官子對人類是相對最簡單一環，官子不需要學AlphaGo，AlphaGo官子不緊湊易退讓，它能確信半目勝你很難做到，你要更硬一些才行。

5. 不要忘了，AlphaGo還不是圍棋上帝，每一手都不見得是唯一的，也不見得是最優的，19x19圍棋最優解有很多個的。不要形成新的教條

6. 未來用AI陪練、分析是標配，世界第一的棋很可能最像AI，如吳清源，現在你至少應該把Zen6用起來分析，未來必定有更強的AI商業化、普及。未來不用AI訓練的不可能成世界第一

————————

看曾加回答的感想

【1】阿老師的「思維」是沒有連貫性的

人類棋手下棋本來也是應該每一手都要去搶當前局面最大的地方，只是沒有和AlphaGo媲美的價值判斷能力，同時的確也是有盲點（多少會受到套路的影響），所以容易陷入局部，看起來局部有連貫性，全局卻容易失分

【2】阿老師是不講「棋理」的

柯潔第二局36打入、第三局20試應手，所有失誤都可以蓋上不講棋理的帽子。阿老師的棋每一步都質量上佳，全局接近（AlphaGo還不是圍棋上帝）最優，實際上是接近最合理（最符合棋理），棋理第一條最根本的應該就是永遠追求全局最佳，任何局部都可以考慮脫先、棄子。

--------------------------

第一感很難看懂，估計比之前的AlphaGo v18自戰棋譜更難懂，水平肯定更高了，算路更深了。

就先這樣吧，職業棋手要解說這50局出一兩百本書沒問題。

--------------------------

越看越是驚嘆，AlphaGo驚人棋招太多了，可以預見這些棋招很快會流傳江湖，以前覺得難下的地方可能有思路了

回顧這兩年的圍棋發展以及對AlphaGo水平的誤判 - 知乎專欄

--------------------------

這些自戰棋譜的確可以說是來自未來，遙遠的未來，如果沒有AlphaGo，人類不知道要多少年後才能達到這樣的高度。

想起別人評價秀策、吳清源是超越時代的棋手，現在才深深覺得這樣的評價非常正確。

我當年覺得吳清源的棋最難懂，一直不明所以，現在明白了為什麼看不懂了。

AlphaGo的棋毫無疑問比吳清源更強，也更難懂，越是高的棋越是看不懂，天才和頂尖之間原來也是有很大差距的。

卡斯帕羅夫輸給深藍後，國際象棋發展得怎麼樣？柯潔輸後，圍棋發展會怎樣？ - 知乎

剛學習到第十九盤，還沒從震撼中緩過來

第二盤的劫爭簡直是神一樣。一場堤子80 。白大龍被屠殺，被提51子，然而還是白贏。這種大開大合，全局轉換，一算百手。。。。震撼

手動統計了一下，50局，黑12勝38負，勝率24%。可以開始考慮將貼目調回2.75子了。

這是微博上崔燦五段的統計。非常詳盡，大家可以去微博上給他點贊。

我認為最大亮點是布局階段的手法。AlphaGo的布局，單獨看一個局部可能覺得沒什麼，比較新奇的手段嘛，人類偶爾也會下。但是如此高頻率的非常規手法，震撼二字已不足以形容了。如果沒有AlphaGo，這應該是屬於未來的棋譜。人類的又一次新布局革命就在眼前。

然後弱弱唱個反調

上面的很多回答把焦點放在第二局後半盤的戰鬥上，我不是很同意。

第二局這樣滄海桑田的戰鬥形式，在人類的棋譜里並不罕見。在沒有官方放出自戰分析之前，很難評判這裡的戰鬥到底是何等精彩。沒有人知道黑白AlphaGo到底是算清了所有變化，還是機緣巧合湊成了這一局。這就像現代棋手評價清代范西屏、施定庵當湖十局的中盤戰鬥，說不清他們到底是和現代高手不相上下，還是只有業餘5段。

現在對第二局下結論太早了，等DeepMind放出官方解密，或者人類的職業高手經過細緻研究以後的解析吧。

棋迷下的是快樂圍棋，棋士下的是痛苦圍棋，棋神下的是暴力圍棋

總結了下規律
前四手棋無關勝負對角布局也有過幾局星位以內的都可以下。目外高目沒見過。
前五十手左右任何棋都可以脫先，柯潔在2、3盤的時候應該也發現了這個規律，瘋狂脫先。脫先其實就是轉換，阿法狗之所以轉換的特別頻繁，跟其價值網路應該有關。對方攻擊你，你可以選擇防守，也可以選擇去攻擊對方，人類棋手有對方攻擊就必須防守的思維定式（或者說沒有魄力），不太敢脫先去攻擊對方，因為拿不到便宜到頭來自己要補棋，很難把控棋局走向。
前70手左右大部分棋也都可以脫先，但這時候一般都會出現大塊的棋，所以視情況而定。
進入戰鬥之後要步步緊逼肩沖、靠等，能離多近離多近。每放鬆一步都等於退讓，每退讓一步等於要在官子中等對手犯錯，但阿法狗不會在官子中犯錯所以其價值網路就形成了一種「如果不步步緊逼，就無法贏棋」的觀念。
綜上所述，我認為想要學習阿法狗，最重要的兩個大課題
1. 攻擊的選點。在阿法狗看來先手就是賺，所以利用好先手就是重中之重。你的攻擊選點好，對方如果防守，你賺了半步棋而且又獲得先手。但阿法狗左右互搏時，黑阿法狗不想讓白阿法狗白賺半步棋，所以黑阿法狗也選擇了攻擊，於是雙方轉換（有點類似模仿棋）。
2. 戰鬥的選點。如何在戰鬥中獲得最大的利益？如果在兩種走法都能夠圍到實地的情況下，靠過去至少比遠一路的鎮頭多圍一目，肩沖至少比飛攻多圍一目。我之前一直不欣賞檀嘯的棋，覺得他下的太過於注重大局，一點也不緊湊。

下一手白棋下了h10，局部黑棋大損，最終半目負。圍的這麼小結果還有破綻，很容易會導致落敗，這就是下棋不緊湊的後果。但棋下得緊湊就隨時有機會轉身，及時止損，類似第一局狗狗點完一靠，輕鬆轉身。
------------------------------------------
柯潔昨天跟大鎚的比賽，20、50兩手脫先奠定優勢。看來又漲棋了

昨天發布棋譜的時候朋友圈就爆炸了，想不看到這條新聞都有點困難…
時隔一天的早晨閑來無事點開新浪棋牌打算欣賞一番。依稀記得第一盤白狗在迷你中國流中的兩靠和第二盤三連星白狗的點三三…

感覺很長一段時間內人類也只能模仿這種下法…很難摸清為什麼。
它的演算法在偏後半盤的招法中和人類完全不一樣。【勝率變高了，贏的更少了】
如果這種演算法也出現在前半盤……那人類怎麼去模仿呢？在開局的時候不可能為了求穩做無謂的退讓。

#到現在都不覺得第二盤那個點三三便宜#

我想問幾個問題，希望職業棋手老師們能回答我...（花錢也可以...出書第一時間買...出視頻我就付費下載...）

1.為什麼老是脫先...脫到無法理解...

2.道策讓我帶句話：碰碰碰是什麼鬼？（第一局面對迷你裙般的中國流，白兩碰定型如何理解？第七局那個碰締角，我也覺得毀三觀...）

3.武宮老師想問下多處肩沖的後續...

4.白棋第6手點三三真的大丈夫（出現了兩局）...趙治勳老師很開心...武宮聽了想打人

5.坂田老師給我託夢，想問問「為什麼自己跟自己下，就沒有三三了」

6.吳清源老師也託夢了，說為什麼執白的贏得多，他還想問問讓子棋有木有...

7.那個...高川格老師也弱弱問了一句，說鋪地板其實蠻見功力的...有沒有，自己自殺慢慢安樂死的...

對了，吳老師說最近他在研究22世紀的ai，吐槽了一下我們的基於agent的離散模擬過時了，不符合「中的精神」...

看完50盤，震撼，三觀盡毀，已經超越人類思維了。DeepMind要是沒公布相應變化圖數據的話，職業棋手應該都看不懂。坐等職業棋手回答。

附上葉罡廷7段解說AlphaGo自戰：

我來用比喻來描述一下第二盤吧：
當發生戰爭時，人類發動佯攻只敢把十萬兵力分出一萬當誘餌，九萬人包抄；而要是 AlphaGo 指揮的話，它卻敢從十萬兵力分出9萬當誘餌送出去，因為它算好了，剩下的一萬人可以在消滅對方的同時己方剛好還剩下一個人活下來。

不是阿爾法狗不會劫爭，是人類棋手還輪不到和他進入劫爭階段....
再次佩服柯潔：當下圍棋，天下第二！

西域有智者，名曰阿法狗。閉關修鍊數月，悟得絕世武功，心如止水，出關即橫掃江湖，憑三成功力敗盡眾世界冠軍，天下再無敵手，寂寥難堪，但求一敗而不可得，遂留下一部五十篇棋譜的九陰真經以茲後人追求至上棋道，退隱棋壇，絕塵而去...

【瞎寫的不要在意

AlphaGo左右互搏50局已全部放出！可以說有圍棋界《九陰真經》一樣的地位！統計了一下：50局裡白棋勝38局，勝率76%！一方面說明在現行貼目下白棋的天然優勢！另一方面繼續圍棋之神的話題，如果達到了完美的境界，白棋必然能完美運用這種優勢，達到100%的勝率；達不到100%說明技藝還不完美，還不能完全保持住這種優勢。這種勝率變化應該可以作為度量和圍棋之神差距的一把尺子！好奇查了一下統計資料2016年中國圍棋等級分賽事專業棋手白棋勝率55%、AlphaGo白棋勝率76%、圍棋之神白棋100%，應該可以大致看做人類水平、AlphaGo水平、圍棋之神水平之間的差距！很好奇如果谷歌不放棄這個項目，讓AlphaGo一直進化下去，白棋勝率會不會一直提升，直至無限接近100%。
韓國《圍棋月刊》從1984年到1991年統計了3367局本戰以上的比賽，當時黑棋貼五目半，結果白棋勝率為45.43%，如果黑棋貼六目半，白棋勝率就變成了49.26%。如果貼七目半白棋勝率55%的話，其實現行中國規則白棋優勢也就一目左右，如果在足夠多的局數中能100%的保持這一點優勢，那應該就是圍棋之神吧！

如何評價 AlphaGo 自我對弈 50 盤棋？

【1】阿老師的 「思維」 是沒有連貫性的

【2】阿老師是不講「棋理」的

【3】在阿老師的字典里，沒有「冒險」這個詞，與之相比，人類才是更喜歡「剪枝」的那個

【1】阿老師的「思維」是沒有連貫性的