被圍棋AI橫掃後，職業棋手應該如何提高水平？|陳經

01-29

關注風雲之聲，提升思維層次

解讀科學，洞察本質，戳穿忽悠，粉碎謠言

導讀：人類高手學習價值網路的全局思維主動訓練，將使圍棋思維從之前的局部定式、局部數目、局部戰鬥飛躍進步到全局判斷、全局戰鬥，和不斷進步的高水平AI對戰還是有勝機的。AlphaGo這樣的革命性圍棋程序，將引領圍棋藝術再一次的飛躍進步，人類棋手也會獲益非淺。

————————————————————————————————

2016到2017歲末年初的三天假期，棋迷們驚喜地發現圍棋對弈網站出現了好幾個高水平圍棋AI。

在弈城上像勞模一樣一直猛下的是日本的DeepZen，至2017年1月3日五天時間已經下了超過200盤，輸了20盤。之前DEEPZEN在高手不多的KGS圍棋網上也是這麼猛下，人們已經熟悉了它的風格。DEEPZEN在弈城的戰績並不出人意料，甚至有點令人失望。雖然它勝多負少，但主要是勝不帶P標誌的業餘棋手，對職業棋手輸得多，還沒有世界冠軍級棋手出手測試。

另一個一上線就引發關注的是騰訊野狐圍棋的「刑天」。騰訊在2016年11月上線的AI「絕藝」在一個月中已經打出了不小的名氣，勝了柯潔一盤，5：1勝朴廷桓。這讓人們對國產AI有了信心，騰訊也報名了2017年3月在日本舉辦的AI圍棋世界錦標賽。但是高手們似乎摸清了絕藝的路數找到了對付它的辦法，柯潔對絕藝的戰績是3：1，不少職業高手都戰勝過它，絕藝出過一些明顯的bug。因此從11月底，絕藝再沒下過棋，下線研發升級去了。

一個月後，2016年12月27日，升級版本「刑天」又上線開始下棋。這次升級應該有進步，對柯潔戰成5：2，對朴廷桓4：1。但不能說有本質進步，柯潔明顯找到了對付它的辦法，幾次吃死它的大龍，刑天死活還是有問題。這些測試棋全部是20秒或30秒一手的快棋，刑天對世界冠軍級高手們的勝利，很大程度是高手們因為時間壓力出現錯誤，如柯潔有一盤已經殺死了刑天的大龍絕對優勢，後面不小心輸回去了。騰訊開發的AI水平已經很高了，職業棋手感覺它的實力和2016年3月與李世石對戰的AlphaGo版本V18相當。職業棋手們已經找到了刑天的漏洞，對它有辦法了不會太怕。

2016年12月30日柯潔第一次對陣勝刑天，就執黑大勝

上圖是2016年12月30日柯潔第一次對陣勝刑天，就執黑大勝。本局柯潔早早就吃掉刑天棋盤右邊的一條大龍，最後三招柯潔連下三個單長走起了五子棋，估計是人類操作員手動替刑天認輸了。AI如果走出這樣的棋，即使一時對人類高手勝多負少，棋手們也不會怕。

這時弈城網站上的Master在2016年12月29日也開始下棋了，一開始並不引人關注，開始10多局勝的並不是世界冠軍級棋手。隨著12月30日Master對排名第一第二的柯潔與朴廷桓各勝2局取得20連勝，終於引起了關注。棋迷與棋手並不是太吃驚，因為之前絕藝與刑天也有這樣的驚艷表現，而且Master下的是20秒的快棋，20秒時間太短高手容易犯錯，30秒高手們會好多了。

棋迷們喜大普奔，這麼多高水平的AI同時在對弈網站上，AlphaGo的論文養出了一堆狗仔，「群狗鬧新年」太有意思了。接下來職業棋手和棋迷們自然的預期是，隨著每手時間提升至30秒，高手們耐心琢磨也找到Master的漏洞終於勝出，對它的預期和刑天差不多。

但事實證明，Master的水平比刑天要高得多。在弈城達成30連勝後，Master轉戰野狐，除1月1日新年休息了一天，保持每天10局的節奏。到2017年1月3日，Master達成了50連勝，對手中包括16位世界冠軍，三國水平最高的柯潔、朴廷桓、井山裕太都在其中。人類高手們排隊輪流上陣，不一會就倒下被門板抬走。人類一勝難求，甚至沒有出現過勝機。經常是一個局部就大為落後，Master早早領先10多目甚至20目以上，收官時再「讓」給人類一些目數送成4目半、2目半或者半目勝。

人類水平最高的棋手群體，在Master面前這樣漏洞百出，這讓一些職業棋手以及棋迷們有些難以接受。

Master的神秘身份

Master的身份顯然就是AlphaGo的升級版本，我斷定沒有其它可能。Master在弈城註冊為韓國職業棋手，這是因為AlphaGo勝了李世石後獲得了韓國棋院頒發的九段證書。1個月前在KGS天元開局虐殺DeepZen的GodMoves很可能也是AlphaGo，應該是放CPU與GPU較少的單機版到各網站測試。谷歌在11月宣稱AlphaGo取得了巨大進步，將於2017年初復出下棋。谷歌CEO還訪問了中國棋院，如果達成與柯潔的第二次人機大戰協議不奇怪。谷歌一向有簽保密協議的作風，但中國棋院要求谷歌放出單機版進行公開測試也正常。

谷歌對AlphaGo有信心了，放出來測試不怕被找到bug，主動或者應邀出來公測是自然的發展，時間也對得上。一個有趣的細節是，參與測試的棋手中，孟泰齡只獲得過一個國內冠軍，離世界冠軍們水平還差一點，但是他卻有機會與Master下了四盤棋。我猜測這是因為，Master和AlphaGo的「人肉機械臂」操作者都是谷歌論文的作者之一Aja Huang，他經常上WeiqiTV看孟泰齡的節目，是他的粉絲，因此多次邀請他與Master對局。

也有說Master可能是韓國研發的AI，這個可能性極低。圍棋AI的研發是有軌跡的，象騰訊這樣參照谷歌論文快速達到很高水平是可以理解的，但是也需要出來測試找到問題又回頭想辦法，不太可能悶頭研發一出來就天下無敵。而谷歌經過多個版本的升級，確實有這個實力。2016年中，DeepMind在學術報告上就宣稱後續版本能讓V18四個子了，又取得了巨大進步。

Master達成50連勝後並未終止下棋，1月4號上午又繼續開戰。如果是論勝負，由於Master只選擇30秒的快棋，對人類高手來說思考時間不足難以發揮最高水平。而Master固定地每8秒下一次，時間根本沒用完，這是機器天然的優勢。人類高手對戰時經常選擇20秒的讀秒，30秒算網棋中時間長的了，但基本是練習。現在對Master的挑戰已經帶上了悲壯色彩，比正式比賽氣氛還要激烈，野狐圍棋的創始人古力九段聲稱第一個戰勝Master的人獎金10萬元。

由於Master的棋力極高，又不走人類棋手習慣的套路，很多局面都需要強度極大的思考，30秒人類高手實在是不夠，會出不少漏洞。因此，如果還是30秒的棋局，Master的勝利會一直延續下去。有些讀秒功夫強的棋手號稱快慢棋水平差不多，但那是人與人在一些常見套路中對戰。而且讀秒功夫強是說後半盤收束，布局與前半盤如果出現新型，總是得停下來思考，10來分鐘都算短的，半小時或1小時以上的長考也常見。

1月3日柯潔與Master一個戰鬥告一段落

上圖是1月3日柯潔與Master一個戰鬥告一段落。柯潔花掉了兩次讀秒（一共就三次30秒）才在左上角的戰鬥中頂住了。黑吃掉白四子目數不小，白也沒有安定，應該至少是不落後。後面Master也選擇了激烈的下法，柯潔只剩下一次30秒，應對不利輸掉了。在新型的戰鬥中，其他棋手基本會被Master打垮。

因此，Master對人類最高水平棋手取得50連勝這個事實，不宜過於誇張。圍棋AI的演算法特性是，搜索空間是指數增長的，幾十倍時長只是帶來搜索深度增加幾層，幾秒鐘與幾十分鐘的搜索可能棋力並無本質提升。增加時長更可能是用於MCTS的隨機模擬終局數量，模擬質量能上升一些。達到基本時長保證足夠的搜索深度與模擬的局面數量之後，再增加時間意義並不太大。

AlphaGo在分散式版本有1202個CPU和176個GPU，比「單機版」的48個CPU與8個GPU多幾十倍，但是對單機版的勝率是70%，並沒有本質的棋力提升。實戰證明，Master和刑天思考幾秒或者十幾秒就有基本的水平了。如果能夠戰勝「秒下」的AI版本，戰勝思考時間更長的版本沒有本質的困難。

而人類高手群體在這次Master翻牌式的點名測試中全敗，表現出了一些過去可能不太重視的弱點，值得好好總結分析。本文從圍棋棋藝與「棋機結合」的角度進行技術解讀。前面是新聞式的介紹，閱讀後面的內容就需要對圍棋技術與計算機演算法有一定的了解。

AI殺手鐧：價值網路和策略網路

人類高手下圍棋的過程和機器下棋的手段是可以參照的。對於當前局面，人類先直覺產生一些候選點，這對應現在所有高水平圍棋AI都採用的深度學習出來的「策略網路」。機器學習生成策略網路時，參考的就是人類高手的棋局，也有說法是AlphaGo從零開始不參考人類棋局，全部自我強化學習生成策略網路的。這次Master的招數絕大多數都是在人類的候選點範圍內的，可以認為高手和Master的勝負不在於候選點的質量。

人類高手會利用有限的思考時間對不多一些選點進行幾步推演，如果必走的直線著數多，有時能推到幾十手以後。然後高手們會進行判斷，如這個局面「簡明」，就是自己優勢可以接受，就這麼下了，再狠些能給對手更狠打擊的也不去想了。再如判斷局面「複雜」看不清，李昌鎬會非常獨特地盡量避免這種局面，尋找雖然優勢小但是自己能控制的處理辦法。也有一些高手會主動將棋局導入複雜局面，發揮自己亂戰的長處。

幫助進行局面的判斷的主要手段是「數目」，能確定的地算清楚，李昌鎬的貢獻就是將數目判斷精細化的程度推到了極致，當然現在的高手這方面的水平也上來了。數完目以後，算上貼目後雙方會有目數差距，如果在收官階段差距稍大到兩三目以上，結論一般就確定了，勝負已定收拾心情。在布局以及中盤，就要用厚勢、弱棋負擔之類的來回調整一下，粗粗的給個結論。

這種結論往往很不精確，不同的棋手判斷可能不同，有的喜歡實地，風格是「敏於實地」，或者喜歡外勢，風格是「厚實攻擊」。高手們有時沒法判斷了或者想講清楚道理，還喜歡用日本道策發明的「手割」法，從公認有結論的局面為基礎，改變著手次序倒推，有點數學公理系統的意思。總之，在局面還有很多未確定因素的時候，人類進行判斷的手段就是這些，並不太多。

這種情況下，人類高手們討論局面判斷的時候有時顯得很搞笑的。如果一個局面，下A和下B結果是確定的「下A會比下B虧1目」，那所有高手都會認為A是錯招不成立。有時甚至會為了這一目「不能忍受」的虧損進行複雜的大轉換，或者否定一個定式。

人類高手對於有確定結論的東西是非常在意的。這也是多數業餘棋手糊裡糊塗的地方，下B可以下A好象也行憑感覺來吧，幾下就虧掉很多目。但是如果這時有另外一個選擇C，沒有辦法相對AB給出確定結論，那高手們就會作出「兩分」、「雙方可下」、「得失不明」、「下C不好控制還是下B」，「下C照顧大局」之類的模糊結論。但是實際上可能下C比下B要好得多，如果選擇B虧的就不是1目了，可能是好幾目。

以前常見的一個小目定式

上圖是以前常見的一個小目定式，高手們下過無數盤。但是後來沒有人下了！因為實際上這個圖黑棋虧大了。雙方手數一樣，黑還先佔角的，但是子力位置偏低，地和勢都不見得有優勢，沒有體現「先招優勢」。現在是這麼解釋，但是之前為什麼一直下？因為理由也並不是那麼明顯。孟泰齡說，是高手們經過多次實戰，發現執黑一方勝率明顯偏低，回頭找問題，這才放棄了這個定式。

這種「集體實戰」判斷，是網路圍棋時代高手們開發出的新辦法。說不清，大家就實戰來試試，你說兩分，我說黑優，水平相當的雙方實戰100盤如果黑勝了70盤明顯佔優，大家還是會同意「黑優」的結論。以前沒有網路，職業棋手一年才下幾十盤棋，互相交流也少，這種方法就不可行了，往往是個人面壁式的細心體會局面優劣。現在網路時代，勤奮的職業棋手一年下上千盤網棋都有可能，這種方法不僅可能，甚至發生了有趣的演變。

高手們為了維持狀態，就積極地在網站上下20秒30秒的快棋。這樣的結果是，高手們開發演變出了一些大型「套路」。這是因為，如果你偏離套路，一般會吃虧，會通過輸棋或者直接講理判斷證明。於是大家都擺套路，提高熟練程度。

偶而會有高手出「新手」取得效果，於是其它高手們研究試用以後，給出相應的應對，否定這個新手，豐富了套路的內涵。或者同意這個新手成立，形成新的套路，回頭否定老的套路。這樣來回否定，對套路的理解確實深了，也可以算是棋藝的進步。但是網棋以及正式對局，就出現了大型套路太多，降低棋局精彩程度的問題，有時甚至「復盤」到四五十手才變招，圍棋有「象棋化」的趨勢。

當然這些套路是有內涵的。一般認為日本棋手水平相對中韓下降，是因為日本棋手戰鬥力不行，布局看著還行，中盤就被殺得不行了。孟泰齡戰鬥力與算路與年青棋手比相對差，但是布局分析卻較有信心，經常戰勝算路好的對手，在中國等級分能排20多位。他認為日本棋手恰恰是布局水平有問題，對局面的理解落後了。因為中韓棋手積極在網路上對戰，或者在國家隊里交流最新「套路」內涵成果，所以其實掌握了很多先進知識。

日本棋手還是老套路，也不注意這些最新成果，還是按老的理解走，吃了虧也不知道，經常就是「安樂死」。想要掙紮下出過分的招數，戰鬥力又不行，輸得更快。

中韓高手們集體實戰驗證套路的辦法，其實暗合了AlphaGo強化學習生成價值網路的方法。AlphaGo會進行幾千萬次的高質量「自我對局」，比高手們的對局加起來都多得多。人類高手們反覆實戰能判斷幾十個局面都不容易，AlphaGo的訓練流水線卻能生成幾千萬個局面，用於價值網路的訓練。

價值網路是個和策略網路結構相似的多層神經網路，但是裡面的係數不一樣，它能對一個靜態局面不搜索直接給出勝率，判斷誰佔優。有了策略網路與價值網路，AlphaGo不需要搜索都可以下得很好了，對每一招策略網路提供的選點，價值網路給出勝率判斷，選擇最好的一個選點下就可以了。2016年中DeepMind說AlphaGo棋力取得突破，就特別說了價值網路取得了巨大的進步。

價值網路是人類思考中沒有的，在谷歌論文之前甚至沒有這個概念。從學術角度來說，這可能是谷歌論文最大的貢獻。深度學習生成策略網路並非DeepMind最先提出的。雖然對人類來說有點不自然，但價值網路正是人類可以學習的地方，職業高手們也許能從這個方向上取得棋力的突破，但需要科學的方法。

人類能通過多次實戰、打譜，在腦中形成直覺，看一眼局面就能根據棋形產生一些靠譜的候選點。對人類直覺方便之處在於，候選點有「局部性」，人只要看局部就能有「關鍵」點的直覺。有時一些照顧全局的棋招會被誇張地稱為「耳赤妙手」。人類自然傾向就是局部觀察，眼睛看畫面時自然會聚焦在一小塊地方，棋手思維也是如此。高手要逆著這個直覺觀察全局，多找一些候選點。范西屏是中國古代水平最高的棋手之一，李步青對其它人這樣形容他的棋藝：「君等於弈只一面，余尚有兩面，若西屏先生則四面受敵者也」，這是說范西屏全局觀念特彆強。

但這種全局觀念畢竟難於描述，成了高手中只可意會不可言傳的「大局觀」。人類對局部的精確描述卻不斷取得進展，局部定式發展出成千上萬個，甚至有《定式大全》這樣的書。局部數目的手段與技術也不斷發展，目數價值精確到幾分之一。大局觀方面卻一直沒有太大的進展。甚至一些90後年青高手認為，布局不要太看重，花時間想也想不出什麼東西，隨便搞搞套路或者下一些過得去的著手應付下，大量時間要留在中後盤決戰。

從實戰來說，這也確實是勝率較高的選擇，你脫離套路未必佔優，就算花大量時間琢磨布局選點便宜了兩三目，後面時間不夠了隨時崩盤，因為人家後面肯定會來「攪」。孟泰齡主要的獲勝方式，就是利用一些年青棋手忽視布局這個特點，他精心研究布局，多次在局面判斷中取得優勢，後面拼了老命把優勢守下來。但是由於年青高手們衝擊實在太厲害，往往頂不住，泰哥也無法取得戰績的突破，只能維持住一流高手的地位。

職業棋手面臨著訓練內容與方法的革命

職業棋手們水平取得突破，也和一些圍棋道場的嚴格軍事化訓練手段分不開。沖段小棋手們做海量的死活題，認真進行大量的對局，嚴謹計算的態度與人腦中「策略網路」的質量都不錯。死活題有上千年的歷史積累，多年的實戰提供了大量素材，還有不少高手喜歡創作死活題。日本的《發陽論》吸收了中國古代棋書中不少素材，韓國《天龍圖》是實戰積累。死活題素材不缺，有道場、有網路，高水平實戰鍛煉的機會不缺，套路相關的信息流傳也快，職業棋手群體水平迅速進步。

但是，各道場並沒有多少「局面判斷」的題目積累，這是一個非常嚴重的技術性缺失。如果棋手群體有意識地在這方面努力，是有辦法可想的。可以集體討論一些局面，取得一致，拿出來作為習題或者「訓練樣本」。也可以在網路上組織實戰，主動對一些局面統計勝率，獲得寶貴的數據，達成一致。可以積累大量網站與實戰高水平棋譜，對一些同類開局進行大數據分析。這樣的分析程序已經有了，但主要是正式比賽棋譜不夠多，如果能和對弈網站聯手，增加海量棋譜，局面統計分析就更為精確。

現在有了高水平圍棋AI，就更為方便了。高水平圍棋AI，以後一定會普及。如果放開AI數據後門，就能看到局面的具體勝率，甚至價值網路對局面的估值。甚至也可以把訓練好的價值網路單獨抽出來做成小程序幫助分析。這樣，應該可以象死活題一樣積累出海量的局面判斷素材。和以前不一樣的是，這些局面判斷題有參考答案，或更為權威的答案，並不僅僅是思考題。

職業棋手們可以去盯著這些局面判斷題，進行全局思考。為什麼這些局面是黑優不是白優？為什麼和自己的感覺相反？為什麼AI或者統計結論明顯，自己卻沒有感覺？這樣仔細琢磨，一定會想出一些道理。琢磨久了，甚至作出判斷的速度都會加快。AI的策略網路和價值網路的神經網路是相似的，人類既然能夠有「策略網路」的直覺系統，同樣在人腦中訓練出「價值網路」應該是可行的。

從人類等級分最高的柯潔的棋藝來看，他可能就有這樣的特點。柯潔的算路並不是最深的，數目也不是最強，也不是妙手一堆，當然這些都不弱。柯潔自稱最強的是判斷，有時直接判斷不用數目就知道是虧了還是賺了，是通過4000多盤網棋成長起來的。很可能柯潔在數千盤對戰中不自覺地注意了對腦中「價值網路」的訓練，形成了自己領先其餘高手的局面判斷能力。這些棋手與棋迷認為，柯潔是下得最象AI的棋手。

職業棋手群體可以把這個過程工程化，主動收集有教育意義的反直覺局面，棋手們主動接受類似機器學習的「人腦學習」訓練，形成直覺一樣的局面判斷能力。在高水平AI的幫助下，這個過程應該可以迅速縮短，不用非常辛苦地積累素材。對各個道場的培訓水平而言，局面判斷素材以及使用AI幫助訓練的能力，會成為重要因素。國際象棋AI早就這樣幫助人類棋手訓練了。

這種局面判斷，天生就是全局的。這將使人類高手的圍棋思維，從之前的局部定式、局部數目、局部戰鬥，飛躍進步到全局判斷、全局戰鬥，這將是吳清源大師窮畢生之力思索并力推的「21世紀圍棋」、「六合圍棋」時代。吳清源2014年去世了，沒有看到圍棋AI的革命性進展。但是在圍棋AI的幫助下，這個時代將不可避免地到來，人類高手圍棋水平將再次取得突破性進展。

而對於Master這樣的圍棋AI，也不要過於恐懼。它的秘密武器就是以價值網路為基礎的全局思維，新手不斷，明快取捨。AI的價值網路是基於全局的，所以全局配置稍有不同，它的著手就會發生變化，遠遠的幾個散子人類看不到什麼，AI卻能考慮到下出新手。

人類高手30秒計算時間過短，碰到的又是完全不同的棋路需要計算，自然容易出錯被狠狠打擊。甚至有些著手，人類高手們「不知道AI是什麼意思」，過了一些招數才發現吃大虧了。有些上陣的高手甚至由於恐懼，對自己失去信心，明顯技術變形，早早就大敗了。

人類由於生理條件的限制，需要更多的思考時間。從探索圍棋技藝的角度，要求更多思考時間是合理的。如果在布局與中盤戰鬥中領先或者頂住了，收官時因時間緊張出小錯敗北，這並不可怕。但是人類必須在布局方向選擇、接觸戰的局面判斷中更多地引入全局思維，接近AI的水平，才有機會頂住。

AI由於MCTS演算法天生的弱點，很大可能仍然是有缺陷的，太複雜的局面會出現算路問題，或者局部死活出現漏算，而這是人類的優勢。人類的語言邏輯推理能力，局部嚴密算路是有優勢的！對於複雜局面，人類可以總結歸納主要矛盾，設計出組合手段，推理出可行次序。而AI由於MCTS的框架特性，什麼都要算到終局，不可能什麼都模擬到，大量算力浪費在非關鍵的邏輯里，發生漏算是可能的。當然前提是人類高手需要頂住，不能讓AI隨便就領先10幾20目，那AI可以簡明地控制局面，對手毫無機會。

如果人類高手能夠學習價值網路的全局思維主動訓練，取得棋藝的飛躍進步，再給以足夠的思考時間，和AlphaGo以及其它水平不斷進步的高水平AI對戰還是有勝機的，而這對圍棋發展的意義極為重大。DeepMind開發出AlphaGo這樣的革命性圍棋程序，將確定無疑地引領圍棋藝術再一次的飛躍進步，人類棋手也會獲益非淺。

作者簡介：筆名陳經，香港科技大學計算機科學碩士，科技與戰略風雲學會會員, 微博@風雲學會陳經。

【本文2017年1月4日發表於觀察者網（陳經：被圍棋AI橫掃後，職業棋手應該如何提高水平？陳經：人民幣「有管理的浮動匯率機制」不可輕動中國科技文化產業網袁嵐峰：清華教師被騙1760萬，一個最該關注的問題被忽視了_評論_環球網）。】

請關注風雲學會的微信公眾平台「風雲之聲」，微信號fyvoice

知乎專欄：知乎專欄

一點資訊：【一點資訊】風雲之聲 www.yidianzixun.com

今日頭條：風雲之聲 - 頭條號(www.toutiao.com)