被圍棋AI橫掃後,職業棋手應該如何提高水平?|陳經
關注風雲之聲,提升思維層次
解讀科學,洞察本質,戳穿忽悠,粉碎謠言
導讀:人類高手學習價值網路的全局思維主動訓練,將使圍棋思維從之前的局部定式、局部數目、局部戰鬥飛躍進步到全局判斷、全局戰鬥,和不斷進步的高水平AI對戰還是有勝機的。AlphaGo這樣的革命性圍棋程序,將引領圍棋藝術再一次的飛躍進步,人類棋手也會獲益非淺。
————————————————————————————————
2016到2017歲末年初的三天假期,棋迷們驚喜地發現圍棋對弈網站出現了好幾個高水平圍棋AI。
在弈城上像勞模一樣一直猛下的是日本的DeepZen,至2017年1月3日五天時間已經下了超過200盤,輸了20盤。之前DEEPZEN在高手不多的KGS圍棋網上也是這麼猛下,人們已經熟悉了它的風格。DEEPZEN在弈城的戰績並不出人意料,甚至有點令人失望。雖然它勝多負少,但主要是勝不帶P標誌的業餘棋手,對職業棋手輸得多,還沒有世界冠軍級棋手出手測試。
另一個一上線就引發關注的是騰訊野狐圍棋的「刑天」。騰訊在2016年11月上線的AI「絕藝」在一個月中已經打出了不小的名氣,勝了柯潔一盤,5:1勝朴廷桓。這讓人們對國產AI有了信心,騰訊也報名了2017年3月在日本舉辦的AI圍棋世界錦標賽。但是高手們似乎摸清了絕藝的路數找到了對付它的辦法,柯潔對絕藝的戰績是3:1,不少職業高手都戰勝過它,絕藝出過一些明顯的bug。因此從11月底,絕藝再沒下過棋,下線研發升級去了。
一個月後,2016年12月27日,升級版本「刑天」又上線開始下棋。這次升級應該有進步,對柯潔戰成5:2,對朴廷桓4:1。但不能說有本質進步,柯潔明顯找到了對付它的辦法,幾次吃死它的大龍,刑天死活還是有問題。這些測試棋全部是20秒或30秒一手的快棋,刑天對世界冠軍級高手們的勝利,很大程度是高手們因為時間壓力出現錯誤,如柯潔有一盤已經殺死了刑天的大龍絕對優勢,後面不小心輸回去了。騰訊開發的AI水平已經很高了,職業棋手感覺它的實力和2016年3月與李世石對戰的AlphaGo版本V18相當。職業棋手們已經找到了刑天的漏洞,對它有辦法了不會太怕。
2016年12月30日柯潔第一次對陣勝刑天,就執黑大勝
上圖是2016年12月30日柯潔第一次對陣勝刑天,就執黑大勝。本局柯潔早早就吃掉刑天棋盤右邊的一條大龍,最後三招柯潔連下三個單長走起了五子棋,估計是人類操作員手動替刑天認輸了。AI如果走出這樣的棋,即使一時對人類高手勝多負少,棋手們也不會怕。
這時弈城網站上的Master在2016年12月29日也開始下棋了,一開始並不引人關注,開始10多局勝的並不是世界冠軍級棋手。隨著12月30日Master對排名第一第二的柯潔與朴廷桓各勝2局取得20連勝,終於引起了關注。棋迷與棋手並不是太吃驚,因為之前絕藝與刑天也有這樣的驚艷表現,而且Master下的是20秒的快棋,20秒時間太短高手容易犯錯,30秒高手們會好多了。
棋迷們喜大普奔,這麼多高水平的AI同時在對弈網站上,AlphaGo的論文養出了一堆狗仔,「群狗鬧新年」太有意思了。接下來職業棋手和棋迷們自然的預期是,隨著每手時間提升至30秒,高手們耐心琢磨也找到Master的漏洞終於勝出,對它的預期和刑天差不多。
但事實證明,Master的水平比刑天要高得多。在弈城達成30連勝後,Master轉戰野狐,除1月1日新年休息了一天,保持每天10局的節奏。到2017年1月3日,Master達成了50連勝,對手中包括16位世界冠軍,三國水平最高的柯潔、朴廷桓、井山裕太都在其中。人類高手們排隊輪流上陣,不一會就倒下被門板抬走。人類一勝難求,甚至沒有出現過勝機。經常是一個局部就大為落後,Master早早領先10多目甚至20目以上,收官時再「讓」給人類一些目數送成4目半、2目半或者半目勝。
人類水平最高的棋手群體,在Master面前這樣漏洞百出,這讓一些職業棋手以及棋迷們有些難以接受。
Master的神秘身份
Master的身份顯然就是AlphaGo的升級版本,我斷定沒有其它可能。Master在弈城註冊為韓國職業棋手,這是因為AlphaGo勝了李世石後獲得了韓國棋院頒發的九段證書。1個月前在KGS天元開局虐殺DeepZen的GodMoves很可能也是AlphaGo,應該是放CPU與GPU較少的單機版到各網站測試。谷歌在11月宣稱AlphaGo取得了巨大進步,將於2017年初復出下棋。谷歌CEO還訪問了中國棋院,如果達成與柯潔的第二次人機大戰協議不奇怪。谷歌一向有簽保密協議的作風,但中國棋院要求谷歌放出單機版進行公開測試也正常。
谷歌對AlphaGo有信心了,放出來測試不怕被找到bug,主動或者應邀出來公測是自然的發展,時間也對得上。一個有趣的細節是,參與測試的棋手中,孟泰齡只獲得過一個國內冠軍,離世界冠軍們水平還差一點,但是他卻有機會與Master下了四盤棋。我猜測這是因為,Master和AlphaGo的「人肉機械臂」操作者都是谷歌論文的作者之一Aja Huang,他經常上WeiqiTV看孟泰齡的節目,是他的粉絲,因此多次邀請他與Master對局。
也有說Master可能是韓國研發的AI,這個可能性極低。圍棋AI的研發是有軌跡的,象騰訊這樣參照谷歌論文快速達到很高水平是可以理解的,但是也需要出來測試找到問題又回頭想辦法,不太可能悶頭研發一出來就天下無敵。而谷歌經過多個版本的升級,確實有這個實力。2016年中,DeepMind在學術報告上就宣稱後續版本能讓V18四個子了,又取得了巨大進步。
Master達成50連勝後並未終止下棋,1月4號上午又繼續開戰。如果是論勝負,由於Master只選擇30秒的快棋,對人類高手來說思考時間不足難以發揮最高水平。而Master固定地每8秒下一次,時間根本沒用完,這是機器天然的優勢。人類高手對戰時經常選擇20秒的讀秒,30秒算網棋中時間長的了,但基本是練習。現在對Master的挑戰已經帶上了悲壯色彩,比正式比賽氣氛還要激烈,野狐圍棋的創始人古力九段聲稱第一個戰勝Master的人獎金10萬元。
由於Master的棋力極高,又不走人類棋手習慣的套路,很多局面都需要強度極大的思考,30秒人類高手實在是不夠,會出不少漏洞。因此,如果還是30秒的棋局,Master的勝利會一直延續下去。有些讀秒功夫強的棋手號稱快慢棋水平差不多,但那是人與人在一些常見套路中對戰。而且讀秒功夫強是說後半盤收束,布局與前半盤如果出現新型,總是得停下來思考,10來分鐘都算短的,半小時或1小時以上的長考也常見。
1月3日柯潔與Master一個戰鬥告一段落
上圖是1月3日柯潔與Master一個戰鬥告一段落。柯潔花掉了兩次讀秒(一共就三次30秒)才在左上角的戰鬥中頂住了。黑吃掉白四子目數不小,白也沒有安定,應該至少是不落後。後面Master也選擇了激烈的下法,柯潔只剩下一次30秒,應對不利輸掉了。在新型的戰鬥中,其他棋手基本會被Master打垮。
因此,Master對人類最高水平棋手取得50連勝這個事實,不宜過於誇張。圍棋AI的演算法特性是,搜索空間是指數增長的,幾十倍時長只是帶來搜索深度增加幾層,幾秒鐘與幾十分鐘的搜索可能棋力並無本質提升。增加時長更可能是用於MCTS的隨機模擬終局數量,模擬質量能上升一些。達到基本時長保證足夠的搜索深度與模擬的局面數量之後,再增加時間意義並不太大。
AlphaGo在分散式版本有1202個CPU和176個GPU,比「單機版」的48個CPU與8個GPU多幾十倍,但是對單機版的勝率是70%,並沒有本質的棋力提升。實戰證明,Master和刑天思考幾秒或者十幾秒就有基本的水平了。如果能夠戰勝「秒下」的AI版本,戰勝思考時間更長的版本沒有本質的困難。
而人類高手群體在這次Master翻牌式的點名測試中全敗,表現出了一些過去可能不太重視的弱點,值得好好總結分析。本文從圍棋棋藝與「棋機結合」的角度進行技術解讀。前面是新聞式的介紹,閱讀後面的內容就需要對圍棋技術與計算機演算法有一定的了解。
AI殺手鐧:價值網路和策略網路
人類高手下圍棋的過程和機器下棋的手段是可以參照的。對於當前局面,人類先直覺產生一些候選點,這對應現在所有高水平圍棋AI都採用的深度學習出來的「策略網路」。機器學習生成策略網路時,參考的就是人類高手的棋局,也有說法是AlphaGo從零開始不參考人類棋局,全部自我強化學習生成策略網路的。這次Master的招數絕大多數都是在人類的候選點範圍內的,可以認為高手和Master的勝負不在於候選點的質量。
人類高手會利用有限的思考時間對不多一些選點進行幾步推演,如果必走的直線著數多,有時能推到幾十手以後。然後高手們會進行判斷,如這個局面「簡明」,就是自己優勢可以接受,就這麼下了,再狠些能給對手更狠打擊的也不去想了。再如判斷局面「複雜」看不清,李昌鎬會非常獨特地盡量避免這種局面,尋找雖然優勢小但是自己能控制的處理辦法。也有一些高手會主動將棋局導入複雜局面,發揮自己亂戰的長處。
幫助進行局面的判斷的主要手段是「數目」,能確定的地算清楚,李昌鎬的貢獻就是將數目判斷精細化的程度推到了極致,當然現在的高手這方面的水平也上來了。數完目以後,算上貼目後雙方會有目數差距,如果在收官階段差距稍大到兩三目以上,結論一般就確定了,勝負已定收拾心情。在布局以及中盤,就要用厚勢、弱棋負擔之類的來回調整一下,粗粗的給個結論。
這種結論往往很不精確,不同的棋手判斷可能不同,有的喜歡實地,風格是「敏於實地」,或者喜歡外勢,風格是「厚實攻擊」。高手們有時沒法判斷了或者想講清楚道理,還喜歡用日本道策發明的「手割」法,從公認有結論的局面為基礎,改變著手次序倒推,有點數學公理系統的意思。總之,在局面還有很多未確定因素的時候,人類進行判斷的手段就是這些,並不太多。
這種情況下,人類高手們討論局面判斷的時候有時顯得很搞笑的。如果一個局面,下A和下B結果是確定的「下A會比下B虧1目」,那所有高手都會認為A是錯招不成立。有時甚至會為了這一目「不能忍受」的虧損進行複雜的大轉換,或者否定一個定式。
人類高手對於有確定結論的東西是非常在意的。這也是多數業餘棋手糊裡糊塗的地方,下B可以下A好象也行憑感覺來吧,幾下就虧掉很多目。但是如果這時有另外一個選擇C,沒有辦法相對AB給出確定結論,那高手們就會作出「兩分」、「雙方可下」、「得失不明」、「下C不好控制還是下B」,「下C照顧大局」之類的模糊結論。但是實際上可能下C比下B要好得多,如果選擇B虧的就不是1目了,可能是好幾目。
以前常見的一個小目定式
上圖是以前常見的一個小目定式,高手們下過無數盤。但是後來沒有人下了!因為實際上這個圖黑棋虧大了。雙方手數一樣,黑還先佔角的,但是子力位置偏低,地和勢都不見得有優勢,沒有體現「先招優勢」。現在是這麼解釋,但是之前為什麼一直下?因為理由也並不是那麼明顯。孟泰齡說,是高手們經過多次實戰,發現執黑一方勝率明顯偏低,回頭找問題,這才放棄了這個定式。
這種「集體實戰」判斷,是網路圍棋時代高手們開發出的新辦法。說不清,大家就實戰來試試,你說兩分,我說黑優,水平相當的雙方實戰100盤如果黑勝了70盤明顯佔優,大家還是會同意「黑優」的結論。以前沒有網路,職業棋手一年才下幾十盤棋,互相交流也少,這種方法就不可行了,往往是個人面壁式的細心體會局面優劣。現在網路時代,勤奮的職業棋手一年下上千盤網棋都有可能,這種方法不僅可能,甚至發生了有趣的演變。
高手們為了維持狀態,就積極地在網站上下20秒30秒的快棋。這樣的結果是,高手們開發演變出了一些大型「套路」。這是因為,如果你偏離套路,一般會吃虧,會通過輸棋或者直接講理判斷證明。於是大家都擺套路,提高熟練程度。
偶而會有高手出「新手」取得效果,於是其它高手們研究試用以後,給出相應的應對,否定這個新手,豐富了套路的內涵。或者同意這個新手成立,形成新的套路,回頭否定老的套路。這樣來回否定,對套路的理解確實深了,也可以算是棋藝的進步。但是網棋以及正式對局,就出現了大型套路太多,降低棋局精彩程度的問題,有時甚至「復盤」到四五十手才變招,圍棋有「象棋化」的趨勢。
當然這些套路是有內涵的。一般認為日本棋手水平相對中韓下降,是因為日本棋手戰鬥力不行,布局看著還行,中盤就被殺得不行了。孟泰齡戰鬥力與算路與年青棋手比相對差,但是布局分析卻較有信心,經常戰勝算路好的對手,在中國等級分能排20多位。他認為日本棋手恰恰是布局水平有問題,對局面的理解落後了。因為中韓棋手積極在網路上對戰,或者在國家隊里交流最新「套路」內涵成果,所以其實掌握了很多先進知識。
日本棋手還是老套路,也不注意這些最新成果,還是按老的理解走,吃了虧也不知道,經常就是「安樂死」。想要掙紮下出過分的招數,戰鬥力又不行,輸得更快。
中韓高手們集體實戰驗證套路的辦法,其實暗合了AlphaGo強化學習生成價值網路的方法。AlphaGo會進行幾千萬次的高質量「自我對局」,比高手們的對局加起來都多得多。人類高手們反覆實戰能判斷幾十個局面都不容易,AlphaGo的訓練流水線卻能生成幾千萬個局面,用於價值網路的訓練。
價值網路是個和策略網路結構相似的多層神經網路,但是裡面的係數不一樣,它能對一個靜態局面不搜索直接給出勝率,判斷誰佔優。有了策略網路與價值網路,AlphaGo不需要搜索都可以下得很好了,對每一招策略網路提供的選點,價值網路給出勝率判斷,選擇最好的一個選點下就可以了。2016年中DeepMind說AlphaGo棋力取得突破,就特別說了價值網路取得了巨大的進步。
價值網路是人類思考中沒有的,在谷歌論文之前甚至沒有這個概念。從學術角度來說,這可能是谷歌論文最大的貢獻。深度學習生成策略網路並非DeepMind最先提出的。雖然對人類來說有點不自然,但價值網路正是人類可以學習的地方,職業高手們也許能從這個方向上取得棋力的突破,但需要科學的方法。
人類能通過多次實戰、打譜,在腦中形成直覺,看一眼局面就能根據棋形產生一些靠譜的候選點。對人類直覺方便之處在於,候選點有「局部性」,人只要看局部就能有「關鍵」點的直覺。有時一些照顧全局的棋招會被誇張地稱為「耳赤妙手」。人類自然傾向就是局部觀察,眼睛看畫面時自然會聚焦在一小塊地方,棋手思維也是如此。高手要逆著這個直覺觀察全局,多找一些候選點。范西屏是中國古代水平最高的棋手之一,李步青對其它人這樣形容他的棋藝:「君等於弈只一面,余尚有兩面,若西屏先生則四面受敵者也」,這是說范西屏全局觀念特彆強。
但這種全局觀念畢竟難於描述,成了高手中只可意會不可言傳的「大局觀」。人類對局部的精確描述卻不斷取得進展,局部定式發展出成千上萬個,甚至有《定式大全》這樣的書。局部數目的手段與技術也不斷發展,目數價值精確到幾分之一。大局觀方面卻一直沒有太大的進展。甚至一些90後年青高手認為,布局不要太看重,花時間想也想不出什麼東西,隨便搞搞套路或者下一些過得去的著手應付下,大量時間要留在中後盤決戰。
從實戰來說,這也確實是勝率較高的選擇,你脫離套路未必佔優,就算花大量時間琢磨布局選點便宜了兩三目,後面時間不夠了隨時崩盤,因為人家後面肯定會來「攪」。孟泰齡主要的獲勝方式,就是利用一些年青棋手忽視布局這個特點,他精心研究布局,多次在局面判斷中取得優勢,後面拼了老命把優勢守下來。但是由於年青高手們衝擊實在太厲害,往往頂不住,泰哥也無法取得戰績的突破,只能維持住一流高手的地位。
職業棋手面臨著訓練內容與方法的革命
職業棋手們水平取得突破,也和一些圍棋道場的嚴格軍事化訓練手段分不開。沖段小棋手們做海量的死活題,認真進行大量的對局,嚴謹計算的態度與人腦中「策略網路」的質量都不錯。死活題有上千年的歷史積累,多年的實戰提供了大量素材,還有不少高手喜歡創作死活題。日本的《發陽論》吸收了中國古代棋書中不少素材,韓國《天龍圖》是實戰積累。死活題素材不缺,有道場、有網路,高水平實戰鍛煉的機會不缺,套路相關的信息流傳也快,職業棋手群體水平迅速進步。
但是,各道場並沒有多少「局面判斷」的題目積累,這是一個非常嚴重的技術性缺失。如果棋手群體有意識地在這方面努力,是有辦法可想的。可以集體討論一些局面,取得一致,拿出來作為習題或者「訓練樣本」。也可以在網路上組織實戰,主動對一些局面統計勝率,獲得寶貴的數據,達成一致。可以積累大量網站與實戰高水平棋譜,對一些同類開局進行大數據分析。這樣的分析程序已經有了,但主要是正式比賽棋譜不夠多,如果能和對弈網站聯手,增加海量棋譜,局面統計分析就更為精確。
現在有了高水平圍棋AI,就更為方便了。高水平圍棋AI,以後一定會普及。如果放開AI數據後門,就能看到局面的具體勝率,甚至價值網路對局面的估值。甚至也可以把訓練好的價值網路單獨抽出來做成小程序幫助分析。這樣,應該可以象死活題一樣積累出海量的局面判斷素材。和以前不一樣的是,這些局面判斷題有參考答案,或更為權威的答案,並不僅僅是思考題。
職業棋手們可以去盯著這些局面判斷題,進行全局思考。為什麼這些局面是黑優不是白優?為什麼和自己的感覺相反?為什麼AI或者統計結論明顯,自己卻沒有感覺?這樣仔細琢磨,一定會想出一些道理。琢磨久了,甚至作出判斷的速度都會加快。AI的策略網路和價值網路的神經網路是相似的,人類既然能夠有「策略網路」的直覺系統,同樣在人腦中訓練出「價值網路」應該是可行的。
從人類等級分最高的柯潔的棋藝來看,他可能就有這樣的特點。柯潔的算路並不是最深的,數目也不是最強,也不是妙手一堆,當然這些都不弱。柯潔自稱最強的是判斷,有時直接判斷不用數目就知道是虧了還是賺了,是通過4000多盤網棋成長起來的。很可能柯潔在數千盤對戰中不自覺地注意了對腦中「價值網路」的訓練,形成了自己領先其餘高手的局面判斷能力。這些棋手與棋迷認為,柯潔是下得最象AI的棋手。
職業棋手群體可以把這個過程工程化,主動收集有教育意義的反直覺局面,棋手們主動接受類似機器學習的「人腦學習」訓練,形成直覺一樣的局面判斷能力。在高水平AI的幫助下,這個過程應該可以迅速縮短,不用非常辛苦地積累素材。對各個道場的培訓水平而言,局面判斷素材以及使用AI幫助訓練的能力,會成為重要因素。國際象棋AI早就這樣幫助人類棋手訓練了。
這種局面判斷,天生就是全局的。這將使人類高手的圍棋思維,從之前的局部定式、局部數目、局部戰鬥,飛躍進步到全局判斷、全局戰鬥,這將是吳清源大師窮畢生之力思索并力推的「21世紀圍棋」、「六合圍棋」時代。吳清源2014年去世了,沒有看到圍棋AI的革命性進展。但是在圍棋AI的幫助下,這個時代將不可避免地到來,人類高手圍棋水平將再次取得突破性進展。
而對於Master這樣的圍棋AI,也不要過於恐懼。它的秘密武器就是以價值網路為基礎的全局思維,新手不斷,明快取捨。AI的價值網路是基於全局的,所以全局配置稍有不同,它的著手就會發生變化,遠遠的幾個散子人類看不到什麼,AI卻能考慮到下出新手。
人類高手30秒計算時間過短,碰到的又是完全不同的棋路需要計算,自然容易出錯被狠狠打擊。甚至有些著手,人類高手們「不知道AI是什麼意思」,過了一些招數才發現吃大虧了。有些上陣的高手甚至由於恐懼,對自己失去信心,明顯技術變形,早早就大敗了。
人類由於生理條件的限制,需要更多的思考時間。從探索圍棋技藝的角度,要求更多思考時間是合理的。如果在布局與中盤戰鬥中領先或者頂住了,收官時因時間緊張出小錯敗北,這並不可怕。但是人類必須在布局方向選擇、接觸戰的局面判斷中更多地引入全局思維,接近AI的水平,才有機會頂住。
AI由於MCTS演算法天生的弱點,很大可能仍然是有缺陷的,太複雜的局面會出現算路問題,或者局部死活出現漏算,而這是人類的優勢。人類的語言邏輯推理能力,局部嚴密算路是有優勢的!對於複雜局面,人類可以總結歸納主要矛盾,設計出組合手段,推理出可行次序。而AI由於MCTS的框架特性,什麼都要算到終局,不可能什麼都模擬到,大量算力浪費在非關鍵的邏輯里,發生漏算是可能的。當然前提是人類高手需要頂住,不能讓AI隨便就領先10幾20目,那AI可以簡明地控制局面,對手毫無機會。
如果人類高手能夠學習價值網路的全局思維主動訓練,取得棋藝的飛躍進步,再給以足夠的思考時間,和AlphaGo以及其它水平不斷進步的高水平AI對戰還是有勝機的,而這對圍棋發展的意義極為重大。DeepMind開發出AlphaGo這樣的革命性圍棋程序,將確定無疑地引領圍棋藝術再一次的飛躍進步,人類棋手也會獲益非淺。
作者簡介:筆名陳經,香港科技大學計算機科學碩士,科技與戰略風雲學會會員, 微博@風雲學會陳經。
【本文2017年1月4日發表於觀察者網(陳經:被圍棋AI橫掃後,職業棋手應該如何提高水平?陳經:人民幣「有管理的浮動匯率機制」不可輕動中國科技文化產業網袁嵐峰:清華教師被騙1760萬,一個最該關注的問題被忽視了_評論_環球網)。】
請關注風雲學會的微信公眾平台「風雲之聲」,微信號fyvoice
知乎專欄:知乎專欄
一點資訊:【一點資訊】風雲之聲 www.yidianzixun.com
今日頭條:風雲之聲 - 頭條號(www.toutiao.com)
推薦閱讀:
※智能模型
※凱文凱利:特斯拉市值超通用,背後邏輯在於數據
※人工智慧全面加持,凡普金科卡位領跑金融科技行業
※深度學習——分類之Inception v2——Batch Normalization
※人工智慧與中國象棋的頂尖高手對弈的結果有哪些?