別以為和職業棋手想法不同就是錯，AlphaGo有自己的「價值觀」|陳經

02-07

別以為和職業棋手想法不同就是錯，AlphaGo有自己的「價值觀」|陳經

請點擊「風雲之聲」，打開新的世界

科技與戰略風雲學會，受過科學訓練的理性愛國者們組建的智庫。科學素養，家國情懷，橫跨文理，縱覽風雲。

導讀：本文寫於李世石和AlphaGo第一盤對局後。機器的勝利對職業棋手們造成了極大的衝擊，本文主要從技術層面解讀AlphaGo的獨特的行棋風格與判斷。如果職業棋手們粗粗一看，不仔細考慮，可能就會迅速作出結論，說AlphaGo錯了。但細細品味後，也會有職業棋手判斷不同。

————————————————————————————————

2016年3月9日，谷歌圍棋人工智慧程序AlphaGo在和人類頂級棋手李世石五盤大戰的第一局中，執白186手中盤勝。這個結果出乎了絕大多數職業棋手和圍棋迷的預料。機器的勝利會有很大的社會影響，不過本文將主要從技術層面解讀AlphaGo的獨特的行棋風格與判斷。

棋壇與傳媒對這局比賽的關注絕對是史無前例的，中國就有十多家媒體與網站進行了實時轉播評論。有職業棋手開玩笑說，自己從來沒有這麼搶手過。我之前寫文章分析了AlphaGo的演算法缺陷（《谷歌圍棋演算法存在巨大缺陷，達不到人類最高水平》，谷歌圍棋演算法存在巨大缺陷，達不到人類最高水平|陳經 - 風雲之聲 - 知乎專欄），之前它對樊麾的幾盤棋中確實表現出來了，這次在第一局觀戰過程中，就準備根據眾多職業其手的分析，看它如何犯錯的。相信這也是很多圍觀的職業棋手們樂於進行的。另一方面，職業棋手們也是會犯錯的，甚至頂尖職業棋手也經常會犯，只是人類對手又犯錯送回來了，真正意義上的完勝譜很少。所以之前我也認為AlphaGo有勝機。

從本局來看確實如此，AlphaGo下了一些職業棋手們認為有問題的著法。這些有疑問的著法，有些招是電腦勝定後的著法，可以認為電腦沒有下出「最狠」的手段，但不影響勝利，不能用來說明電腦的水平。還有很多招法就真正是讓職業棋手們難以認同，甚至大加批評的。

李世石開局發揮不好，選擇有問題。柯潔指出，這是李世石棋藝的弱點，布局階段的判斷有問題，所以自己和李世石下有信心。中間李世石利用AlphaGo的失誤，扳回了形勢。但後面又有明顯失誤，按一些職業棋手的判斷，是將勝局送給了機器。但在壓力之下，李世石出現這些失誤也屬於正常，並不能說是發揮特別不好。這些不算這盤棋最大的看點。

在我看來非常有趣的是，AlphaGo有不少招數的選擇非常獨特，對局面的判斷更是與職業棋手們很不相同。對於AlphaGo的招法好壞，職業棋手們也時常有分歧。這種判斷分歧，在人類職業棋手互相對局時也有發生，但不太常見，因為人類棋手思維還是比較相通的。這萬眾矚目的第一局，AlphaGo就引發了職業棋手們非常不同的判斷，分歧之多可以說前所未有。

從棋局進程來看，周睿羊和李喆認為，通盤李世石都沒有明顯的勝機。而古力、俞斌、江維傑等人卻在對局中作出了非常樂觀的判斷，認為黑優勢明顯，甚至盤算起電腦有沒有認輸機制（實際是有，如果電腦蒙特卡洛模擬勝率過低會選擇認輸）。但局後又說不清楚到底李世石哪手是敗招。

在公認的棋局轉折點，AlphaGo的102手打入右邊黑陣之後，職業棋手們簡直象蒙了一樣，判斷非常異常。從結果看，等於白打入黑空，先手吃掉了黑三個子，又回到了左上角的三三守住了一大片空。這時不少職業棋手們已經意識到AIphaGo領先了，之前的判斷錯了。後來李世石在右下角讓白活了6目，這個選擇是明顯的錯誤。但即使選擇正確，也不足以獲勝。

下面用一些參考圖來說明關鍵時刻AlphaGo的失誤，及其和職業棋手們不同的推理過程與獨特判斷。

李世石對AlphaGo第一局第27手

李世石有所準備，開局猜先正確有了選擇權，卻仍然選了職業棋手們一般認為貼目過多的黑棋。李世石開局R8這招是新手，也許是想導入AlphaGo「沒有見過」的局面。而AlphaGo第10手的托退，就不合職業棋手的口味。24、26這兩手棋，顯示了AlphaGo的實力，確實不好應付，獲得了棋手們的讚許。李世石強硬地27位擋住，可能是一個選擇錯誤，導致了他開局不利。

李世石對AlphaGo第一局第49手

48手是古力、俞斌等人都指出來的AlphaGo的問題手，甚至在職業棋手眼中是低級錯誤。這手和黑49手交換，黑是活棋，而且損害了白右上大龍的眼位，將來會導致在中間的戰鬥中白失去主動。職業棋手一般會保留48手這手不走。

讓我們試著去理解，為什麼AlphaGo會下這招？首先，這步立從「棋形」的角度來說，是個感覺不錯的招法，職業業餘的都會注意到，實戰中經常下出來。AlphaGo的策略網路顯然會把它提出來作為候選點。這招加固了白的左上陣地，還威脅了黑中上一塊，黑應對不善是要死棋的。即使黑應對正確，白也可以搜刮讓這塊棋「兩眼苦活」。所以這招在AlphaGo的價值網路與蒙特卡洛樹形搜索（MCTS）的推理系統中，會有不錯的評分。而壞處，是對白右上大龍眼位有損失。這是一個比較長遠的損失，黑攻擊這塊棋出成果，肯定是幾十手以後的事了。這種推理手數太長，可能超過了它的搜索能力。這招棋有點類似於AlphaGo對樊麾第三局中，第60手搗亂不成功還損了眼的那個錯招。這可能說明，在與樊麾對局五個月後，AlphaGo的搜索框架仍然不能實現「保留變化」這類較為高級的圍棋概念，缺陷仍然存在。

李世石對AlphaGo第一局第77手

上圖是AlphaGo被質疑最多的一串下法。白58手跨斷，然後上面交換幾手，下面連著推下去，被李世石77手罩吃掉「棋筋」。許多看棋的職業棋手與棋迷到這鬆了一口氣，覺得AlphaGo犯下了大錯，黑明顯優勢了。但是從後來的結果看，這可能是一個錯覺，黑的優勢沒有多大，甚至有沒有優勢都是個問題。

如果按AlphaGo的演算法框架去理解，它是沒有什麼「棋筋」之類的概念的，從來都是進行全局評估，MCTS模擬還會下到終局去，可能會觀察到一些更深的東西，雖然不一定嚴謹。我認為AlphaGo這裡的選擇是有道理的，它放棄了中間兩子，看似得到的不多，在人的感覺里，白右邊中間那一排是厚勢還是孤棋都不好說。它在MCTS模擬中，應該是發現了黑右邊陣勢的弱點，如後來R5的掛、R10的打入。它不是看到了就罷，而是真的會模擬下完，於是可能發現在很多模擬結果中，黑右邊陣勢被破得很慘。所以，它和很多職業棋手的判斷不同，先讓黑棋「爽」了不少手，把招數留在了以後。

李世石對AlphaGo第一局第81手

第80手又是古力等不少職業棋手指出的AlphaGo的問題手。這手感覺上比較緩，只是吃掉了H14和J14二子，但是F17和左上角仍然沒有護住。黑81手雙飛燕下出後，整個左下角黑棋顯得氣勢如虹，不少職業棋手們和棋迷認為這時黑優勢非常大了。

但這又是一個價值判斷的問題。AlphaGo會將80、81這些著手作為可能的候選提出，卻不會先天地認為某一手就更厲害，還是會用搜索來驗證哪招勝率更高。如果白不下80，黑顯然會在這裡動出，確實味道不太好，全盤一塊大的基本空都沒有，不少模擬分支中直接就崩盤了，AlphaGo模擬會認為這裡最危險。而黑81看上去陣勢很可怕，但白星位一子總是不會被吃，有各種複雜的辦法來謀活（後來確實先手活了不小的一塊）。職業棋手對於陣勢的判斷往往有問題，不能僅憑感覺。

2015年12月9日，三星杯決賽柯潔執白對時越

類似的一個局面是剛剛過去的三星杯決賽，如上圖這個局面。職業棋手們普遍看好時越的黑棋，認為黑右上角陣勢龐大。但這只是一種感覺，實際並不靠譜。當柯潔138手掛入後，沒幾手就發現，黑居然拿白沒有什麼辦法，局勢完全顛倒，黑已經必敗了。

李世石對AlphaGo第一局第102手

這是局面轉折的焦點，白102手打入。這手之前，職業棋手們一片樂觀，黑左下那塊空感覺很大。從最後的結果來看，這個勝負手取得了超乎想像的成功。黑拿這手沒辦法，右上三子先手被吃，白補了C17左上全姓了白。而黑卻沒有對左下R5那個白子攻出什麼東西，等於什麼都沒撈到，就此告負。職業棋手們在這個過程中，或早或晚發現「不對勁」。但到底李世石哪手是敗著也沒有說清楚。有說是對102應得不對的，有說是右下角應該R4尖頂的。也有說是左下角讓白先手活不對的。

總體來說，AlphaGo的演算法設計者中沒有職業棋手，對圍棋的理解肯定不夠深，但是他們對於人工智慧與圍棋演算法的理解非常的深。在MCTS、深度學習、價值網路三大革命技術支持下，AlphaGo形成了與職業棋手們非常不同的行棋風格。不是說AlphaGo下得多麼的天衣無縫，職業棋手們已經提出不少質疑。但是，也不能說AlphaGo就犯了什麼簡單的錯誤。這種錯並不是很容易在數手之內，或者擺一個簡單變化圖就說它錯了，簡單算路的錯它絕對不會犯。最根本的一點，AlphaGo的判斷與職業棋手們非常不同。它有一套自己的「價值觀」，不是沒有根據的，後面有價值網路以及幾百萬個搜索局面支持，並不能簡單地就說它的判斷是錯誤的。如果職業棋手們粗粗一看，不仔細考慮，可能就會迅速作出結論，說AlphaGo錯了。但細細品味後，也會有職業棋手判斷不同。

從第一局來看，AlphaGo對人類並沒有壓倒性的技術優勢，不是說從頭到尾讓人沒有機會。本局李世石的失利，也確實有他發揮不佳的原因。但是，AlphaGo已經可以說是一位有著獨特圍棋哲學與風格的頂級棋手，有著強大的戰鬥力。職業棋手們應該放下成見，用心去品味領會它的行棋邏輯，不要過於快速地作出經驗性的判斷。

職業棋手們注意到了自己這個群體的不穩定，說精力不集中會出錯，會給機器可乘之機，但對於現代圍棋的局面判斷之類的「藝術」似乎還比較有信心。應該說，從藝術角度確實如此。但是，AlphaGo的獨特風格與價值判斷，也應該得到尊重。不能簡單地說AlphaGo想得和人不一樣，就是有問題。

預計接下來四局中，李世石總結經驗發揮水平，還是有機會贏回2-3局的。AlphaGo顯然也是有弱點的，只是風格比較獨特，弱點不象人想像的那樣。

致謝：感謝科技與戰略風雲學會會長袁嵐峰博士（微博@中科大胡不歸）與其他會員的寶貴意見。

作者簡介：筆名陳經，香港科技大學計算機科學碩士，科技與戰略風雲學會會員, 微博@風雲學會陳經，棋力新浪圍棋6D。二十一世紀初開始有獨特原創性的經濟研究，啟發了大批讀者。2003年的《經濟版圖中的發展中國家》預言中國將不斷產業升級，挑戰發達國家。

【新書推薦】2016年8月，中國發展出版社出版《陳經說：中國的官辦經濟》。該書從「官辦經濟」出發，闡述中國如何在計劃經濟向市場經濟轉化的過程中，摸索出一條不同於二者的全新道路。該書被廣大讀者稱之為工業黨思想理論領域的旗幟之作，觀察者網專欄作者文揚點評指出，《陳經說》的出版讓有些「主流經濟學家」的有色眼鏡跌碎一地。京東、噹噹、亞馬遜等店有售，也可進入觀察者網微店購買。

【本文2016年3月10日發表於觀察者網（陳經復盤李世石對戰谷歌人工智慧：別以為和職業棋手想法不同就是錯，AlphaGo有自己的「價值觀」）。】

請關注風雲學會的微信公眾平台「風雲之聲」，微信號fyvoice

知乎專欄：風雲之聲 - 知乎專欄

一點資訊：【一點資訊】風雲之聲 www.yidianzixun.com

今日頭條：風雲之聲 – 頭條號(TouTiao.org)