別以為和職業棋手想法不同就是錯,AlphaGo有自己的「價值觀」|陳經

別以為和職業棋手想法不同就是錯,AlphaGo有自己的「價值觀」|陳經

請點擊「風雲之聲」,打開新的世界

科技與戰略風雲學會,受過科學訓練的理性愛國者們組建的智庫。科學素養,家國情懷,橫跨文理,縱覽風雲。

導讀:本文寫於李世石和AlphaGo第一盤對局後。機器的勝利對職業棋手們造成了極大的衝擊,本文主要從技術層面解讀AlphaGo的獨特的行棋風格與判斷。如果職業棋手們粗粗一看,不仔細考慮,可能就會迅速作出結論,說AlphaGo錯了。但細細品味後,也會有職業棋手判斷不同。

————————————————————————————————

2016年3月9日,谷歌圍棋人工智慧程序AlphaGo在和人類頂級棋手李世石五盤大戰的第一局中,執白186手中盤勝。這個結果出乎了絕大多數職業棋手和圍棋迷的預料。機器的勝利會有很大的社會影響,不過本文將主要從技術層面解讀AlphaGo的獨特的行棋風格與判斷。

棋壇與傳媒對這局比賽的關注絕對是史無前例的,中國就有十多家媒體與網站進行了實時轉播評論。有職業棋手開玩笑說,自己從來沒有這麼搶手過。我之前寫文章分析了AlphaGo的演算法缺陷(《谷歌圍棋演算法存在巨大缺陷,達不到人類最高水平》,谷歌圍棋演算法存在巨大缺陷,達不到人類最高水平|陳經 - 風雲之聲 - 知乎專欄),之前它對樊麾的幾盤棋中確實表現出來了,這次在第一局觀戰過程中,就準備根據眾多職業其手的分析,看它如何犯錯的。相信這也是很多圍觀的職業棋手們樂於進行的。另一方面,職業棋手們也是會犯錯的,甚至頂尖職業棋手也經常會犯,只是人類對手又犯錯送回來了,真正意義上的完勝譜很少。所以之前我也認為AlphaGo有勝機。

從本局來看確實如此,AlphaGo下了一些職業棋手們認為有問題的著法。這些有疑問的著法,有些招是電腦勝定後的著法,可以認為電腦沒有下出「最狠」的手段,但不影響勝利,不能用來說明電腦的水平。還有很多招法就真正是讓職業棋手們難以認同,甚至大加批評的。

李世石開局發揮不好,選擇有問題。柯潔指出,這是李世石棋藝的弱點,布局階段的判斷有問題,所以自己和李世石下有信心。中間李世石利用AlphaGo的失誤,扳回了形勢。但後面又有明顯失誤,按一些職業棋手的判斷,是將勝局送給了機器。但在壓力之下,李世石出現這些失誤也屬於正常,並不能說是發揮特別不好。這些不算這盤棋最大的看點。

在我看來非常有趣的是,AlphaGo有不少招數的選擇非常獨特,對局面的判斷更是與職業棋手們很不相同。對於AlphaGo的招法好壞,職業棋手們也時常有分歧。這種判斷分歧,在人類職業棋手互相對局時也有發生,但不太常見,因為人類棋手思維還是比較相通的。這萬眾矚目的第一局,AlphaGo就引發了職業棋手們非常不同的判斷,分歧之多可以說前所未有。

從棋局進程來看,周睿羊和李喆認為,通盤李世石都沒有明顯的勝機。而古力、俞斌、江維傑等人卻在對局中作出了非常樂觀的判斷,認為黑優勢明顯,甚至盤算起電腦有沒有認輸機制(實際是有,如果電腦蒙特卡洛模擬勝率過低會選擇認輸)。但局後又說不清楚到底李世石哪手是敗招。

在公認的棋局轉折點,AlphaGo的102手打入右邊黑陣之後,職業棋手們簡直象蒙了一樣,判斷非常異常。從結果看,等於白打入黑空,先手吃掉了黑三個子,又回到了左上角的三三守住了一大片空。這時不少職業棋手們已經意識到AIphaGo領先了,之前的判斷錯了。後來李世石在右下角讓白活了6目,這個選擇是明顯的錯誤。但即使選擇正確,也不足以獲勝。

下面用一些參考圖來說明關鍵時刻AlphaGo的失誤,及其和職業棋手們不同的推理過程與獨特判斷。

李世石對AlphaGo第一局第27

李世石有所準備,開局猜先正確有了選擇權,卻仍然選了職業棋手們一般認為貼目過多的黑棋。李世石開局R8這招是新手,也許是想導入AlphaGo「沒有見過」的局面。而AlphaGo第10手的托退,就不合職業棋手的口味。24、26這兩手棋,顯示了AlphaGo的實力,確實不好應付,獲得了棋手們的讚許。李世石強硬地27位擋住,可能是一個選擇錯誤,導致了他開局不利。

李世石對AlphaGo第一局第49

48手是古力、俞斌等人都指出來的AlphaGo的問題手,甚至在職業棋手眼中是低級錯誤。這手和黑49手交換,黑是活棋,而且損害了白右上大龍的眼位,將來會導致在中間的戰鬥中白失去主動。職業棋手一般會保留48手這手不走。

讓我們試著去理解,為什麼AlphaGo會下這招?首先,這步立從「棋形」的角度來說,是個感覺不錯的招法,職業業餘的都會注意到,實戰中經常下出來。AlphaGo的策略網路顯然會把它提出來作為候選點。這招加固了白的左上陣地,還威脅了黑中上一塊,黑應對不善是要死棋的。即使黑應對正確,白也可以搜刮讓這塊棋「兩眼苦活」。所以這招在AlphaGo的價值網路與蒙特卡洛樹形搜索(MCTS)的推理系統中,會有不錯的評分。而壞處,是對白右上大龍眼位有損失。這是一個比較長遠的損失,黑攻擊這塊棋出成果,肯定是幾十手以後的事了。這種推理手數太長,可能超過了它的搜索能力。這招棋有點類似於AlphaGo對樊麾第三局中,第60手搗亂不成功還損了眼的那個錯招。這可能說明,在與樊麾對局五個月後,AlphaGo的搜索框架仍然不能實現「保留變化」這類較為高級的圍棋概念,缺陷仍然存在

李世石對AlphaGo第一局第77

上圖是AlphaGo被質疑最多的一串下法。白58手跨斷,然後上面交換幾手,下面連著推下去,被李世石77手罩吃掉「棋筋」。許多看棋的職業棋手與棋迷到這鬆了一口氣,覺得AlphaGo犯下了大錯,黑明顯優勢了。但是從後來的結果看,這可能是一個錯覺,黑的優勢沒有多大,甚至有沒有優勢都是個問題。

如果按AlphaGo的演算法框架去理解,它是沒有什麼「棋筋」之類的概念的,從來都是進行全局評估,MCTS模擬還會下到終局去,可能會觀察到一些更深的東西,雖然不一定嚴謹。我認為AlphaGo這裡的選擇是有道理的,它放棄了中間兩子,看似得到的不多,在人的感覺里,白右邊中間那一排是厚勢還是孤棋都不好說。它在MCTS模擬中,應該是發現了黑右邊陣勢的弱點,如後來R5的掛、R10的打入。它不是看到了就罷,而是真的會模擬下完,於是可能發現在很多模擬結果中,黑右邊陣勢被破得很慘。所以,它和很多職業棋手的判斷不同,先讓黑棋「爽」了不少手,把招數留在了以後。

李世石對AlphaGo第一局第81

第80手又是古力等不少職業棋手指出的AlphaGo的問題手。這手感覺上比較緩,只是吃掉了H14和J14二子,但是F17和左上角仍然沒有護住。黑81手雙飛燕下出後,整個左下角黑棋顯得氣勢如虹,不少職業棋手們和棋迷認為這時黑優勢非常大了。

但這又是一個價值判斷的問題。AlphaGo會將80、81這些著手作為可能的候選提出,卻不會先天地認為某一手就更厲害,還是會用搜索來驗證哪招勝率更高。如果白不下80,黑顯然會在這裡動出,確實味道不太好,全盤一塊大的基本空都沒有,不少模擬分支中直接就崩盤了,AlphaGo模擬會認為這裡最危險。而黑81看上去陣勢很可怕,但白星位一子總是不會被吃,有各種複雜的辦法來謀活(後來確實先手活了不小的一塊)。職業棋手對於陣勢的判斷往往有問題,不能僅憑感覺。

2015129日,三星杯決賽柯潔執白對時越

類似的一個局面是剛剛過去的三星杯決賽,如上圖這個局面。職業棋手們普遍看好時越的黑棋,認為黑右上角陣勢龐大。但這只是一種感覺,實際並不靠譜。當柯潔138手掛入後,沒幾手就發現,黑居然拿白沒有什麼辦法,局勢完全顛倒,黑已經必敗了。

李世石對AlphaGo第一局第102

這是局面轉折的焦點,白102手打入。這手之前,職業棋手們一片樂觀,黑左下那塊空感覺很大。從最後的結果來看,這個勝負手取得了超乎想像的成功。黑拿這手沒辦法,右上三子先手被吃,白補了C17左上全姓了白。而黑卻沒有對左下R5那個白子攻出什麼東西,等於什麼都沒撈到,就此告負。職業棋手們在這個過程中,或早或晚發現「不對勁」。但到底李世石哪手是敗著也沒有說清楚。有說是對102應得不對的,有說是右下角應該R4尖頂的。也有說是左下角讓白先手活不對的。

總體來說,AlphaGo的演算法設計者中沒有職業棋手,對圍棋的理解肯定不夠深,但是他們對於人工智慧與圍棋演算法的理解非常的深。在MCTS、深度學習、價值網路三大革命技術支持下,AlphaGo形成了與職業棋手們非常不同的行棋風格。不是說AlphaGo下得多麼的天衣無縫,職業棋手們已經提出不少質疑。但是,也不能說AlphaGo就犯了什麼簡單的錯誤。這種錯並不是很容易在數手之內,或者擺一個簡單變化圖就說它錯了,簡單算路的錯它絕對不會犯。最根本的一點,AlphaGo的判斷與職業棋手們非常不同。它有一套自己的「價值觀」,不是沒有根據的,後面有價值網路以及幾百萬個搜索局面支持,並不能簡單地就說它的判斷是錯誤的。如果職業棋手們粗粗一看,不仔細考慮,可能就會迅速作出結論,說AlphaGo錯了。但細細品味後,也會有職業棋手判斷不同。

從第一局來看,AlphaGo對人類並沒有壓倒性的技術優勢,不是說從頭到尾讓人沒有機會。本局李世石的失利,也確實有他發揮不佳的原因。但是,AlphaGo已經可以說是一位有著獨特圍棋哲學與風格的頂級棋手,有著強大的戰鬥力。職業棋手們應該放下成見,用心去品味領會它的行棋邏輯,不要過於快速地作出經驗性的判斷

職業棋手們注意到了自己這個群體的不穩定,說精力不集中會出錯,會給機器可乘之機,但對於現代圍棋的局面判斷之類的「藝術」似乎還比較有信心。應該說,從藝術角度確實如此。但是,AlphaGo的獨特風格與價值判斷,也應該得到尊重。不能簡單地說AlphaGo想得和人不一樣,就是有問題。

預計接下來四局中,李世石總結經驗發揮水平,還是有機會贏回2-3局的。AlphaGo顯然也是有弱點的,只是風格比較獨特,弱點不象人想像的那樣。

致謝:感謝科技與戰略風雲學會會長袁嵐峰博士(微博@中科大胡不歸 )與其他會員的寶貴意見。

作者簡介:筆名陳經,香港科技大學計算機科學碩士,科技與戰略風雲學會會員, 微博@風雲學會陳經 ,棋力新浪圍棋6D。二十一世紀初開始有獨特原創性的經濟研究,啟發了大批讀者。2003年的《經濟版圖中的發展中國家》預言中國將不斷產業升級,挑戰發達國家。

【新書推薦】2016年8月,中國發展出版社出版《陳經說:中國的官辦經濟》。該書從「官辦經濟」出發,闡述中國如何在計劃經濟向市場經濟轉化的過程中,摸索出一條不同於二者的全新道路。該書被廣大讀者稱之為工業黨思想理論領域的旗幟之作,觀察者網專欄作者文揚點評指出,《陳經說》的出版讓有些「主流經濟學家」的有色眼鏡跌碎一地。京東、噹噹、亞馬遜等店有售,也可進入觀察者網微店購買。

【本文2016年3月10日發表於觀察者網(陳經復盤李世石對戰谷歌人工智慧:別以為和職業棋手想法不同就是錯,AlphaGo有自己的「價值觀」)。】

請關注風雲學會的微信公眾平台「風雲之聲」,微信號fyvoice

知乎專欄:風雲之聲 - 知乎專欄

一點資訊:【一點資訊】風雲之聲 www.yidianzixun.com

今日頭條:風雲之聲 – 頭條號(TouTiao.org)


推薦閱讀:

圍棋史上的今天:12月3日 那些消逝的女子比賽
中國圍棋究竟整體在國際上處於什麼樣的水平和地位?
圍棋史上的今天:8月26日 潮起潮落 小林的時代
圍棋史上的今天:6月11日 雙龍會 中國首個棋聖頭銜的誕生
圍棋史上的今天:2月10日 上海灘恩仇錄 命運的逆流

TAG:AlphaGo | 围棋 | 人机对战 |