標籤:

回顧這兩年的圍棋發展以及對AlphaGo水平的誤判

這兩年圍棋界這重要的事情自然就是AlphaGo的出現,引發了史無前例的大變局。

2016年1月28日,DeepMind在自然雜誌上公開他們的論文《Mastering the game of Go with deep neural networks and tree search》,轟動全世界。在此之前,圍棋AI發展了多年,卻進步緩慢,圍棋AI從未讓先戰勝過職業棋手。DeepMind公開了AlphaGo v13戰勝歐洲冠軍樊麾的棋譜,這個時候依然有很多人認為AlphaGo不過如此,他們認為樊麾在歐洲多年來致力於推廣圍棋,有職業之名而無職業之實,AlphaGo充其量不過是達到職業初段的水平。

雖然看過論文的人都知道AlphaGo的原理可以讓AlphaGo不斷進步,但外界無從估計AlphaGo在半年間能進步多少,事實上回頭看,AlphaGo最初版本到AlphaGo v13的進步之快也讓DeepMind AlphaGo研發團隊驚訝。

Google/DeepMind公布論文的時候就約定了2016年4月和李世石的人機大戰,當時只有少數人(大多是計算機界)認為AlphaGo有可能贏李世石,大部分人都不能估計到從2015年11月AlphaGo v13贏樊麾到2016年4月AlphaGo能進步到贏李世石的程度,職業棋手根據過往圍棋AI進步的速度,以及以往AI的幼稚表現,就更少人判斷AlphaGo有可能贏李世石。這是思維慣性,而且即便是李開復這種理論上比較熟悉圍棋AI相關技術的人,也對AlphaGo的進步速度做出了誤判。

我當時估計AlphaGo有機會贏一盤或兩盤,但是AlphaGo能碾壓李世石是我難以想像的。

大多數人,不管是計算機界還是棋界,還是普羅大眾,判斷失誤是很自然正常的,猜對了僅僅是猜對了,和買彩票差不多,真正理解AlphaGo原理的AlphaGo研發團隊都無法準確預計到AlphaGo最初版本到AlphaGo v13的進化速度。以王小川為例,僅僅因為自己預測AlphaGo贏就洋洋自得,並不可取。

所以,柯潔等職業棋手在李世石對局前,大多認為李世石贏面很大,AlphaGo能贏一盤已經是極大的成就。

李世石輸掉第一局後,職業棋手不少都是認為李世石發揮不好,依然沒有想到AlphaGo會碾壓李世石。

李世石輸掉前三局後,職業棋手批評李世石發揮不佳的聲音還是不少,但是相當多的職業棋手開始看到AlphaGo的強大了,包括柯潔也開始認識到了,從他發的微博就可以清晰地看到他的轉變。

最終李世石第四局78手觸發了AlphaGo v18的Bug,贏了一局,第五局李世石依然是沒有機會,最終AlphaGo以4:1大勝。

平心而論,AlphaGo v13棋譜表現出來的實力是真實的,達不到能贏李世石的程度,僅僅是剛到職業水平的程度,但是AlphaGo v18隻留下了5局比賽對局,很多職業棋手還是懷疑AlphaGo的實力,究竟是不是因為李世石發揮不佳才導致4:1這樣一個結果,還是AlphaGo真的能夠和頂尖棋手相抗衡呢?很多職業棋手和業餘愛好者都表示疑問。

後來,DeepMind又公開了AlphaGo的三盤自戰對局,對局中AlphaGo v18下出了很多人覺得驚艷的「奇招怪手」。實際上,我們應該要相信DeepMind公開的棋譜雖然數量少,但的確代表了AlphaGo v18的實力,認真分析棋譜後應該可以得出結論,AlphaGo v18的確已經可以贏頂尖棋手了。但是,很少有職業棋手公開詳細分析AlphaGo v18的這些棋譜,大多只是發表看法,職業棋手有些認為柯潔贏面大,有些認為AlphaGo肯定不斷進步,柯潔對AlphaGo一戰越拖越對柯潔不利。

當時全世界呼籲AlphaGo和柯潔一戰的聲音不絕於耳,大多數人並沒有職業棋手高超棋藝水平,也只能認為只有一戰才能知道究竟是哪個更強。

2016年下半年,好幾個參考DeepMind論文做出來的圍棋AI吸引了大眾的眼光,日本DeepZenGo和騰訊的絕藝為其中佼佼者,2016年底不少人判斷絕藝已經達到了類似AlphaGo v18的水平,但是絕藝也經常出現重大死活問題的失誤,職業棋手依然有贏的機會。

2017年1月,化名為Master的AlphaGo新版本在網上對弈,連贏職業棋手60局快棋後Aja Huang黃博士公開身份,轟動全世界。

這個時候,大多數人轉變為看好AlphaGo能碾壓柯潔,少數人認為AI可能在大型死活、多頭緒、保留打劫等複雜情況下可能不如頂尖棋手,只有少數人認為柯潔還有機會在番棋中贏AlphaGo。

2017年4月10日,柯潔對AlphaGo三番棋,人機對弈第二季敲定為2017年5月23,25,27三天。這個時候,可以說柯潔已經有和絕藝、Master對局的豐富經驗了,快棋面對Master柯潔完敗,快棋面對絕藝應該還有少量贏的戰績。慢棋呢,不知道柯潔暗地裡參與和絕藝的對練,究竟柯潔對絕藝有多少勝率。這個時候,AlphaGo-Master新版本沒有和職業棋手下過慢棋,慢棋職業棋手還有贏的可能性嗎?沒有人能確定。大多數人認為人機對弈第二季AlphaGo贏面大,柯潔贏面很小。這個時候柯潔也公開表示自己贏面小,但是不會束手就擒,一定會儘力一戰。

這裡,我不得不插一句,絕藝的水平和AlphaGo的水平至少是相差一年,如果棋手用和絕藝對局的經驗來推斷AlphaGo的水平是很不靠譜的。我猜測,柯潔在三番棋之前應該還是抱有一絲希望,希望能贏一局的,而這個一絲希望實際上就是誤判了,埋下了一個最大的隱患。

5月23日,柯潔第一局執黑,柯潔吸收了學習Master棋譜的最新心得,黑棋布局第3手下出了三.三,雖然三番棋之前柯潔在比賽中已經在練這個三三布局,關注柯潔的人並對此布局不陌生,依然讓全世界的棋迷和解說相當震動。事後看,第一局是柯潔水平最穩定,心態最穩定的一局。第一局中,柯潔沒有犯致命失誤,表面看就是AlphaGo棋高一籌(其實沒人知道AlphaGo水平比柯潔高出多少,這個差距是很難量化的,連DeepMind團隊也很難量化),AlphaGo獲得領先優勢之後安全運轉,柯潔官子階段下得相當好,看起來就是AlphaGo程序按照一貫的設定不斷選擇更安全的下法不惜虧損官子目數,最終第一局AlphaGo只贏了中國規則下的最小差距1/4子。

這個1/4子的最小差距讓一部分圍棋水平不高和不了解AlphaGo原理的人以為柯潔和AlphaGo是勢均力敵,以為柯潔還有機會贏。

第一局表面上的均衡,可能也讓柯潔更加希望在後面兩局中贏一盤。實際上,第一局97擴張誘敵的策略是錯誤的,不如實在地搶地,87很可能也是失誤(這個期待職業棋手來確認,目前多個職業棋手都認為是問題手)。

第二局,實際上柯潔32,34很有疑問,36打入我覺得過分、不合棋理,不知道柯潔是否真的有意識地執行很多人推薦的將局面導入複雜的策略 ,56,58我認為是敗招的原因很簡單,你只要看到59一長,白棋共有4塊棋不活,除了左下角白棋是劫活,白棋下面一塊棋和右下一塊棋都完全沒眼型,到處欠債。黑棋就容易得多,左下白棋劫活,次劫白輕黑重,劫材黑棋多。但是由於白棋除了左下白棋還有三塊白棋不活,黑厚白薄,黑棋左下角一塊、下面兩塊,共三塊棋,只有兩塊不活,但彈性、眼型、厚薄、出頭這幾方面綜合比較起來明顯比白棋好。

56,58敗招出來後,白棋76開始在上面動手想製造劫材,可是黑棋不上當,不拘泥上面的局部,黑79很敏銳正確,反過來追究白棋氣緊,追究白棋兩塊不活的棋。其後柯潔動出右下角白棋,一方面右下角死掉太大,另一方面是伺機製造劫材希望打贏左下角的劫,這樣才有希望贏得全局,可是黑棋應對緊湊,正確無誤,白棋右下越走越重卻還是沒有活乾淨或連回家,同時白棋沒有製造出更多的劫材,劫材數量還是黑棋有利。最後128開劫,即便136沒有找瞎劫,這個劫也是白棋打不贏的,白棋崩潰是遲早的事情。

柯潔在第二局賽後新聞發布會上說一度以為自己有機會了,不知道他說的是不是真心話,如果是真心話,我認為這就是他嚴重的判斷失誤了。按我的理解是,AlphaGo的算路深度已經明顯超過柯潔(面對柯潔或一眾頂尖棋手都可認為是算無遺策),表面上看打劫還有一絲希望,實際上圍棋是很殘酷的,大龍對殺少一氣則死多一氣則生,少一個劫材也是致命的,在AlphaGo的算路裡面(雖然不是窮盡)很可能看得很清楚,白棋一直少一個劫材,全局白棋也不可能好。

如果正確認識到AlphaGo的高度,人類棋手應該知道任何一步有問題的棋,都會導致落後,而且往往是變得AlphaGo更厚,每一個失誤都是更進一步滑向深淵,任何後續用無理過分的招法來嘗試攪局只會遭到更多的懲罰,所謂的局面複雜並不會導向更有利人類的局面,要從不利變得有利需要靠比AlphaGo質量更高的棋,而不是所謂冒險的、複雜的、甚至不合理的棋。但是,要下出比AlphaGo質量更高的棋近乎不可能,靠一招AlphaGo算漏的妙手扳回局面的可能性太低太低。

至此,第三局開始之前,代表人類最高水平的柯潔,很可能就是他對AlphaGo的判斷依然存在嚴重的偏差,嚴重低估了AlphaGo的高度,低估了每一步失誤會導致的懲罰。

柯潔後來自己說第三局前一天晚上太緊張沒睡好,一直在想用怎樣的套路對付AlphaGo,自嘲庸人自擾。這也解釋了柯潔第三局的狀態和心態發生了變化,第三局早早地第20手就形成自己被動的局面,形勢就落後了,第40手錯得更明顯,可以說這個錯誤比較低級,這可能就是人們經常說的柯潔有時會下一些隨手棋(通俗地講就是明顯失誤)。AlphaGo v18和現在這個對戰柯潔的最新版本,總是下出高質量的棋,你只要下出問題手,AlphaGo自然就領先了,這就是自然懲罰。

事後諸葛亮,或許柯潔真的應該在前面多花時間,儘力避免失誤導致局面失衡,進入官子階段如果落後不多,AlphaGo在安全運轉的策略下會贏得不多,很可能都像第一局那樣只贏很少的目數。 如果三局都是這樣的小輸幾目,人機對弈很可能就還有第三次,但是,已經沒有如果了,人類棋手充滿了冒險精神、不服輸的勁頭,0:3的結局可能就是這樣註定了。

按照DeepMind賽後的發言看,他們已經認為AlphaGo已經達到非常高的高度,他們要將更多的精力投入其他難題和將AlphaGo的一些技術運用到社會各行業中去,例如醫療。聽到AlphaGo研發要終止,我第一反應是感到震驚和悲傷的,眼淚都掉了下來。不過,DeepMind也並非一家無情的商業公司,只看商業利益,他們大大地推進了圍棋AI的發展,推動了圍棋界的反思和變革,人類對圍棋的認識又進了一步。他們公開的第一篇論文已經成就了DeepZenGo和絕藝等新一代圍棋AI,幾個月內他們會公開第二篇重量級的關於AlphaGo的論文,AlphaGo雖然不再參賽,但是AlphaGo的原理將流傳於世,文藝一點說,AlphaGo的靈魂永在。DeepMind除了公開AlphaGo最新版自我對戰50局棋譜,未來幾個月他們會開發一個工具用於幫助人類棋手分析理解AlphaGo的棋。我現在還想像不到未來這個工具會長什麼樣子,是不是免費、甚至開源,柯潔有可能成為第一個使用這個工具的頂尖棋手。我認為柯潔生於這個AlphaGo橫空出世的年代,總的來說是有幸更多一些,而不是不幸,職業棋手沒有必要非贏AI不可,人類也沒有必要百米跑比汽車還快。

就算上帝告訴我,拿到十連霸之後,第二天就會慘遭橫禍,死於非命,我都會毫不猶豫地拿下十連霸 -- 趙治勳

這句名言出現在我最新的對局中(弈客App),真的是巧合。

我猜吳清源如果有機會選擇,他會毫不猶豫選擇生在這個年代。棋痴如芮老師,估計也是這樣的選擇,據說她在5月24日聽到AlphaGo最新版本可以讓AlphaGo v18三個子就主動請纓表示願意被讓三子,欽佩之至。

===========================

想到哪寫到哪,只為記錄自己的感想

The End


推薦閱讀:

我們從未勝利!細數歷史上人工智慧和人類的棋盤大戰!
如何評價對於AlphaGo打劫問題的質疑?
在AI面前,人類有什麼意義?
棋王
先贏圍棋,再勝刀塔,跟遊戲較勁的人工智慧要怎麼趕超人類?

TAG:AlphaGo |