標籤:

完美的一手

Harry Qin,江湖人稱秦爺,現為國內某大學計算機系教授,但骨子裡是個沒有時空感、既純真、又玩世、還浪漫到無以復加的人文主義者。工科教授中最棒的散文家(之一),散文家中編程最棒的教授(沒有之一)。一起來讀讀作為計算機研究者的他,對於即將到來的人工智慧與李世石的世紀圍棋大戰是怎樣的看法。

 

川端康成的感覺  

川端康成坐在返回輕井澤的火車上,有些鬱鬱寡歡。那是1938年,川端受一家報社邀請,成為秀哉名人隱退對局的觀戰記者。對手是與吳清源共同推動現代圍棋新布局的木古實。對局陸續下了半年,中間秀哉名人染恙,不得不中斷了一陣子。川端擔憂名人的健康,乘車返家時心情沉重。 

 

車上有一名高壯的美國人,看到川端攜帶的磁力棋盤,邀請川端對弈。會下圍棋的西人至今仍不多,那時更是鳳毛麟角,棋藝自然不怎麼高明。川端讓六字也連贏了幾局。讓川端奇怪的是這個美國人對圍棋的態度,輸了,滿不在乎,不論輸幾局,也都無所謂,周圍再多人圍觀,也神態自若。 

 

對圍棋有深厚感情的川端先生將他此時的感受寫在了小說里: 

 

「圍棋對於西方人來說,也許不太合適吧。一般來說,西方人下圍棋,缺乏圍棋手的氣質。日本的圍棋,已經超出了娛樂和比賽的觀念,成為一種藝術。它貫穿著自古以來東方的神秘色彩和高雅精緻,我同美國人的對局過程,也感到這個國家沒有圍棋傳統。」 

這部小說叫做《名人》。 


武宮正樹的棋譜 

 

作為一個愛好圍棋的東方人,我至今仍然有類似川端先生當時的感覺。會下棋的西方人越來越多,國際大賽為了推廣這一人類最古奧也最複雜的遊戲,也時常給歐美選手發放外卡。但幾乎所有頂尖圍棋高手仍然集中在東亞地區,歐美選手即使參加比賽,也是一輪游。 

 

西方人不懂圍棋藝術,可是他們醉心技術。 

 

去年10月,他們終於推出了一個厲害的選手,AlphaGo,不但贏了職業棋手,更要向頂尖棋手發起挑戰。從理論上講,它對圍棋的「態度」也頗似那個跟川端對弈的美國人,不斷地訓練和對弈,不計輸贏,從中汲取教訓提高水平。它沒有圍棋傳統,甚至沒有(或者說很少)圍棋邏輯,只是靠記憶和概率演算,以及每天成千上萬的對局錘鍊。它也沒有,成為頂尖棋手---像吳清源、李昌鎬、李世石、古力---所需要的那麼一點點「天賦」。 

 

靠技術擊敗藝術。八九十年代,這是韓國棋手崛起的原因。日本人囿於太多的傳統和規矩,瀰漫在棋盤藝術氣息,淡化了勝負,逐漸在圍棋三國殺中落後。圍棋美學家大竹英雄寧願損失目數,也不願將棋走成愚形;宇宙流武功正樹執著於布局的行雲流水和厚勢的駕馭,不願意下俗手贏棋,雖然這讓他輸掉了很多本該贏的棋;「前五十手天下第一」的藤澤秀行先生說「本來能殺的棋不殺,即便是勝利了也稱不上真正的勝利者」。韓國棋手可不管這些,從此有了所謂「愚型的妙手」,「四角穿心」,「忍讓再忍讓,安全運轉優勢至終局」。 

 

職業棋手贏棋第一固然可以理解,然而圍棋好像也漸漸失去了一點點美感。秀哉名人拖著病痛的身體也要完成那盤隱退棋局,只因要在棋盤上留下完美的棋譜,「只要還下這盤棋,我的病就不會好,我常想,如果把這盤棋扔在這兒,我就舒服了,可是我不能做出對藝術不忠的事情。」 

 

趙治勳的勝率比武功好得多,但他有一次開玩笑對記者說: 「武功先生的棋譜會流芳百世的,我的棋譜恐怕要遺臭萬年吧。」 圍棋對人工智慧來說是科學問題,但在中國和日本的傳統文化里,它有著超乎尋常的美學意義。 

 


AlphaGo的原理 

 

AlphaGo的原理其實很簡單,主要依賴於大數據學習,模仿人類高手的招式,依概率找到最好的一手。它在多數情況下不知道為何這樣下,只是知道,根據已有的經驗,這樣下贏棋的概率較大。 

 

它不懂得勢、厚、薄,更不懂得脫先、棄子、轉化、保留、試應手。就像棋手們對神經網路、深度學習、加強學習、蒙特卡羅樹搜索一知半解,我疑心許多圍棋智能軟體的開發者也基本不理解這些圍棋里耳熟能詳的概念。 

 

AlphaGo用蒙特卡羅樹搜索模仿人下棋時的思考過程:1. 當前局面,下哪些位置比較好,2. 如果下了這手,對手會如何應對,如此不斷判斷其後的演化,到一定程度,再進一步判斷這一手的優劣。 

 

依此原則,如果想找到完美的一手,第一步就要考慮所有可以下子的位置,第二步對每一個可以下子的位置都要演化至終局,看誰勝誰負。可計算量太大了,黃山谷的名句「心似蛛絲游碧落」,像一個小飛行器在茫茫宇宙間尋找最佳著陸點,目前的計算機還應付不來。 

 

AlphaGo為了narrow down這個問題的規模,開發了兩個網路。其一為選點網路(Policy Network, 有人直譯為策略網路)。此網路通過對海量對局的學習,給當前局面下所有可能下子的位置給一個贏棋概率(或叫分數),其二為估值網路(Value Network),用來評估當前局面下的勝負概率。這兩個網路共同構成一個蒙特卡羅樹搜索系統,反覆迭代搜索判斷一手棋的價值,找到贏棋概率最高的一手。 

 

輸給AlphaGo的樊麾二段評價說,AlphaGo的棋風就像李昌鎬,精確、冷靜、極少犯錯。從原理上講AlphaGo確實應該具有李昌鎬的風格。馬曉春說李昌鎬是最穩定的棋手,每一手大概都有6-7分,其它棋手有時能下出更多8-9分的妙手,但也會下出2-3分的失招,這些棋一旦被李昌鎬捉住機會,基本無法翻盤。AlphaGo正是通過大數據的訓練和搜索,依概率檢測出這些6-7分的棋由於沒有圍棋邏輯的調控,它很少下出讓人讚歎的8-9分的棋,但也不會輕易下出2-3分的棋。這也是很多職業棋手評價AlphaGo的棋非常工整,極少犯錯的原因。 

 

了解了這個機制,在計算機計算能力尚有限的情況下,我們可以想一些辦法擊敗它。


 

 李世石的策略 

 

我不知道AlphaGo的實現細節與參數調控,但從邏輯上講,李世石可以從以下幾方面制定策略: 

 

  • 多下近期棋譜不曾出現的新手。雖然這5個月內,AlphaGo一定又學習了海量的棋譜,自然包括李世石的棋譜,但圍棋複雜到了「千古無同局」的水平,他們有質量的對局來源也有諸多限制,這些少見的新手會增加AlphaGo的判斷難度,影響其估值的準確。

 

  • 下出全局強關連的手段。根據已有棋譜,AlphaGo局部攻殺的算路十分驚人,極少犯錯。但限於圍棋的複雜度和計算能力,它恐怕還不易判斷出一手棋對距其較遠的局部的微妙影響。有人提出征子和引征,不過征子的局面過於常見,僅使用 Policy Network就足以下出正招。但如果在一角保留劫爭變化,伺機在對角區域下出局部損手但會多出一兩枚劫材,這樣的手段AlphaGo恐怕很難判斷,依概率很可能會下出局部好手但損失掉全局的劫材優勢。

     

  • 長龍的攻殺。對殺的棋越長,規模越大,AlphaGo估值的難度就越大,特別是幾塊棋絞殺在一起。而這正是李世石的強項。不過從其對陣樊麾二段的棋譜看,它似乎會有意避免出現這種過於複雜的攻殺。 

  • 其餘棄子,轉化,騰挪也可適時使用,但不要抱著一舉擊潰它的想法,因為雖然它可能不懂這些棋的內在邏輯,但它多半「見過」,見過就知道怎麼應付。公平地說,因為AlphaGo肯定會學習李世石的棋譜,李世石也可以去請教深度學習的專家,猜測AlphaGo的參數設定,賽前制定各種策略,讓局勢往自己有利的方向發展。 


 完美的一手 

 

是的,有一天,也許人工智慧的能力強大到終於找到完美的一手,不幸的是,這也是一盤棋的第一手。貼目固定後,雙方都沒有失誤的情況下,第一手就決定了棋局的輸贏(或者貼目大到一定數目,先手必輸)。圍棋的樂趣將從此徹底消失。 

 

我們不會再像秀哉名人那樣坐在棋盤前,完全沉浸在對完美棋譜的追尋中,身如蜩甲化枯枝,「周圍生出習習和風,令人身心愉悅」;我們也不會在等待家人歸來的夜晚,隨手翻開一冊吳清源全集,玩味一個定式的各種變化,隨看隨喜,閑敲棋子落燈花;我們從此再也無法想像,在曲徑通幽,碧竹掩映的瀟湘館,這邊廂紫鵑設幾扭爐,滌杯投葉,寶鼎茶閑煙尚綠,那邊廂黛玉陳枰布子,執譜凝思,幽窗棋罷指猶涼。 

 

完美的棋局就像完美的一生,所有的選擇都是通向終局的唯一路徑,沒有後悔,沒有失望,沒有悲傷,可同時也沒有了期待、夢想和快樂。作為計算機科學的研究者,我們欣喜的看到人工智慧的快速發展,讓生活變得更高效、更快捷,同時我們也應該學會識別生活里的美和趣,讓它們存活,讓我們知道另一種路徑和別樣的生活方式。也許,不完美的人生才是更值得過的,擦掉淚水,帶著笑容,不斷地探索未知的明天,追尋完美的自己,永無止境。 

 

3月9日,大戰拉開帷幕,AlphaGo將會窮盡其從人類學來的知識,只為贏棋,我們希望李世石帶著從秀哉名人到吳清源李昌鎬這些人類最優秀的棋手的夙願,給後世留下構思精巧、行雲流水的棋譜。 

 

我們終將會輸給你,但你可能永遠也不會理解圍棋的精神,以及她無以倫比的美麗。 

分享Office使用心得,講述與Office的故事

請通過郵箱onenotewechat@outlook.com和我們聯繫!

點擊最上方藍色「微軟雲筆記」字樣,或長按二維碼,

關注微軟雲筆記公眾號,

微信上的文字、圖片、視頻、鏈接、位置、甚至第三方應用的信息,OneNote公眾號幫您永久一鍵保存。 

 

推薦閱讀:

優美的句子(第二輯)
精美愛情經典語句,美美的情感話
漲姿勢:看上去很美的芭蕾,真正學起來完全不是那一回事(多圖) 
據說微胖是最完美的身材,微胖到底是多胖?
無比精美的貝殼!迥異於珍珠的七彩!

TAG:美的 |