阿爾法狗的＇大局觀＇與＇創造力＇

06-17

『生活需要讀書和新知』

今年三月九日至十五日，圍棋人機大戰吸引了全世界的目光。結果出乎多數人預料，「阿爾法圍棋」以四比一的比分戰勝了李世石。震驚、興奮、不解、懷疑……「阿爾法圍棋」是怎麼贏的？

當我們的許多能力和勞動被人工智慧取代，作為人的我們，其本質究竟是什麼？應該追求的又是什麼？隨著人工智慧的不斷發展，這些反思性問題的重要性將會呈現給大眾。

「阿爾法圍棋」的出現，也對圍棋指向了這樣的反思性問題。

「數」拓新土道不遠人

圍棋人機大戰的意義

文 | 李喆

*原載《讀書》2016年5期

轉載自公眾號讀書雜誌(ID:dushu_magazine)

震驚世界的人機大戰

一九九六年二月，計算機國際象棋軟體「深藍」挑戰棋王卡斯帕羅夫，以二比四落敗。

一九九七年五月，「深藍」捲土重來，以三點五比二點五戰勝卡斯帕羅夫。此後，國際象棋軟體不斷變強，成為人類棋手學習的工具。

1997年5月，「深藍」戰勝了卡斯帕羅夫

中國象棋、國際跳棋、五子棋、日本將棋……計算機在這些棋類項目迅速突破，很長一段時間裡，圍棋成了最後的堡壘。

二〇一五年十一月，北京舉行了一次世界計算機圍棋錦標賽，奪冠的韓國軟體挑戰中國職業棋手連笑，在受讓四子、五子的條件下仍然落敗，只在受讓六子的條件下取得了勝利。這樣巨大的差距使人們認為，計算機在圍棋競技上擊敗人類棋手，仍然相當遙遠。

「阿爾法圍棋」（AlphaGo）的出現顛覆了這一判斷。二〇一六年一月，谷歌旗下「深度思維」（DeepMind）團隊在英國《自然》雜誌上發表文章，公布了「阿爾法圍棋」在去年十月以五比零擊敗歐洲圍棋冠軍樊麾的棋譜，並確認將挑戰韓國職業棋手李世石九段。消息一出，舉世關注。李世石九段是近十幾年世界圍棋競技賽場成績最優者，獲得過十四次世界冠軍。人機對弈之前，棋界大多數人認為李世石必勝無疑，科技界則大約一半人認為李世石會贏。

今年三月九日至十五日，圍棋人機大戰吸引了全世界的目光。結果出乎多數人預料，「阿爾法圍棋」以四比一的比分戰勝了李世石。

震驚、興奮、不解、懷疑……「阿爾法圍棋」是怎麼贏的？

「阿爾法圍棋」的「直覺」與「大局觀」

圍棋是一個封閉的複雜空間，其複雜程度是棋類之最，人和計算機都難以通過暴力計算達到窮盡。「阿爾法圍棋」取得突破的核心在於深度學習方法，這一方法也是目前人工智慧領域最熱門的方向。它構建了兩套神經網路，對人類大量的棋譜進行學習，在此基礎上進行「左右互博」，即自對弈學習。深度學習的一大特點是，它不依賴於任何對象的具體知識，只需通過大量圖像和結果的比對就能完成學習。深度學習的方法在二〇〇六年就已經出現，但在近年大數據的背景下才展現出驚人的威力。

「阿爾法圍棋」通過深度學習，在形式上達到了擬人的效果。最顯著的特點是類似人的「直覺」。棋手面對一個局面，通常會有所謂的「第一感」，這是棋手的直覺。直覺起到了非常關鍵的剪枝作用，把棋盤上眾多的點都直接排除在外，只用考慮直覺留下的一些選點，對它們進行深入的計算和比較。「阿爾法圍棋」通過深度學習的訓練獲得了類似的「直覺」，大幅縮小選點範圍，同樣起到了剪枝的作用。

對一步棋做出決策，人和「阿爾法圍棋」同樣是使用了剪枝計算這樣的形式。但是，在具體剪枝和計算的方法上，人與「阿爾法圍棋」又非常不同。具體到每一手棋，人的直覺來自對類似局面的印象和知識。現代競技圍棋所強調的「熟練度」，在很大程度上因為熟練程度與印象的準確性有很強的關聯。知識則主要是如「定式」「棋形」「套路」等等人類經驗的抽象。「阿爾法圍棋」的「直覺」是由神經網路給出的選點，其本質是大數據和圖像。

剪枝之後，還需要對這些選點進行計算和決策。棋手的決策由多環節構成，主要部分是概念的抽象和邏輯演繹，有時在局部近似地使用窮舉，有時輔以綜合了經驗和數學的全局判斷，最終做出選點決策。「阿爾法圍棋」的搜索計算使用了蒙特卡洛方法，對全局進行隨機模擬，最後與神經網路結合，給出選點的勝率預估。

「阿爾法圍棋」基於全局勝率的演算法導致了一個結果，即它的「大局觀」強於「局部計算」，這是很多人沒有想到的。計算機確實應該強於計算，但對於「阿爾法圍棋」來說本來就沒有「局部」的概念。這是它的弱點，也是長處。蒙特卡洛的隨機性使得「阿爾法圍棋」不追求最優，最優的判定依賴於邏輯，「阿爾法圍棋」的決策則依賴概率，概率的準確性不如邏輯。因此我們常常會看到「阿爾法圍棋」下出一些急於「定型」甚至稍虧的棋，這是由於它認為對方雖然大概率會正確應對，但每步棋都有犯錯的概率。「定型」的下法用稍虧換取這個概率，對於它的勝率而言是有利的。當然，從邏輯的角度，這類定型對方犯錯的概率可以忽略不計，因此棋手通常會選擇「保留變化」。

棋手常常無法對全局有十分清晰的把握，因此希望在局部通過計算和邏輯找到最優下法，對全局的判斷也常常是根據局部優劣的疊加。「阿爾法圍棋」「不拘小節」，卻總是對全局有更為清晰的認識。這讓我們反思，對局部最優的追求是否遮蔽了我們對全局的把握？

大局觀，整體性，「阿爾法圍棋」給人類上了一課——雖然它「自己」並不知道。

「阿爾法圍棋」的「創造力」分析

春信香深雪，冰肌瘦骨絕。

梅花不可知，何處東風約。

這是一首詠梅絕句，作者名叫「薇薇」。

薇薇是個人工智慧。

三月十日下午，「阿爾法圍棋」對陣李世石第二局，落下第三十七手。這是圍棋中少見的驚艷一手，吳清源大師的風采躍然盤上。

「阿爾法圍棋」是個人工智慧。

讀者若以為薇薇是一女子，或許會由此詩而產生與作者的情感共通。那麼，詩中傳遞的情感與美，究竟是作者所賦予，還是讀者所賦予？「阿爾法圍棋」的「創造性」著法，究竟意味著什麼？

機器本身沒有情感，但當我們把機器的作品誤認為人的作品時，便很可能從作品裡體會到作者的「情感」。這是藝術學裡一個值得探討的重要問題。克萊夫·貝爾將藝術的本質屬性定義為「有意味的形式」，那麼，機器是否也能「創造」出這種「有意味的形式」？

在這次人機對弈之前，我們認為圍棋軟體沒有創造力，它只是會單純地模仿人類棋譜而已。但在這五局棋中，我們看到「阿爾法圍棋」下出了很多超出定式範圍的、棋譜中沒有的精彩招法。其「創新頻率」遠高於任何一名職業棋手。

這是一件值得深思的事情：「阿爾法圍棋」到底有沒有創造力？

如果「阿爾法圍棋」這五盤棋是一個人類棋手下出來的，我們不僅會讚歎他的實力，還會評價他「極富創造力」。圍棋盤上的「創造力」，正是體現在超出尋常經驗的有效選點和構思。這樣的創新，是許多追求棋道的棋士窮其一生去追尋的東西，它標誌著對固有思維的突破、對平庸的超越，以及對真理的趨近。

「阿爾法圍棋」本質上是一個工具。籠統來看，「阿爾法圍棋」與人對弈，是它接收一個數據，然後輸出一個數據的過程。深度學習和蒙特卡洛演算法，使接收和輸出的數據變得更強，更接近正確的圍棋下法，但並未改變它的本質。在哲學的意義上，「阿爾法圍棋」不是一個主體。它沒有自我意識，沒有自由意志，沒有創造和爭奪的慾望。它下出的在我們看來很有「創造力」的著法，只是它一局棋中輸出的一百多次數據中平凡的幾次而已。它並不知道自己在下棋——甚至它也沒有「自己」的概念。

雖然「阿爾法圍棋」所有的「創造性」招法都只是工具對於數據信息處理之後的反饋，但對於我們人類，這些招法卻有巨大的價值。價值的根源在於，「阿爾法圍棋」用數據的方式給出的選點，人類可以用道理的方式來接收。這導向了兩方面的價值：其一是圍棋技術的提升。這些新招拓寬了棋手的視野，使人類棋手在圍棋的天地中有了一個很好的參照物，從而能夠離圍棋真理更近一點點；其二是思維方式的提升，隨著對這些新招的逐漸理解、對圍棋真理的不斷趨近，我們的思維也能夠得到提升。

一首詩，在它呈現給讀者的時候，便不再只屬於作者了。

工具的進化與反思

電影《2001太空漫遊》的開頭，一個猿人從動物屍骨中拿起了一根骨頭。繼而，他所在的族群開始使用骨頭捕獵，並擊退了前來競爭水源的同類。導演庫布里克用這樣一個事件來描繪「工具」的出現。如果真的存在這個事件，那麼它很可能會是人類歷史上最重要的時刻之一。一九六八年上映的這部電影里，骨頭的意象穿越時空，變成了太空飛船。飛船執行任務的過程中，操作飛船的計算機接收到兩個矛盾的命令，導致它選擇殺死飛船上的所有人，由「自己」去執行任務，這一事件則引發了一系列人類不能理解的類似進化的變化。一個充滿寓意的黑色方碑貫穿了整個影片。

人工智慧，在迄今為止的工具進化史中，它的出現很晚。越晚出現的工具，力量通常會越強，人們對它的迷戀和恐懼也會越大。二〇一六年，人工智慧的進度雖然還沒有如科幻小說和電影中設想的那樣對人類造成威脅，但在圍棋上完成了壯舉。

從衣食住行到人際交往，現代人的生活中充滿了各種工具。人工智慧，或許是人類創造的工具中最獨特的一種。它近似地擁有了人類的一些能力，甚至在很多方面可以比人類做得更好。隨著深度學習引發的這一波熱潮，人工智慧在醫療等領域中的廣泛應用可以預見。如之前的很多工具發明一樣，這些人工智慧的應用會改善我們的生活品質，將人們從一些繁瑣的勞動中解放出來。與傳統工具不同的是，人工智慧有很大的發展空間，這也使一些人產生了擔憂。

科幻小說和電影中，常常描繪人工智慧反制人類的情境。一旦計算機有了情感好惡，能夠自主選擇行為，那麼它不斷強大的力量既可以保護人類，也可以毀滅人類。當然，這種情境的發生需要一個預設條件：計算機能夠產生自我意識和自由意志。在實現這個條件之前，人工智慧不是主體，只是工具。

自我意識與自由意志，關於它們的來源，人類自身也知之甚少。有一種還原論的傾向，認為自我意識與自由意志都可以分解為低級的元素，最終被數學和物理解決，但顯然目前這只是一個猜想或主張。而哲學上對它們的討論也是眾說紛紜，其中一個有代表性的觀點來自康德，他把自由意志看作一個對人而言必要的懸設。

我們不知道如何能夠賦予他物以自我意識和自由意志。斯皮爾伯格的電影《人工智慧》里，科學家給一個機器人輸入了情感，使他走向了尋找自我和人性的道路。這個輸入究竟是否可能實現？以我們目前的知識體系來看，是相當可疑的——單是數據的疊加和演算法的改進，不足以使工具成為主體。

但是，對人工智慧的擔憂仍然並非完全沒有道理。「機器人不得傷害人類，或坐視人類受到傷害」，這是阿西莫夫著名的機器人第一定律。這一定律的可靠性受到他自己小說的攻擊，其中典型的案例是：「機器人認為將人類軟禁起來才能夠防止他們互相傷害。」人工智慧對命令的多元理解可能會導致失控，這是比人工智慧產生意識更值得擔憂的事情。

斯皮爾伯格執導電影《人工智慧》

另一個更大的危險則在於，人類對人工智慧的惡性使用。作為工具的計算機本身並無善惡，但人心卻有善惡。人工智慧的發展將為人類社會帶來很多效益，但也增加了人類自我毀滅的能力和概率。此外，隨著計算機能力的增強和廣泛應用，與人工智慧相關的倫理建設將會成為非常重要並且相當困難的課題。但是，現階段的人工智慧，仍然只是工具。「阿爾法圍棋」的出現並未對這一結論產生任何影響，也沒有增加計算機產生自我意識的可能性。

與其他工具不同，人工智慧在工具效用之外，還有幫助人類進行反思的作用。當我們的許多能力和勞動被人工智慧取代，作為人的我們，其本質究竟是什麼？應該追求的又是什麼？隨著人工智慧的不斷發展，這些反思性問題的重要性將會呈現給大眾，而在人工智慧與人類的比較之中，這些反思的推進會變得更為容易。

「阿爾法圍棋」的出現，也對圍棋指向了這樣的反思性問題。

道理的普遍性——圍棋文化的根基

圍棋的競技性有其明顯的限制。相比於其他體育項目，它的觀賞門檻太高。這使得它的競技價值極大地依賴於競技者身份。從早期的門派對抗、地域對抗，到現代的國別對抗，再到今天的人機對抗，每一次圍棋競技的熱點都依賴於對局者的身份，這是它發展的瓶頸。人機對抗的熱點過後，圍棋需要找到競技之外更堅實的價值落腳點——圍棋文化。

圍棋之所以能夠流傳如此之久，正是因為它在不同的時代背景之下能夠衍生出不同的價值。每一次時代精神的革新變化都不會將它淘汰，反而會催發它新的意涵。人們用某一種知識體系去認識它、使用它，它就會展現出與之相適應的價值。子曰「君子不器」，莊子談「無用之用」，這些品質都在圍棋中得到呈現。圍棋文化的深刻意涵也隱藏在這種獨特的品質之中。「阿爾法圍棋」作為工具的一個重要意義，是幫助我們反思圍棋。這種反思在某種程度上幫我們打通了圍棋本質與文化之間的通路。

圍棋的核心規則極為簡易：「交替落子，氣盡棋亡，禁止循環，子多為勝。」簡易的規則，卻衍生出近乎無窮的變化。二〇一六年一月，普林斯頓的研究人員算出十九路圍棋的精確合法位置數在10171這一數量級。這個數只是靜態盤面的總和，尚未包含不同的動態次序。對於人類而言，這一數量級近乎無窮。即使是計算機，也離窮舉有非常遙遠的距離。但是，圍棋畢竟是一個封閉的空間，它的變化數在本質上仍然是有限的。

圍棋的變化數與棋盤的大小直接相關。在很小的棋盤上，如三路圍棋，人類甚至可以窮盡其變。再大一些，人類雖不能窮盡其變，但可以算出其最優解。我在去年做過一個七路圍棋的最優解研究，憑人力計算其中的有效變化，得出了其最優解的理論值，即雙方最優下法的盤面差距（亦即正確貼子數）。最優解下法是一個集合，包含了很多不同的變化，這些變化都導向了最終雙方完全平等的和棋，這樣的殊途同歸是圍棋中絕妙的平衡。

極為重要的發現是：在我們計算七路棋盤的最優解時，我們完全不需要用到任何抽象的概念和道理，只需要將每一個選點對應的最優解數據進行比較，便能得出最優解的結論。但是，在面對十九路圍棋時，人的有限性呈現了出來。我們計算的極限離最優解還有非常遙遠的距離，因此無法將盤面做數據化的處理。

面對這樣的情境，人類思維的特長展現了出來：我們使用了很多抽象的方法來分析盤面，再用道理的方式幫助決策。我們將子和子的關係抽象為術語，如「跳」「飛」「長」等；又抽象出一些具體的知識，如「定式」「棋形」「諺語」等；再往上，我們還抽象出如「厚薄」「虛實」「輕重」「緩急」等等二元概念，這些概念帶有強烈的中國文化印記，起到了幫助我們定義局面的作用。在定義局面的基礎上，我們使用道理的方式來幫助決策，這就是所謂「策略」。圍棋十訣就是對道理的一些經典闡述：不得貪勝，入界宜緩，攻彼顧我，棄子爭先，舍小就大，逢危須棄，慎勿輕速，動須相應，彼強自保，勢孤取和。這些道理的方式不僅可以用在圍棋上，還可以舉一反三，用在世間萬物。面對世界上所有人類無法完全用計算方式達到的事物，人們便用道理的方式去理解。圍棋提供了對思維的訓練場所，這個場所的獨特優勢在於通過勝負和復盤我們可以很輕易地分析自己思維的正誤，從而使我們的思維能力得到提升。

在心性的層面，圍棋同樣能起到鍛煉的效果。圍棋十訣的每一條，實際上都是對慾望、情緒的剋制，對理性的發揚。在對局的過程中，一旦理性未能居於主導地位，就很容易受到對手的懲罰。通過圍棋的練習，我們能夠更好地安排理性、激情和慾望的位置關係。

七路棋盤人類可以計算出最優解，卻只能得出這個數而沒有什麼更多的意義。但在十九路棋盤，人類的有限性使我們永不能用計算達到最優解，便使用了道理的方式來理解和思考圍棋——恰是這些道理的方式賦予圍棋以價值。應用在如一盤棋這樣具體的可計算事物上，道理的效用不如計算機的計算很正常。道理的普遍性才是人類思維的獨特優勢，正是看到了道理的普遍性，才使我們能夠踏實地說一句：棋如人生。

即使未來有一天計算機窮盡了圍棋變化，得出了最優解集合，圍棋的競技性蕩然無存，圍棋的這個根本價值依然存在。那時人類仍然要用道理的方式來接收這些最優解，而最優解能使道理的根基更強，從而使道理更強。

「阿爾法圍棋」用「數」的方式達到了很強的能力，而人類則用「道」的方式來接收和理解它的下法。在這個過程中，我們不僅能夠得到圍棋技術的提升，從而不斷趨近圍棋真理，更重要的是，通過道理的接收、理解和分析，我們能夠獲得思維的提升，這種提升是因抽象而具有普遍性的。

當我們用智慧的方式來對待圍棋，圍棋便成為智慧的源泉。

●●●

2016年5期目錄

江曉原穆蘊秋「影響因子」是用來賺大錢的

李大興撫琴弦斷上高樓

黃紀蘇等廟堂高聳，人間戲場

李喆「數」拓新土道不遠人

短長書

人的大腦何以研究人的大腦？王一方

一個人，一輩子，一件事陳飛

反學校文化與工人的子承父業彭斌

傅謹紅伶殘稿，可留真香

顧昕印度版的市場與政府之爭

張治「法漫」中的古物寫生

李建軍丹齊格對抗塞利納：文學閱讀與國家欺詐

許志強談論卡佛時我們在談論誰

余婉卉《吳宓日記》中的老溫德著譯者言

品書錄

記憶、愛與死亡（劉倩）

怡情悅性天天讀（王正宇）

粉紅系，治癒系（黃葒）

潘家恩雙面的浪漫與多維的鄉愁

趙稀方從未到來，卻已過去

蔣暉「逆寫帝國」還是「帝國逆寫」

勵軒民國的漢藏佛教與現代國家

趙志勇百年風雨《春之祭》思想場記.

鍾喬《我的詩篇》：紀錄電影與詩歌的對話

丁寧關聯性：藝術史思考的一大紐結點

劉潞「清明畫諫」千古謎

讀書短札

臨與摹北窗讀記(劉濤）

最好一篇都不少(李政富）

劉以林漫畫

王蒙康笑宇文墨家常

----

生活需要讀書和新知

----

ID:sanlianshutong

▲長按二維碼即可訂閱

----