人類智能堡壘圍棋突然被谷歌智能攻破了，靠的是策略判斷和暴力搜索兩手都硬|陳經

02-08

人類智能堡壘圍棋突然被谷歌智能攻破了，靠的是策略判斷和暴力搜索兩手都硬|陳經

請點擊「風雲之聲」，打開新的世界

中國科學技術大學科技與戰略風雲學會，受過科學訓練的理性愛國者們組建的智庫。科學素養，家國情懷，橫跨文理，縱覽風雲。

導讀：本文作於AlphaGo擊敗樊麾時。DeepMind使用深度學習，通過海量學習人類高手的棋譜，快速模擬出人的招法。用策略網路，只考慮少數幾個可能的選點。還建立了價值網路，思考到某個局面就有了結論，不象之前那樣下到終局，極大地減小了搜索的深度。另一個逆天的高招是，讓電腦自己和自己下，不斷提高！

————————————————————————————————

2016年1月28日一早，圍棋圈和人工智慧圈被一個消息給炸了：

谷歌人工智慧分先5:0擊敗歐洲職業圍棋冠軍樊麾，2016年3月將分先挑戰李世石，獎金100萬美元。（谷歌人工智慧5:0擊敗歐洲圍棋冠軍）

Nature網站出了新聞：

谷歌的人工智慧演算法精通了古老的遊戲圍棋（Google AI algorithmmasters ancient game of Go）（Google AI algorithm masters ancient game of Go : Nature News & Comment）

1月28日出版的Nature封面文章介紹了這個人工智慧領域的重大突破

文章第一作者David Silver

圍棋迷以前的感覺是，電腦圍棋確實進步挺大的，但要說能挑戰職業棋手，似乎還有很長時間，十年或者更長。

僅僅兩個月前，2015年11月，北京舉辦了一次「美林谷杯」電腦圍棋競賽，冠軍是韓國人工智慧程序「石子旋風」（DolBaram)，被讓四子、五子、六子與中國職業高手連笑七段（剛獲得名人和倡棋杯兩個頭銜）對弈。在第一局中，電腦顯得無比愚蠢，執著地與連笑打一個註定無法勝利的連環劫，消耗了大量劫材不斷虧損，對弈中連笑都笑開花了。直到讓六子，電腦才勝了一局。

連笑七段和DolBaram作者林宰范

早期的電腦圍棋代表程序是我國陳志行教授（量子化學家，跟風雲學會會長袁嵐峰是同行，2008年去世）開發的「手談」，上世紀90年代多次獲得電腦圍棋世界冠軍。那時的電腦圍棋棋力不到業餘一段，業餘棋迷們以讓多少子戰勝「手談」為談資，讓七八子都很正常。

1997年IBM的國際象棋程序「更深的藍」戰勝了人類最高水平的卡斯帕羅夫，當時興起了一股人工智慧熱潮。但是圍棋迷很淡定：電腦圍棋，還差太遠，離一般業餘棋手都有不小的差距。按某種估計，圍棋的複雜度是10的170次方，比國際象棋的10的47次方多100多個0，電腦還差得遠。這個時期的圍棋程序有的搜索，有的不搜索，但基本還是與國際象棋的人工智慧演算法相似，被圍棋的複雜度輕易擊敗，下起來一看就很愚蠢，根本不象人。

和國際象棋類似，中國象棋也被人工智慧程序攻破了。業餘象棋比賽多次傳出選手使用軟體作弊的醜聞，職業圈子中王天一、孫勇征等大師也為之爭吵。之後圍棋逐漸成為人工智慧領域的核心難題。Google、Facebook和微軟都開了圍棋研究小組。

圍棋人工智慧的上一次顯著突破，是2010年左右，開發者們引入了「蒙特卡洛」演算法。這種演算法的特點是模擬棋局一直到下完運算元判斷勝負，模擬多次後看哪個選點的「獲勝概率」最高。模擬時會利用「棋形」等經驗減少選點，一直模擬下去直至終局。時間不夠或者電腦計算能力不足，模擬的「局面數」就少，棋力就低。這是一個基於概率的暴力搜索演算法，確實取得了突破。代表程序有日本的Zen，法國的CrazyStone，以及前面提到的DolBaram（在北京擊敗了Zen與CrazyStone）。中國電腦圍棋開發者這時落後了，沒有開發出水平相當的程序。這些基於蒙特卡洛演算法的圍棋人工智慧，已經可以輕鬆戰勝一般業餘棋手了，但是對職業棋手還是差距很大。對局時，電腦招法一般看著還可以，但有時會出現一些莫明其妙的招數，如落後時就開始瞎下。這是因為電腦根據概率評估，瞎下人應錯了它有機會勝。

研究者以及棋迷們都認為，蒙特卡洛概率暴力搜索雖然取得了棋力的巨大突破，但不是圍棋人工智慧技術繼續發展的方向。即使再增加算力，增多模擬局面，棋力也不會有本質提升，戰勝職業棋手是不可能的。業餘棋迷們會驚嘆於人工智慧圍棋的發展，在KGS圍棋網上，排著隊和Zen等人工智慧程序對局很有樂趣。但職業棋手們仍然很淡定，認為圍棋人工智慧挑戰職業選手還是很遠的事。

就在前面連笑與DolBaram對弈之後，對於電腦圍棋較為了解的中國圍棋隊總教練俞斌九段評論說：

「國際象棋的電腦程序是圍繞著殺死王這一要點設計的，比較有效。而圍棋的棋子沒有大小之分，電腦無法判斷哪條大龍更大，從而無法準確做出取捨。圍棋到後盤收官變化無窮，越下到後面，盤面形勢就越複雜，這讓計算機程序難以做出正確選擇。現在設計圍棋電腦軟體的都是業餘棋手，而軟體的水平很難超過設計者，光靠電腦會記能算，想戰勝職業高手是不容易的。業餘棋手思考問題的方法與職業棋手不同，如果今年由圍棋和電腦軟體高手聯手編寫軟體，那麼，電腦圍棋的水平會有質的變化。」

國家隊總教練俞斌九段

這次Google的DeepMind小組開發的AlphaGo取得的突破，可以說打破了俞斌九段的預期。AlphaGo與中國職業二段樊麾分先下成了5：0，新浪圍棋有這五局的棋譜（新浪圍棋棋譜）。看這五局棋的感覺，AlphaGo下得非常象人，一點看不出是機器下的，和以前的各種程序有顯著區別。戰績上也是壓倒性的。第一局樊麾和電腦平穩收官，輸了3目半。後面四局進行戰鬥，多次被電腦殺死大龍，全部慘敗。

樊麾雖然只是歐洲冠軍，但畢竟有中國職業段位，就算多年在低水平環境中棋力下降，業餘頂尖水平總是有的。AlphaGo也和之前最高水平的程序Zen、CrazyStone下過，分先495盤只輸了1盤。它甚至能讓4子對陣Crazy Stone和Zen，勝率分別是77%和86%。這個水平突破絕對是革命性的。

從人工智慧技術發展上看，DeepMind使用了「深度學習」技術，而非象俞斌估計的和職業高手合作。電腦通過海量學習人類高手的棋譜，用深度神經網路快速模擬出人的招法，下出來的棋就很象人了。樊麾二段說：「如果沒人告訴我，我會想對手下得有一點怪，但肯定是個很強的棋手，一個真正的人。」

樊麾二段

Facebook的圍棋人工智慧程序Darkforest就是用這種辦法，不靠搜索，只用深度學習這一招就很快達到了之前研究者多年無法實現的棋力，扎克伯格1月27號正好發文介紹了這個進展。由於棋力還略低於Zen、Crazystone，所以不算是巨大的突破。

而DeepMind小組在搜索技術上取得了更大突破。跟Darkforest相似，AlphaGo用一個深度神經網路（policy network，「策略網路」）減少搜索的選點，象人類高手一樣，只考慮少數幾個可能的選點。此外，他們還建立了另一個深度神經網路（value network，「價值網路」），象人類高手一樣，思考到某個局面就有了結論，不必象之前的蒙特卡洛模擬那樣下到終局，極大地減小了搜索的深度。

DeepMind引入的另一個逆天的高招是，讓圍棋人工智慧自己和自己下，總結經驗，自我不斷提高！這個技術2015年2月就在Nature上發表了，標題是《玩遊戲的軟體從神經科學中吸取經驗》（Game-playing softwareholds lessons for neuroscience）（Game-playing software holds lessons for neuroscience : Nature News & Comment）。

這個人工智慧自學習的要點是，不需要告訴電腦人類的經驗，就讓它自己玩這些電腦遊戲，只是給出玩的分數。電腦看著分數不斷糾正自己的策略，最後就發展出比人類還強的電游技術。這次的AlphaGo也用了這個技術，這又是比其它電腦圍棋程序強的地方。從Nature的文章看，DeepMind的絕招是，用50台電腦讓AlphaGo不斷和自己對弈，下了3000萬盤棋！然後每盤棋選取一個局面（不多選，以避免同一盤棋中不同局面之間的相關性），根據這盤棋的最終結果判斷局勢優劣。這樣獲得了3000萬個訓練數據，用於訓練生成「價值網路」。暴力生成這麼多數據需要海量的計算資源和投入，確實只有谷歌這樣的大公司敢想敢做。可以看出他們的戰略是智能和蠻力兩手抓，兩手都要硬，哪個合適就用哪個，並且互相幫助。

通過這樣三招，DeepMind小組確實在圍棋人工智慧上取得了巨大突破。而且研究方法的潛力很大，從這個方向上走，最終象「更深的藍」一樣戰勝人類最高手是完全可以想像的。一個月前，DeepMind小組就報告說圍棋人工智慧取得了巨大突破，會戰勝人類，但當時棋迷與職業棋手並未留意。現在有了棋譜，又有了技術細節，就顯得可信多了。

職業棋手李喆六段在微博上說：

「Google的圍棋AI已具有職業水準。從棋譜初步判斷是頂尖棋手讓先-讓先倒貼的水平，離戰勝人類還有一小段距離。但這是三個月前的棋譜...以Google機器學習堆數據的速度，今年三月對決李世石相當值得期待。」

如果象報道的那樣，2016年三月AlphaGo真的挑戰韓國棋手李世石（過去十年獲得世界冠軍最多的棋手），這說明Google對AlphaGo非常有信心，認為三個月的時間就能進步到戰勝頂尖高手了。DeepMind小組認為，電腦圍棋的優勢在於一天可以下100萬盤棋，而且一直保持水平穩定，而人類能下的棋和能打的棋譜很有限，時間長了還會疲勞出錯。

圍棋世界冠軍李世石九段

我認為這次電腦是真的有可能在圍棋上戰勝人類。樊麾在非正式對局中兩次中盤勝AlphaGo，可見AlphaGo也是會認輸的，不是永遠纏鬥到終局，而且樊麾是有擊敗AlphaGo的棋力的，在正式比賽中可能是太緊張技術變形了。如果李世石象樊麾二段一樣心態失衡露出大破綻，肯定會被電腦抓住輸掉。即使小心應付，電腦也會有勝機。即使只贏李世石一盤，也是了不起的成就。最終，電腦以穩定的概率戰勝職業棋手將在一二年內實現。

這無疑是人工智慧領域的巨大突破，預示著機器將在棋類這項「智力運動」上徹底戰勝人類。圍棋這個人類自以為還能堅固防守五十年以上的堡壘，在引發了人工智慧研究領域的巨大興趣後，被機器出人意料地迅速突破了。

當然正如深度學習技術的發明人、DeepMind小組的Hassabis所言，人工智慧真正的挑戰是「泛化」的能力。人工智慧在圍棋上達到的超高能力，並不能轉移到其它任務上去。

Demis Hassabis，深度學習技術發明人，Google DeepMind 的CEO，AlphaGo的20位作者之一

但是從目前達到的成就來看，人工智慧帶來的社會革命也許真的快來了。對於人工智慧「奇點革命」有興趣的可以參考《人工智慧革命：通向超級智能之路人類永生或滅絕》（人工智慧革命：人類將永生或者滅絕--百度百家）。

對於我個人，會象許多業餘棋迷一樣，非常希望Google能把AlphaGo商業化推向市場。這會是圍棋學習的一個革命：隨時隨地有最高等級的選手教你下棋。所以，暫時歡呼吧！

致謝：感謝中國科學技術大學科技與戰略風雲學會會長袁嵐峰博士（@中科大胡不歸）的寶貴意見。

作者簡介：筆名陳經，香港科技大學計算機科學碩士，中國科學技術大學科技與戰略風雲學會會員, 微博@風雲學會陳經。二十一世紀初開始有獨特原創性的經濟研究，啟發了大批讀者。2003年的《經濟版圖中的發展中國家》預言中國將不斷產業升級，挑戰發達國家。

【新書推薦】2016年8月，中國發展出版社出版《陳經說：中國的官辦經濟》。該書從「官辦經濟」出發，闡述中國如何在計劃經濟向市場經濟轉化的過程中，摸索出一條不同於二者的全新道路。該書被廣大讀者稱之為工業黨思想理論領域的旗幟之作，觀察者網專欄作者文揚點評指出，《陳經說》的出版讓有些「主流經濟學家」的有色眼鏡跌碎一地。京東、噹噹、亞馬遜等店有售，也可進入觀察者網微店購買。

【本文2016年1月28日發表於觀察者網（陳經：人類智能堡壘圍棋突然被谷歌智能攻破了，靠的是策略判斷和暴力搜索兩手都硬）。】

請關注風雲學會的微信公眾平台「風雲之聲」，微信號fyvoice

知乎專欄：風雲之聲 - 知乎專欄

一點資訊：【一點資訊】風雲之聲 www.yidianzixun.com

今日頭條：風雲之聲 – 頭條號(TouTiao.org)