柯潔1/4子惜敗，機器之心獨家全程對話AlphaGo開發者導師 Martin Müller

02-08

第一戰，AlphaGo 贏了！幾乎不出人意料。

5 月 23 日，中國圍棋協會和浙江省體育局攜手谷歌聯合主辦的「中國烏鎮·圍棋峰會」正式開幕，直到 5 月 27 日，柯潔與 AlphaGo 的三番棋人機大戰以及人機團隊賽、配對賽將陸續展開。

大賽啟動儀式

關於這次圍棋人機對話，有幾大懸念引人注目。現役最強棋手柯潔是否有機會獲勝還是將完全敗北——這無疑是本輪對戰的最大看點。此外，再次出戰的 AlphaGo 是否已經是使用全新方式訓練的新版本也是一大焦點。時隔 4 個多月，AlphaGo 的能力是否又有提升？它能否將人類對於圍棋的理解帶上一個更新的高度？這些問題即將在短短五天的對決中揭曉。

除了現場報道之外，機器之心邀請阿爾伯塔大學教授、計算機圍棋頂級專家 Martin Müller 以及《深度強化學習綜述》論文作者李玉喜博士，共同觀看了比賽直播。Müller 教授所帶領的團隊在博弈樹搜索和規劃的蒙特卡洛方法、大規模並行搜索和組合博弈論方面頗有建樹。實際上，參與了大師級圍棋程序 AlphaGo 的設計研發的 David Silver 和黃士傑（Aja Huang）（他們分別是 DeepMind 的 AlphaGo 相關 Nature 論文的第一作者和第二作者）都曾師從於他。李玉喜博士是加拿大阿爾伯塔大學計算機系博士、博士後。致力於深度學習、強化學習、機器學習、人工智慧等前沿技術及其應用。曾任電子科技大學副教授；在美國波士頓任資深數據科學家等。2017 年 1 月在 arXiv 上發表《Deep Reinforcement Learning: An Overview（深度強化學習綜述）》論文。

Martin Müller 教授和機器之心一起觀看直播

AlphaGo 第一局意料之中的勝利

下午 14:47，在經過了 4 小時 17 分鐘的激烈比賽之後，AlphaGo 以四分之一子的優勢獲勝，這並不讓人感到意外。

比賽前一天，柯潔在微博上表達了自己對即將到來的比賽的看法和期待，字裡行間並沒有透露出擊敗 AlphaGo 的信心，他在微博上寫道：「無論輸贏，這都將是我與人工智慧最後的三盤對局……現在的 AI 進步之快遠超我們的想像。像國產的絕藝、日產的 ZEN 雖然和 Alphago 還有著較大差距，但已經表現出超強的實力了... 我相信未來是屬於人工智慧的。」

這場比賽不僅是 DeepMind 的盛事，也得到了 Alphabet 高層的重點關注。DeepMind CEO Demis Hassabis 和 Alphabet 總裁 Eric Schmidt 都來到了現場。

「祝柯潔好運！」賽前，Hassabis 表示了對圍棋界深深的謝意，他說，中國是人類圍棋的誕生之地。此次比賽的宗旨在於探索新打法。圍棋世界就好像宇宙一般，再過一萬年也不可能窮盡所有的打法。或許人工智慧可能提供新的啟迪。去年和李世乭的比賽結束後回到倫敦，DeepMind 對 AlphaGo 進行了全新的架構更新，推出了升級版本 Master，希望 AlphaGo 能走自己創新打法的路。

Hassabis 強調：「這不是人機大賽，而是人類使用機器探索新的方法，AlphaGo 就像哈勃望遠鏡，能幫助我們看到更遠的未知。不管結果如何，最終勝利屬於人類。」

現年 19 歲的柯潔是中國圍棋九段選手，祖籍浙江麗水。他從 5 歲就師從周宗強五段正式開始學棋，2008 年 10 歲升初段開啟職業生涯。他曾獲得第 2 屆百靈杯世界圍棋公開賽冠軍、第 20 和 21 屆三星杯世界圍棋公開賽冠軍、第 2 屆夢百合杯世界圍棋公開賽冠軍，在世界大賽中曾創造過 14 連勝的戰績。在本次圍棋人機大戰開打前夕，圍棋排名網站 Goratings 更新了截至 5 月 21 日的世界圍棋等級分排名。將在 23 日-27 日和 AlphaGo 展開對決的柯潔九段繼續毫無懸念繼續領跑，他與第二名朴廷桓的分差已有 30 分之多。

這場圍棋人機大戰是從上午 10:30 開始的；中國棋院院長華以剛、世界圍棋女子冠軍徐瑩組合與常昊張璇夫婦輪番進行了講解。

柯潔執黑子，第一手棋，下在右上角，以示對對手的尊敬。黃博士代替 AlphaGo 執白子。與 AlphaGo 交手後，柯潔研究了一年多 AlphaGo 喜歡的三三式，吸取了教訓，對 AlphaGo 的落子有所防範，並率先在右下角點三三，使出了 AlphaGo 的下法。「柯潔的這一步是 AlphaGo 的風格」Müller 說道。「在去年 AlphaGo 比賽之後，很多頂尖棋手都已分析了 AlphaGo 的棋風，並將其應用於實戰，柯潔最近已在正式比賽中使用了這種下法並獲勝。」柯潔棋風依舊強硬，AlphaGo 還是不走尋常路。

比賽過程中柯潔完全沉浸在自己的思考中，幾乎未抬頭看對面的黃博士一眼。

比賽 4 個小時之後，這場人機對弈大戰結束，AlphaGo 以四分之一的子獲勝。最終柯潔用時 2 小時 47 分，AlphaGo 用時 1 小時 30 分。自此，當前世界排名第一的棋手和人工智慧 AlphaGo 的第一局比賽落下了帷幕，結果基本上沒有超出任何人（包括柯潔自己）的預料。

結局盤面

柯潔與 AlphaGo 的第二局比賽將在 5 月 25 日上午 10:30 開賽，柯潔能否在下一場比賽上取得出人意料的成績，讓我們拭目以待。

AlphaGo 升級版

過去一年多，只要你稍微關注過科技新聞，就一定看到過 AlphaGo 的名字（有時也被人稱為「阿爾法狗」）。去年 3 月份，AlphaGo 成為了世界上第一個擊敗世界頂級職業選手的圍棋程序。在擊敗了李世乭後，AlphaGo 或許已經成為了世界上最著名的人工智慧程序。

但大勝李世乭的 AlphaGo 版本終究還是輸了一場，所以還並不完美。據了解，當時 AlphaGo 開始主要是依靠大量學習人類棋手的棋譜來提高棋藝。隨後 AlphaGo 進入到完全的自我深度學習階段，也就是完全摒棄人類棋手的思維方式，按照自己（左右互搏）的方式研究圍棋。對於 AlphaGo 是否使用人類棋譜的問題，李玉喜博士評論說：「計算機圍棋是一個優化問題，對於 AlphaGo，就是在優化它所採用的深度神經網路的參數。從優化的角度說，可以從任何初始值開始，利用隨機梯度下降等演算法進行優化。利用人類棋譜，可以幫助設置一組不錯的初始值，很可能可以提高尋找最優參數的效率；而如果不用人類棋譜，理論上可以，但一開始對參數的搜索可能有些盲目，個人認為不應該採用這個方案。」

2016 年 1 月 28 日，Nature 雜誌以封面論文的形式介紹了 DeepMind 團隊開發的人工智慧程序 AlphaGo，這也就是後來擊敗韓國棋手李世乭的 AlphaGo 版本。

AlphaGo 結合了監督學習與強化學習的優勢。通過訓練形成一個策略網路，將棋盤上的局勢作為輸入信息，並對有所可行的落子位置形成一個概率分布。然後，訓練一個價值網路對自我對弈進行預測，以-1（對手的絕對勝利）到 1（AlphaGo 的絕對勝利）的標準，預測所有可行落子位置的結果。AlphaGo 將這兩種網路整合進基於概率的蒙特卡羅樹搜索（MCTS）中，實現了它真正的優勢。

在獲取棋局信息後，AlphaGo 會根據策略網路（policy network）探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。在分配的搜索時間結束時，模擬過程中被系統最繁瑣考察的位置將成為 AlphaGo 的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後，AlphaGo 的探索演算法就能在其計算能力之上加入近似人類的直覺判斷。

但是新版的 AlphaGo 產生大量自我對弈棋局，為下一代版本提供了訓練數據，此過程循環往複。

AlphaGo 的棋風一直為人驚嘆，與其交戰過的大多數棋手都感嘆它的不可琢磨，可謂是違和感十足，卻極具殺傷力。金成龍曾表示：「AlphaGo 機器人下棋的方法是人類想不出來的。它有幾次小的失誤，之前我認為這種失誤對李世石是有利的，現在看起來 AlphaGo 是以小失誤換取更大的勝利。」

AlphaGo 的強大之處不在於一招一式，而在於對每一局比賽展現出的全新視角。雖然圍棋風格略顯抽象，但 AlphaGo 的策略展示了靈活與開放的精神：沒有先入為主的訓練讓它找到了最有效的下棋方式。實用哲學讓 AlphaGo 經常走出違反直覺——但卻最為合理的走子。

儘管圍棋是一個有關圈地的遊戲，但勝負手卻在於對不同戰區之間的取捨平衡，而 AlphaGo 擅長創造這種平衡。具體來說，AlphaGo 擅長運用「影響力」——已有棋子對自己周圍的影響為自己謀取優勢。雖然 AlphaGo 的價值網路不能準確地計算出影響的數值，但它的價值網路能夠一次性考慮棋盤上的所有棋子，以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在局部的優勢轉化為整個比賽的勝勢。

作為 David Silver 與黃士傑在阿爾伯塔大學的導師，Martin Müller 對他的學生們感到驕傲：「我對他們感到非常驕傲，他們都曾是我的博士/博士後學生，在阿爾伯塔也得到了強化學習的先驅 Richard Sutton 的教導。在阿爾伯塔期間，深度學習技術還未發展起來。那時我們的圍棋程序還非常簡單，沒有加入蒙特卡洛樹搜索機制，只應用了強化學習。隨後他們在 DeepMind 獲得了大量資源，這也為其後的成功打下了基礎。」

此前，在 4 月 10 日下午，谷歌在北京的中國棋院召開新聞發布會，正式宣布 AlphaGo 將於今年 5 月 23 日在浙江烏鎮對決以柯潔為代表的中國頂尖棋手。與此同時，DeepMind 官方也發表了一篇博客對新版 AlphaGo 的下棋思路進行了講解。作為 AlphaGo 的一員，樊麾在 DeepMind 的這篇博客中寫到：AlphaGo 在最近的比賽里展現出了開創性的棋風，其中最引人矚目的是早期點三三和全新的「妖刀」變化——每個都違反了常規理論，但在更深入的研究中被證明是高明的下法。

實際上，DeepMind 可能之前已經對新的演算法進行過了測試。2016 年年底，AlphaGo 化名 Master，在網路上與人類頂尖棋手下了 60 盤測試棋，取得 60 局全勝的驕人戰績。通過那次測試，谷歌旗下的 DeepMind 又發現了 AlphaGo 不少需要完善的地方，2017 年 5 月中下旬即將與柯潔進行正式人機大戰的將是「AlphaGo 2.0 版本」。

Müller 認為目前 AlphaGo 的性能已經提升到了新的高度。「將蒙特卡洛樹搜索和策略網路結合來提高策略網路的性能？」Müller 說道。「儘管這樣需要花費大量的時間用於訓練策略網路，但鑒於 DeepMind 是谷歌旗下的公司，他們可以利用到谷歌的強大硬體，甚至新一代 TPU。在去年與李世乭的對決後，DeepMind 的團隊可以嘗試在很多方面上進行改進。」

對於與 AlphaGo 相近的機器對手，Müller 還表示騰訊的「絕藝」已是目前世界第二強的計算機圍棋程序，在未來或許會有擊敗 AlphaGo 的實力。

AlphaGo 未來還有多場比賽，包括史無前例的多人對戰。機器之心還將繼續跟蹤解讀，為讀者第一時間帶來更有價值的技術解讀。

Martin Müller 將作為演講嘉賓亮相 5 月 27 日- 28 日機器之心舉辦的 GMIS 2017 大會上，他將帶來主題為「深度學習時代的啟發式搜索（Heuristic Search in the Age of Deep Learning）」的演講。獲取人機大戰和全球機器智能峰會的最新信息，請點擊閱讀原文或關注大會官網 http://gmis.jiqizhixin.com。

機器之心報道