柯潔1/4子惜敗,機器之心獨家全程對話AlphaGo開發者導師 Martin Müller

第一戰,AlphaGo 贏了!幾乎不出人意料。

5 月 23 日,中國圍棋協會和浙江省體育局攜手谷歌聯合主辦的「中國烏鎮·圍棋峰會」正式開幕,直到 5 月 27 日,柯潔與 AlphaGo 的三番棋人機大戰以及人機團隊賽、配對賽將陸續展開。

大賽啟動儀式

關於這次圍棋人機對話,有幾大懸念引人注目。現役最強棋手柯潔是否有機會獲勝還是將完全敗北——這無疑是本輪對戰的最大看點。此外,再次出戰的 AlphaGo 是否已經是使用全新方式訓練的新版本也是一大焦點。時隔 4 個多月,AlphaGo 的能力是否又有提升?它能否將人類對於圍棋的理解帶上一個更新的高度?這些問題即將在短短五天的對決中揭曉。

除了現場報道之外,機器之心邀請阿爾伯塔大學教授、計算機圍棋頂級專家 Martin Müller 以及《深度強化學習綜述》論文作者李玉喜博士,共同觀看了比賽直播。Müller 教授所帶領的團隊在博弈樹搜索和規劃的蒙特卡洛方法、大規模並行搜索和組合博弈論方面頗有建樹。實際上,參與了大師級圍棋程序 AlphaGo 的設計研發的 David Silver 和黃士傑(Aja Huang)(他們分別是 DeepMind 的 AlphaGo 相關 Nature 論文的第一作者和第二作者)都曾師從於他。李玉喜博士是加拿大阿爾伯塔大學計算機系博士、博士後。致力於深度學習、強化學習、機器學習、人工智慧等前沿技術及其應用。曾任電子科技大學副教授;在美國波士頓任資深數據科學家等。2017 年 1 月在 arXiv 上發表《Deep Reinforcement Learning: An Overview(深度強化學習綜述)》論文 。

Martin Müller 教授和機器之心一起觀看直播

AlphaGo 第一局意料之中的勝利

下午 14:47,在經過了 4 小時 17 分鐘的激烈比賽之後,AlphaGo 以四分之一子的優勢獲勝,這並不讓人感到意外。

比賽前一天,柯潔在微博上表達了自己對即將到來的比賽的看法和期待,字裡行間並沒有透露出擊敗 AlphaGo 的信心,他在微博上寫道:「無論輸贏,這都將是我與人工智慧最後的三盤對局……現在的 AI 進步之快遠超我們的想像。像國產的絕藝、日產的 ZEN 雖然和 Alphago 還有著較大差距,但已經表現出超強的實力了... 我相信未來是屬於人工智慧的。」

這場比賽不僅是 DeepMind 的盛事,也得到了 Alphabet 高層的重點關注。DeepMind CEO Demis Hassabis 和 Alphabet 總裁 Eric Schmidt 都來到了現場。

「祝柯潔好運!」賽前,Hassabis 表示了對圍棋界深深的謝意,他說,中國是人類圍棋的誕生之地。此次比賽的宗旨在於探索新打法。圍棋世界就好像宇宙一般,再過一萬年也不可能窮盡所有的打法。或許人工智慧可能提供新的啟迪。去年和李世乭的比賽結束後回到倫敦,DeepMind 對 AlphaGo 進行了全新的架構更新,推出了升級版本 Master,希望 AlphaGo 能走自己創新打法的路。

Hassabis 強調:「這不是人機大賽,而是人類使用機器探索新的方法,AlphaGo 就像哈勃望遠鏡,能幫助我們看到更遠的未知。不管結果如何,最終勝利屬於人類。」

現年 19 歲的柯潔是中國圍棋九段選手,祖籍浙江麗水。他從 5 歲就師從周宗強五段正式開始學棋,2008 年 10 歲升初段開啟職業生涯。他曾獲得第 2 屆百靈杯世界圍棋公開賽冠軍、第 20 和 21 屆三星杯世界圍棋公開賽冠軍、第 2 屆夢百合杯世界圍棋公開賽冠軍,在世界大賽中曾創造過 14 連勝的戰績。在本次圍棋人機大戰開打前夕,圍棋排名網站 Goratings 更新了截至 5 月 21 日的世界圍棋等級分排名。將在 23 日-27 日和 AlphaGo 展開對決的柯潔九段繼續毫無懸念繼續領跑,他與第二名朴廷桓的分差已有 30 分之多。

這場圍棋人機大戰是從上午 10:30 開始的;中國棋院院長華以剛、世界圍棋女子冠軍徐瑩組合與常昊張璇夫婦輪番進行了講解。

柯潔執黑子,第一手棋,下在右上角,以示對對手的尊敬。黃博士代替 AlphaGo 執白子。與 AlphaGo 交手後,柯潔研究了一年多 AlphaGo 喜歡的三三式,吸取了教訓,對 AlphaGo 的落子 有所防範,並率先在右下角點三三,使出了 AlphaGo 的下法。「柯潔的這一步是 AlphaGo 的風格」Müller 說道。「在去年 AlphaGo 比賽之後,很多頂尖棋手都已分析了 AlphaGo 的棋風,並將其應用於實戰,柯潔最近已在正式比賽中使用了這種下法並獲勝。」柯潔棋風依舊強硬,AlphaGo 還是不走尋常路。

比賽過程中柯潔完全沉浸在自己的思考中,幾乎未抬頭看對面的黃博士一眼。

比賽 4 個小時之後,這場人機對弈大戰結束,AlphaGo 以四分之一的子獲勝。最終柯潔用時 2 小時 47 分,AlphaGo 用時 1 小時 30 分。自此,當前世界排名第一的棋手和人工智慧 AlphaGo 的第一局比賽落下了帷幕,結果基本上沒有超出任何人(包括柯潔自己)的預料。

結局盤面

柯潔與 AlphaGo 的第二局比賽將在 5 月 25 日上午 10:30 開賽,柯潔能否在下一場比賽上取得出人意料的成績,讓我們拭目以待。

AlphaGo 升級版

過去一年多,只要你稍微關注過科技新聞,就一定看到過 AlphaGo 的名字(有時也被人稱為「阿爾法狗」)。去年 3 月份,AlphaGo 成為了世界上第一個擊敗世界頂級職業選手的圍棋程序。在擊敗了李世乭後,AlphaGo 或許已經成為了世界上最著名的人工智慧程序。

但大勝李世乭的 AlphaGo 版本終究還是輸了一場,所以還並不完美。據了解,當時 AlphaGo 開始主要是依靠大量學習人類棋手的棋譜來提高棋藝。隨後 AlphaGo 進入到完全的自我深度學習階段,也就是完全摒棄人類棋手的思維方式,按照自己(左右互搏)的方式研究圍棋。對於 AlphaGo 是否使用人類棋譜的問題,李玉喜博士評論說:「計算機圍棋是一個優化問題,對於 AlphaGo,就是在優化它所採用的深度神經網路的參數。從優化的角度說,可以從任何初始值開始,利用隨機梯度下降等演算法進行優化。利用人類棋譜,可以幫助設置一組不錯的初始值,很可能可以提高尋找最優參數的效率;而如果不用人類棋譜,理論上可以,但一開始對參數的搜索可能有些盲目,個人認為不應該採用這個方案。」

2016 年 1 月 28 日,Nature 雜誌以封面論文的形式介紹了 DeepMind 團隊開發的人工智慧程序 AlphaGo,這也就是後來擊敗韓國棋手李世乭的 AlphaGo 版本。

AlphaGo 結合了監督學習與強化學習的優勢。通過訓練形成一個策略網路,將棋盤上的局勢作為輸入信息,並對有所可行的落子位置形成一個概率分布。然後,訓練一個價值網路對自我對弈進行預測,以-1(對手的絕對勝利)到 1(AlphaGo 的絕對勝利)的標準,預測所有可行落子位置的結果。AlphaGo 將這兩種網路整合進基於概率的蒙特卡羅樹搜索(MCTS)中,實現了它真正的優勢。

在獲取棋局信息後,AlphaGo 會根據策略網路(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,模擬過程中被系統最繁瑣考察的位置將成為 AlphaGo 的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo 的探索演算法就能在其計算能力之上加入近似人類的直覺判斷。

但是新版的 AlphaGo 產生大量自我對弈棋局,為下一代版本提供了訓練數據,此過程循環往複。

AlphaGo 的棋風一直為人驚嘆,與其交戰過的大多數棋手都感嘆它的不可琢磨,可謂是違和感十足,卻極具殺傷力。金成龍曾表示:「AlphaGo 機器人下棋的方法是人類想不出來的。它有幾次小的失誤,之前我認為這種失誤對李世石是有利的,現在看起來 AlphaGo 是以小失誤換取更大的勝利。」

AlphaGo 的強大之處不在於一招一式,而在於對每一局比賽展現出的全新視角。雖然圍棋風格略顯抽象,但 AlphaGo 的策略展示了靈活與開放的精神:沒有先入為主的訓練讓它找到了最有效的下棋方式。實用哲學讓 AlphaGo 經常走出違反直覺——但卻最為合理的走子。

儘管圍棋是一個有關圈地的遊戲,但勝負手卻在於對不同戰區之間的取捨平衡,而 AlphaGo 擅長創造這種平衡。具體來說,AlphaGo 擅長運用「影響力」——已有棋子對自己周圍的影響為自己謀取優勢。雖然 AlphaGo 的價值網路不能準確地計算出影響的數值,但它的價值網路能夠一次性考慮棋盤上的所有棋子,以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在局部的優勢轉化為整個比賽的勝勢。

作為 David Silver 與黃士傑在阿爾伯塔大學的導師,Martin Müller 對他的學生們感到驕傲:「我對他們感到非常驕傲,他們都曾是我的博士/博士後學生,在阿爾伯塔也得到了強化學習的先驅 Richard Sutton 的教導。在阿爾伯塔期間,深度學習技術還未發展起來。那時我們的圍棋程序還非常簡單,沒有加入蒙特卡洛樹搜索機制,只應用了強化學習。隨後他們在 DeepMind 獲得了大量資源,這也為其後的成功打下了基礎。」

此前,在 4 月 10 日下午,谷歌在北京的中國棋院召開新聞發布會,正式宣布 AlphaGo 將於今年 5 月 23 日在浙江烏鎮對決以柯潔為代表的中國頂尖棋手。與此同時,DeepMind 官方也發表了一篇博客對新版 AlphaGo 的下棋思路進行了講解。作為 AlphaGo 的一員,樊麾在 DeepMind 的這篇博客中寫到:AlphaGo 在最近的比賽里展現出了開創性的棋風,其中最引人矚目的是早期點三三和全新的「妖刀」變化——每個都違反了常規理論,但在更深入的研究中被證明是高明的下法。

實際上,DeepMind 可能之前已經對新的演算法進行過了測試。2016 年年底,AlphaGo 化名 Master,在網路上與人類頂尖棋手下了 60 盤測試棋,取得 60 局全勝的驕人戰績。通過那次測試,谷歌旗下的 DeepMind 又發現了 AlphaGo 不少需要完善的地方,2017 年 5 月中下旬即將與柯潔進行正式人機大戰的將是「AlphaGo 2.0 版本」。

Müller 認為目前 AlphaGo 的性能已經提升到了新的高度。「將蒙特卡洛樹搜索和策略網路結合來提高策略網路的性能?」Müller 說道。「儘管這樣需要花費大量的時間用於訓練策略網路,但鑒於 DeepMind 是谷歌旗下的公司,他們可以利用到谷歌的強大硬體,甚至新一代 TPU。在去年與李世乭的對決後,DeepMind 的團隊可以嘗試在很多方面上進行改進。」

對於與 AlphaGo 相近的機器對手,Müller 還表示騰訊的「絕藝」已是目前世界第二強的計算機圍棋程序,在未來或許會有擊敗 AlphaGo 的實力。

AlphaGo 未來還有多場比賽,包括史無前例的多人對戰。機器之心還將繼續跟蹤解讀,為讀者第一時間帶來更有價值的技術解讀。

Martin Müller 將作為演講嘉賓亮相 5 月 27 日- 28 日機器之心舉辦的 GMIS 2017 大會上,他將帶來主題為「深度學習時代的啟發式搜索(Heuristic Search in the Age of Deep Learning)」的演講。獲取人機大戰和全球機器智能峰會的最新信息,請點擊閱讀原文或關注大會官網 gmis.jiqizhixin.com

機器之心報道


推薦閱讀:

如何評價柯潔在2017年LG杯32強比賽中擊敗元晟溱?
勝負本心
圍棋史上的今天:6月23日 九連霸 提前寫好的獲獎感言 偉大紀錄與偉大遺憾
圍棋史上的今天:1月28日 突如其來的新時代 末日or新生 圍棋的本質
為什麼圍棋界有「二十歲不成國手,終生無望」的說法?

TAG:GoogleDeepMind | AlphaGo | 围棋 |