【藍烈】「星陣」金涬:AI可以拋開人類單獨求棋道

【藍烈】「星陣」金涬:AI可以拋開人類單獨求棋道

來自專欄弈客圍棋6 人贊了文章

8月4日下午,記者採訪了深客科技CEO、星陣圍棋主創人金涬博士。約見的地點是望京,金涬是出席眼科相關醫療會議後趕過來,深度學習和醫療診斷未來會融合到一起。

2018中國圍棋大會8月8日將在南寧召開,其中「中信證券杯」世界智能圍棋公開賽是核心項目。2015年AlphaGo橫空出世後,圍棋項目「人機相揖別」,經三次「人機大戰」,圍棋世界已進入了人類和人工智慧越來越脫離粘連的二元體系。

在剛剛結束的2018騰訊世界人工智慧圍棋大賽決賽,星陣圍棋0比7不敵「絕藝」。僅十天後,星陣圍棋又要出戰「中信證券杯」世界圍棋公開賽。

「中信證券杯」世界智能圍棋公開賽是和中國圍棋大會的核心賽事,隨著中國圍棋大會屆數的累積,「中信證券杯」愈來愈會成為圍棋世界二元體系下代言人工智慧圍棋的權威賽事,一年一度的大賽將具有階段性總結人工智慧圍棋發展狀況的意義。

?

2017年首屆「中信證券杯」世界智能圍棋公開賽DeepZenGo獲得冠軍

去年8月落幕的2017年首屆「中信證券杯」世界智能圍棋公開賽,日本DeepZenGo獲得冠軍,而首屆比賽可以看做是谷歌第一篇論文框架下人工智慧圍棋發展的階段性總結。僅僅過兩個月,谷歌推出「第二篇論文」,「阿爾法零」(AlphaGo Zero)擯棄人類棋譜「從零開始」,僅三天就戰勝2015年第一次「人機大戰」AlphaGo Lee版本。

去年10月19日谷歌發表「第二篇論文」距今還不到一年,無論是「傳統」的還是「新貴」圍棋智能程序,皆搭上「第二篇論文」,金涬博士說:「騰訊大賽的四強程序都是基於『第二篇論文』。」

谷歌「第二篇論文」再次拓寬邊界,圍棋人工智慧程序隨之進化和迭代,同時也經歷「優勝劣汰」,如日本野心勃勃推出的「DeepZenGo」項目已經「下架」,原在第一梯隊的韓國「石子旋風」因未能搭上「第二篇論文」已居末流,瀕臨淘汰。

那麼,2018第2屆「中信證券杯」世界智能圍棋公開賽即將開賽之際,現階段人工智慧圍棋的發展狀況和未來須突破的方向是什麼呢?這也是採訪星陣圍棋主創人金涬的目的所在。

4月27日「貝瑞基因杯」人機大戰前,柯潔歡笑著看機械臂擺棋,其實這是很「恐怖」的一幕

星陣,人工智慧圍棋迭代進化的標尺

記者:請介紹「星陣圍棋」發展的過程。

金涬:「我們深客科技,以知識產權有償轉讓的方式接手了清華大學團隊研發的『神運算元』,然後加了新的模塊,如目數的判斷,使『星陣』的實力得到了提升。『神運算元』是基於谷歌『第一篇論文』,而我們是參考了『第二篇論文』,加了一些自己的東西。『星陣』由此得到提高,也有了自己的特色。如『不退讓圍棋』,可以下任意貼目的棋,適應不同大小棋盤等。

而這些提升,是在今年4月27日和柯潔下(2018貝瑞基因杯人機大戰)前已經完成的。後來我們繼續跟進『第二篇論文』,引入了強化學習。這次參加騰訊人工智慧賽,複賽和決賽階段我們使用的是強化學習的版本,而這個版本的實力又上了一個台階。」

在4月末的首屆吳清源杯開幕式上,金涬博士和柯潔握手

記者:也就是4月末和柯潔下『第三次人機大戰』的時候,依然還是基於『第一篇論文』?

金涬:「應該說也參考了『第二篇論文』,如價值網路和策略網路合併,除此之外沒有。而『第二篇論文』最重要的貢獻就是『強化學習』,我們還沒有引入。後來『星陣』和職業棋手下讓先棋,取得『40比1』的成績的時候,也是沒有引入『強化學習』,也包括騰訊人工智慧賽的預賽。

我們著手引入『強化學習』,是從福州回來後(4月)。也就是5、6月份做這件事,而產生效果是7月以後。」

記者:圍棋人工智慧因谷歌兩篇論文而更新迭代,那麼這兩篇論文間有什麼差距?

金涬:「這個差距應該說還蠻大。圍棋人工智慧的研發,主要用的是『深度學習』,這是沒錯的。但從學習的機制來說,應該說發生了很大的改變。如『第一篇論文』的學習方法是『監督學習』,而『監督學習』的方法相對來說比較容易掌握。『監督學習』是看人類怎麼走,就學著怎麼走,然後學出了一個網路。但是受限於人類的棋譜,不可能學到比人類更厲害的東西。當你碰到天花板的時候,事實上已無法繼續前進。

金涬博士和柯潔在2018「貝瑞基因杯」人機大戰頒獎儀式前

而『強化學習』最關鍵的思想就是,當你沒有比人類更厲害的棋譜的時候,就自己來創造棋譜。這就形成了螺旋上升的方法:就是自己製造棋譜,學習這個棋譜,然後變得更強,再創造更強的棋譜。『強化學習』就是如此循環迭代。『強化學習』因為可以自我進化,所以能『從零開始』。」

記者:AlphaGo Zero從零開始,三天就打敗了「第一次人機大戰」版本。那麼星陣「強化學習」,也是從零開始的嗎?

金涬:「沒有,沒有。我們引入的是『強化學習』螺旋上升的迭代過程,但這個迭代過程沒必要從零開始,當然也可以從零開始。或者說可以從當前的基礎開始,更可以從任意一個起點開始。

星陣就是從4月和柯潔對弈版本的基礎上迭代進化。這次騰訊人工智慧賽前幾名的程序,應該都使用了『強化學習』,都突破了採用『第一篇論文』無法達到的高度。也就是突破了天花板。」

記者:如果和AlphaGo master版本相比,現在的圍棋人工程序是否已經超越了?

金涬:「這個問題其實很難回答,因為它不出來比賽。我們沒有直接比較的機會,所以只能不負責任地猜。我覺得差距應該不是很遠了,或者說超過了也有可能。」

記者:AlphaGo master版本是基於第一篇論文嗎(對這一點記者一直概念模糊)?

金涬:「不是,AlphaGo master是基於第二篇論文。」

記者:那麼AlphaGo master和AlphaGo Zero間的差距是什麼呢?

金涬:「AlphaGo master和AlphaGo Zero都是基於『第二篇論文』。區別在於AlphaGo Zero拿掉了所有『人工』的因素,比如快速走子網路和人工特徵等。而最大的區別,AlphaGo master是從之前的版本『強化學習』,AlphaGo Zero是『從零開始』。

AlphaGo Zero戰勝了 AlphaGo master這是沒錯的,但這裡有誤讀的東西,人們以為『從零開始』就是比master強,其實谷歌並沒有這麼說。AlphaGo Zero戰勝AlphaGo master,不同資源的投入,在不同時間節點對比的結果。」

記者:谷歌的「第一篇論文」帶來了劃時代的進步,於是大家跟進。但是都沒曾想還會出現第二篇論文。接著「第二篇論文」出現了,又是「劃時代的進步」,大家都又跟進了。現在谷歌已經不玩圍棋了,那麼以後還會有「第三篇論文」嗎?

金涬:「谷歌團隊退出了圍棋的研究,但圍棋依然很複雜,我們離破解這個遊戲還很遠很遠。谷歌發了第一篇論文,成為了新的水平線,我們就爭取站在這個水平線。谷歌又發了一篇論文,又成為新的水平線,我們又站在了巨人的肩膀上。現在大家還繼續在圍棋AI上投入,力爭再邁上一個新台階,寫出『第三篇論文』。」

2018「貝瑞基因杯」人機大戰,金涬作為星陣「肉臂」擺棋

今年4月到5月間,星陣圍棋授先職業棋手取得了40勝1負的成績。4月27日,星陣圍棋出戰2018貝瑞基因杯人機大戰,執黑第145手中盤戰勝了柯潔。這場「第三次人機大戰」事實上已讓「人機對抗」成為了絕唱,自2015年AlphaGo問世不過三年時間,人工智慧圍棋至少在棋力上徹底碾壓了人類。

星陣圍棋可以說是人工智慧圍棋迭代進化的標尺,它首先脫胎於基於「第一篇論文」的「神運算元」,深客科技和金涬接手「神運算元」後只是加了一點「自己的東西」,星陣圍棋就立刻脫胎換骨,變得「不一樣」了。從「第一篇論文」迭代到「第二篇論文」,星陣分兩步走,第一步是「神運算元」的基礎上借鑒「第二篇論文」合併價值網路和策略網,尚沒有引入「強化學習」。而這個版本的星陣先在「第三次人機大戰」戰勝柯潔,又授先職業棋手取得40勝1負。星陣引入「強化學習」,也沒有「從零開始」,依然保留了人類圍棋的基因,基於人類棋譜,突破了人類棋譜的「天花板」。

?

?金涬在2018「貝瑞基因杯」人機大戰

人工智慧圍棋的現狀和未來突破點

記者:現在的人工智慧圍棋程序,應該說都跨過了職業門檻,棋力已遠超人類。那麼現階段人工智慧圍棋尚未完善,或者需要攻克的點是什麼?

金涬:「這也是我們務求突破,驗證演算法的目標所在。第一點,這種強化學習迭代的方法,非常消耗計算資源,這也是谷歌能做出來,而別人都做不到的原由所在。需要大量的計算資源,可以說是這個演算法的局限所在。

這就引來一個問題,在圍棋上得到驗證的演算法想應用到其他領域,第一個難以跨越的門檻就是恐怖的計算資源量,這不是一般公司所能承受得起。反過來說,這又限制了演算法的進一步應用和發展。所以,能不能用相對少量的資源,做到相同的事,這是攻關的第一個方向。而我們開發星陣,計算資源總數約為AlphaZero的幾百分之一,沒有為比賽租用過臨時計算資源(註:一位幕後人士說,『金涬最偉大的貢獻就在於此』,不吝使用『偉大』二字)。

吳清源杯《最後的晚餐》,研究室的職業棋手、圍棋記者們在用星陣分析棋局

第二點,AlphaGo這套系統下出來的棋,有時候讓人難以理解。因為這套系統是以勝率為目標,在贏多了或者輸多了的時候,下法就會變得不太正常。贏多了就會退讓,輸多了就會出現『發瘋』的傾向。

尤其『優勢退讓的棋,』國家圍棋隊的俞斌總教練就說:『人工智慧優勢的時候給出的變化圖,讓人產生懷疑。這究竟是優勢退讓的變化圖,還是棋本來就該這麼下?』

星陣就想在這個方面得到突破,即『最強下法』的突破。AlphaGo是在固定棋盤、固定貼目、固定規則下訓練,我們認為這不太靈活。比如,你訓練出來的分先的棋越強,下讓子棋就會變得越弱。就說讓三子,一上來就勝率超低,就會立刻進入『發瘋』狀態。這就形成了一個悖論,人工智慧圍棋水平越強,下讓子棋越會『發瘋』。這也是演算法本身的問題所在。我們現在致力於一個模型適應各種下法。」

「星陣」脫胎於「神運算元」,由小川教授率清華團隊研發了「神運算元」

星陣「最強下法」,是不是一定程度上解決了這個問題?

金涬:「應該說星陣給出的變化圖,相對是值得信賴的,也就是一定程度上解決了這個問題。」

記者:「從零開始」的強化學習方法,能否解決特殊棋形、特殊死活等問題?而不需要人工干預?

金涬:「我認為能解決。既然能從零開始學到簡單的棋形,進而也能學到複雜的棋形,甚至也能學到人類不曾發現和還不懂的棋形。人工干預,其實是沒有必要性的。人工智慧圍棋只要達到一定的高度,自然能下出高級複雜的棋形,然後學會它。」

記者:最後一個問題,人工智慧圍棋能否撇開人類單獨求道?

金涬:「事實上已經進入了這樣的一個階段,AI『它們』的成長,實際上是自己在求道。或者說ZERO的論文已經證明了計算機拋開人類求道,是完全可能的。」

推薦閱讀:

怎樣應對人工智慧帶來的倫理問題
人工智慧和人類意識,到底哪個更厲害?
這年頭,你連吵架都吵不過AI了……
谷歌的AI已經可以預測你的死亡時間,準確率 95%
谷歌、微軟、Facebook等2018最新面試題分享

TAG:人工智慧 | 圍棋 |