專家評圍棋之神「阿爾法元」:成績令人欣喜,但AI還在路上
在金庸的小說《射鵰英雄傳》里,周伯通「左手畫圓,右手畫方」,左手攻擊右手,右手及時反搏,自娛自樂,終無敵於天下。
現實世界中,亦有這麼一個「幼童」,他沒見過一個棋譜,也沒有得到一個人指點,從零開始,自娛自樂,自己參悟,用了僅僅40天,便稱霸圍棋武林。
這個「幼童」,叫阿爾法元(AlphaGo Zero),就是今年5月在烏鎮圍棋峰會上打敗了人類第一高手柯潔的阿爾法狗強化版AlphaGo Master的同門「師弟」。不過,這個遍讀人類幾乎所有棋譜、以3比0打敗人類第一高手的師兄,在「師弟」阿爾法元從零自學第21天後,便被其擊敗。
通知:來領專屬紅包福利! 廣告
10月19日,一手創造了AlphaGo神話的谷歌DeepMind團隊在Nature雜誌上發表重磅論文Mastering the game of Go without human knowledge,介紹了團隊最新研究成果——阿爾法元的出世,引起業內轟動。
雖師出同門,但是師兄弟的看家本領卻有本質的差別。
「過去所有版本的AlphaGo都從利用人類數據進行培訓開始,它們被告知人類高手在這個地方怎麼下,在另一個地方又怎麼下。」 DeepMind阿爾法狗項目負責人David Silver博士在一段採訪中介紹,「而阿爾法元不使用任何人類數據,完全是自我學習,從自我對弈中實踐。」
展開剩餘81%David Silver博士介紹,在他們所設計的演算法中,阿爾法元的對手,或者叫陪練,總是被調成與其水平一致。「所以它是從最基礎的水平起步,從零開始,從隨機招式開始,但在學習過程中的每一步,它的對手都會正好被校準為匹配器當前水平,一開始,這些對手都非常弱,但是之後漸漸變得越來越強大。」
這種學習方式正是當今人工智慧最熱門的研究領域之一——強化學習(Reinforcement learning)。
崑山杜克大學和美國杜克大學電子與計算機工程學教授李昕博士向澎湃新聞(www.thepaper.cn)介紹,DeepMind團隊此次所利用的一種新的強化學習方式,是從一個對圍棋沒有任何知識的神經網路開始,然後與一種強大的搜索演算法相結合,「簡單地解釋就是,它開始不知道該怎麼做,就去嘗試,嘗試之後,看到了結果,若是正面結果,就知道做對了,反之,就知道做錯了,這就是它自我學習的方法。」
這一過程中,阿爾法元成為自己的「老師」,神經網路不斷被調整更新,以評估預測下一個落子位置以及輸贏,更新後的神經網路又與搜索演算法重新組合,進而創建一個新的、更強大的版本,然而再次重複這個過程,系統性能經過每一次迭代得到提高,使得神經網路預測越來越準確,阿爾法元也越來越強大。
其中值得一提的是,以前版本的阿爾法狗通常使用預測下一步的「策略網路(policy network)」和評估棋局輸贏的「價值網路(value network)」兩個神經網路。而更為強大的阿爾法元只使用了一個神經網路,也就是兩個網路的整合版本。
這個意義上而言,「AlphaGo Zero」譯成「阿爾法元」,而不是字面上的「阿爾法零」,「內涵更加豐富,代表了人類認知的起點——神經元。」李昕教授說。
上述研究更新了人們對於機器學習的認知。「人們一般認為,機器學習就是關於大數據和海量計算,但是通過阿爾法元,我們發現,其實演算法比所謂計算或數據可用性更重要。」DavidSilver博士說。
李昕教授長期專註於製造業大數據研究,他認為,這個研究最有意義的一點在於,證明了人工智慧在某些領域,也許可以擺脫對人類經驗和輔助的依賴。「人工智慧的一大難點就是,需要大量人力對數據樣本進行標註,而阿爾法元則證明,人工智慧可以通過"無監督數據(unsupervised data)",也就是人類未標註的數據,來解決問題。」
有人暢想,類似的深度強化學習演算法,或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標註數據的領域。
不過,究竟有多大實際意義,能應用到哪些現實領域,李昕教授表示「還前途未卜」,「下圍棋本身是一個比較局限的應用,人類覺得下圍棋很複雜,但是對於機器來說並不難。而且,下圍棋只是一種娛樂方式,不算作人們在生活中遇到的實際問題。」
那麼,谷歌的AI為什麼會選擇圍棋?
據《第一財經》報道,歷史上,電腦最早掌握的第一款經典遊戲是井字遊戲,這是1952年一位博士在讀生的研究項目;隨後是1994年電腦程序Chinook成功挑戰西洋跳棋遊戲;3年後,IBM深藍超級計算機在國際象棋比賽中戰勝世界冠軍加里· 卡斯帕羅夫。
除了棋盤遊戲外,IBM的Watson系統在2011年成功挑戰老牌智力競賽節目Jeopardy遊戲一戰成名;2014年,Google自己編寫的演算法,學會了僅需輸入初始像素信息就能玩幾十種Atari遊戲。
但有一項遊戲仍然是人類代表著頂尖水平,那就是圍棋。
谷歌DeepMind創始人兼CEO Demis Hassabis博士曾在2016年AlphaGo對陣李世石時就做過說明,有著3000多年歷史的圍棋是人類有史以來發明出來的最複雜的遊戲,對於人工智慧來說,這是一次最尖端的大挑戰,需要直覺和計算,要想熟練玩圍棋需要將模式識別和運籌帷幄結合。
「圍棋的搜索空間是漫無邊際的——比圍棋棋盤要大1個古戈爾(數量級單位,10的100次方,甚至比宇宙中的原子數量還要多)。」因此,傳統的人工智慧方法也就是「為所有可能的步數建立搜索樹」,在圍棋遊戲中幾乎無法實現。
而打敗了人類的AlphaGo系統的關鍵則是,將圍棋巨大無比的搜索空間壓縮到可控的範圍之內。David Silver博士此前曾介紹,策略網路的作用是預測下一步,並用來將搜索範圍縮小至最有可能的那些步驟。另一個神經網路「價值網路(valuenetwork)」則是用來減少搜索樹的深度,每走一步估算一次遊戲的贏家,而不是搜索所有結束棋局的途徑。
李昕教授對阿爾法元帶來的突破表示欣喜,但同時他也提到,「阿爾法元證明的只是在下圍棋這個遊戲中,無監督學習(unsupervised learning)比有監督學習(supervised learning)"更優",但並未證明這就是"最優"方法,也許兩者結合的semi-supervised learning,也就是在不同時間和階段,結合有監督或無監督學習各自的優點,可以得到更優的結果。」
李昕教授說,人工智慧的技術還遠沒有達到人們所想像的程度,「比如,互聯網登錄時用的reCAPTCHA驗證碼(圖像或者文字),就無法通過機器學習演算法自動識別」,他說,在某些方面,機器人確實比人做得更好,但目前並不能完全替換人。「只有當科研證明,一項人工智慧技術能夠解決一些實際問題和人工痛點時,才真正算作是一個重大突破。」
崑山杜克大學常務副校長、中美科技政策和關係專家丹尼斯·西蒙(Denis Simon)博士在接受澎湃新聞採訪時表示,阿爾法元在圍棋領域的成功說明它確實有極大的潛力。阿爾法元通過與自身對弈實現了自身能力的提升,每一次它都變得更聰明,每一次棋局也更有挑戰性。這種重複性的、充分參與的學習增強了阿爾法元處理更高層次的、戰略複雜問題的能力。但缺點是這是一個封閉的系統。「阿爾法元如何能夠超過自身的局限獲得進一步的成長?換句話說,它能跳出框框思考嗎?」
聲明:本文由入駐搜狐號作者撰寫,除搜狐官方賬號外,觀點僅代表作者本人,不代表搜狐立場。推薦閱讀:
※中日圍棋擂台演義第74回:未創奇蹟 馬曉春錯失勝機
※煜輝圍棋教室第7集:虎口與禁入點
※圍棋入門(三)
※圍棋入門教程之死活和手筋部分:圍棋的基本死活(二)