史上最強AlphaGo Zero來了!可「自學成才」,3天秒殺曾碾壓李世石的舊「狗」

最近,它的弟弟阿爾法元(AlphaGo Zero)沒看過一本棋譜,也沒得到過任何人的指點,僅憑自己摸爬滾打,自娛自樂,下了幾千萬盤棋後,變成了頂尖高手。3天後,它以100:0的成績戰勝了哥哥,再次刷新圍棋領域的排名。

倫敦當地時間10月18日18:00,研究團隊DeepMind再次在《自然》(Nature)雜誌上發表了一篇關於AlphaGo的文章,稱新一代AI程序AlphaGo Zero(阿爾法元)在沒有任何人類輸入的情況下,可以自學成才。

此前,2016年1月28日,《自然》雜誌就發表了封面文章,推出DeepMind公司的研究成果,即曾擊敗歐洲圍棋冠軍樊麾的人工智慧程序AlphaGo。

舊版AlphaGo在今年5月戰勝柯潔後宣布退役,但DeepMind公司仍在繼續研究AlphaGo系列產品,此次發表的重磅論文就是為了推出迄今為止的最強版AlphaGo,代號AlphaGo Zero。

這隻新的阿爾法狗不簡單,它可以在完全沒有人類幫助的情況下,自學成才。而且,從「一張白紙」到「頂級高手」,它只需要短短3天時間!

Zero的無敵和強大令人震驚,但在某種意義上或許可以說,人類把阿爾法狗教壞了!它不需要人類的「教育和幫助」了。

戳視頻,看看Zero到底厲害在哪裡。

AlphaGo項目首席研究員大衛·席爾瓦(David Silver)說,AlphaGo Zero的水平超過以前所有的AlphaGo版本,尤其值得一提的是,它擊敗了曾戰勝世界圍棋冠軍李世石的舊版。

DeepMind聯合創始人兼CEO戴密斯·哈薩比斯(Demis Hassabis)說,「Zero提高了計算效率,並且沒有使用到任何人類圍棋數據。」

不使用人類的圍棋數據,AlphaGo Zero是如何實現自學的呢?那就要先說說Zero與「舊狗」有哪些不同。

舊版Alpha Go需要先學習數百萬份人類棋譜,還要經過幾個月的密集訓練,從而進行自我訓練,實現超越。

與「舊狗」不同的是,新版Zero卻能夠「無師自通」,完全不需要任何歷史棋譜的指引,也不需要人類的任何先驗知識,完全靠自己的強化學習(reinforcement learning)。

Zero的學習原理是這樣的:研究團隊事先沒有給Zero學習任何人類棋譜,只告訴它圍棋的規則,就讓它自己在棋盤上下棋,與自己進行對弈,從一次次試驗和失敗中吸取經驗教訓,摸索規律,在實戰中提高棋藝。

除了學習原理外,另一點與「舊狗」不同的是,Zero使用了單一的神經網路。

此前版本的AlphaGo都是用了兩種神經網路,一種用來預測下一步棋最好的走法,另一種用來計算,根據這些走法,誰更有可能獲勝。

而Zero把這兩種網路合二為一,只讓神經網路預測獲勝者,從而能夠得到更高效的訓練和評估,就好像讓一個圍棋高手來預測比賽結果一樣。

此外,Zero也不再使用快速而隨機的走子方法。「舊狗」會通過快速走子來預測哪個棋手會從當前局面中獲勝,而Zero則通過高質量的神經網路來評估棋局。

如此看來,「舊狗」像是走一步看三步、步步為營的棋手,而Zero更像是縱觀全局、成竹在胸的圍棋大師。

DeepMind團隊稱,Zero用更新後的神經網路和搜索演算法重組,隨著訓練加深,系統的表現不斷進步。自我博弈的成績也越來越好。同時,神經網路也變得更準確。

Zero強化學習下的自我對弈

經過40天的訓練和3000萬次對弈,Zero就能戰勝此前世界上最牛的圍棋手Alpha Master。

戳圖,看看Zero在反覆的自我對弈和學習中棋藝進步的過程。

At first, AlphaGo Zero』s learning mirrored that of human players. It started off trying greedily to capture stones, as beginners often do, but after three days it had mastered complex tactics used by human experts. 「You see it rediscovering the thousands of years of human knowledge,」 said Hassabis.

Zero的學習很好地反映了人類棋手學習的過程。像初學者一樣,開始只是貪婪地想要吃掉對方的棋子。但是經過3天訓練,它就能掌握人類圍棋高手所使用的複雜的技巧,「它重新發現了人類幾千年的知識」,哈薩比斯說。

可以看出,Zero的勝率一直在提升。3天後能戰勝李世石,21天後能戰勝AlphaGo Master,而40天後,就能超過AlphaGo此前的所有版本。

Zero更厲害的一點在於,隨著訓練的深入,它不僅棋藝獲得極大提升,而且不再受到人類認知的局限,能夠發現新知識,獨立發現遊戲規則,並且發展新策略,而這些具有創造性的圍棋招式,模仿並完全超越了AlphaGo在與李世石和柯潔對弈時所使用的新技巧。

AlphaGo Zero alsodiscovered new knowledge, developing unconventional strategies and creative new movesthat echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.

AlphaGo幾個版本的排名

美國的兩位棋手在《自然》雜誌上對Zero的棋局做出點評:

The AI』s opening choices and end-game methods have converged on ours — seeing it arrive at our sequences from first principles suggests that we haven』t been on entirely the wrong track. By contrast, some of its middle-game judgements are truly mysterious.

它的開局和收官與專業棋手的下法並無區別,它按照基本原則,與人類的走法基本一致,這說明人類幾千年的智慧結晶,看起來並非全錯。但是,Zero中盤的有些走法卻很詭異。

知社學術圈採訪了美國杜克大學人工智慧專家陳怡然教授,他表示:

DeepMind最新推出的AlphaGo Zero……擺脫了對人類標註樣本(人類歷史棋局)的依賴,讓深度學慣用於複雜決策更加方便可行。

陳怡然也提出了一個AI領域的科學家和實踐者需要思考的問題:「在未來發展中,我們究竟應該如何看待人類經驗的作用。」

在AlphaGo Zero自主學會的走法中,有一些與人類走法一致,區別主要在中間相持階段。AlphaGo Zero已經可以給人類當圍棋老師,指導人類思考之前沒見過的走法,而不用完全拘泥於圍棋大師的經驗。也就是說AlphaGo Zero再次打破了人類經驗的神秘感,讓人腦中形成的經驗也是可以被探測和學習的。

謝菲爾德大學計算機神經科學教授Eleni Vasilaki在接受《衛報》採訪時表示這樣的技術成就是非常了不起的。但是她也指出:

While computers are beating humans at games that involve complex calculations and precision, they are far from even matching humans at other tasks.

在一些涉及複雜計算和精密度的遊戲中,計算機可以打敗人類,但在其他一些任務中,人工智慧還是有較大差距的。

美國卡耐基梅隆大學的計算機科學家Tom Mitchell稱:

「It closes the book on whether humans are ever going to catch up with computers at Go.I guess the answer is no.But it opens a new book, which is where computers teach humans how to play Go better than they used to.」

這次嘗試回答了人類在圍棋領域能否追上AlphaGo的問題,我認為答案是否定的。但是它開啟了一個新的課題,那就是計算機教會人們如何下圍棋才能比他們以往做得更好。

當然,席爾瓦表示,研發這款「無敵」的Zero並不是為了戰勝人類,而是為了探索科學的意義。

Zero也讓DeepMind看到了利用人工智慧技術改變人類命運的突破。

DeepMind團隊的目標是要利用AlphaGo打造通用的、探索宇宙的終極工具。

哈薩比斯說:

This ability to self-train without human input is a crucial step towards the dream of creating a general AI that can tackle any task. In the nearer-term, though, it could enable programs to take on scientific challenges such as protein folding or materials research.

無需人類輸入能夠自我學習的技能是打造通用人工智慧的一個關鍵步驟,這項技術可以幫助人類解決很多科技難題,比如蛋白質摺疊或新材料研發等等。

Several DeepMind researchers have already moved from working on AlphaGo to applying similar techniques to practical applications, said Hassabis.

目前,有些團隊成員已經開始將AlphaGo的技術應用到其他相關領域。

此外,DeepMind目前正積極與英國醫療機構和電力能源部門合作,提高看病效率和能源效率。

那麼,你如何看待Zero的自學能力,如何預測人工智慧的未來呢?


推薦閱讀:

你想成為「許三多」還是「成才」?
自學是成才的天梯
最有福氣三大生肖女:丈夫顧家,寵著你,孩子省心,長大成才還孝順!
王金戰36條教育金規助力孩子成才
修眉不求人!?7步自修成才

TAG:自學 | AlphaGo | 成才 | 秒殺 | 李世石 |