李世石連輸阿爾法??五盤,氣急敗壞地砸開了電腦,發現柯潔趴在機箱里
李世石連輸五盤,氣急敗壞地砸開了電腦,發現柯潔趴在機箱里。
這個笑話指出了一部分事實,趴在電腦里的不是柯傑,而是過去的圍棋大師們。
2016 年 1 月 28 日,Google Deepmind 在 Nature 上發文宣布其人工智慧圍棋系統 AlphaGo 歷史性的戰勝人類的職業圍棋選手,定在 2016 年 3 月份 AlphaGo 對陣李世石的比賽更是吸引了全人類的目光。AlphaGo 系統是基於人工智慧中的深度學習演算法的,我恰好也做了一些這方面的工作,覺得可以介紹一些這方面的情況。
圖像識別系統的深度學習演算法
去年(2015 年)2 月 15 日,有一條很重要但是公眾不怎麼注意的消息,微軟公布了一篇關於圖像識別的研究論文,在一項圖像識別的基準測試中,電腦系統識別能力已經超越了人類。人類在歸類資料庫 ImageNet 中的圖像時錯誤率為 5.1%,而微軟研究小組的這個深度學習系統可以達到 4.94% 的錯誤率。在去年年底的比賽中,微軟研究員何愷明、張祥雨、任少卿和孫劍組成的團隊又獲得第一,把錯誤率降到了 3.57%。這個在圖像識別系統中取得突破的演算法就是深度學習演算法。深度學習演算法是普通神經網路的更多層的深化。
神經網路
lenet5 深度神經網路用於手寫數字識別
神經網路由單個的神經元組成
這個「神經元」是一個以 x1、x2、x3 及截距 1 為輸入值的運算單元,其輸出為 h, 輸入輸出為非線性關係。微軟去年底的突破是因為發展了一種深達 152 層的網路。
AlphaGo系統如何學習下棋AlphaGo 系統充分利用了圖像識別的成果。它把 19 * 19 的棋盤當做 19 * 19 像素的圖像來處理。 Google 團隊設計了一個 13 層的類似圖像識別的深度學習網路。利用 KGS Go 伺服器上的高手對弈樣本來學習。這樣通過學習後生成了一個策略網路,這個策略網路無需搜索就達到了 57% 的準確率。形成策略網路後,系統使用這個網路自我下棋,並使用勝利一方的棋局強化學習。通過這樣的自我強化學習,系統的準確率達到了 80%。無需任何額外的搜索,僅僅使用強化學習過的策略網路和另外一個使用蒙特卡洛的軟體 PACHI 比賽時,勝率為 85%。
使用和策略網路差不多的方法,Google 還訓練了一個評價網路來評估當前的整體局勢。這個評價網路用來給當前的棋局打分。同樣通過強化學習後,這個打分的誤差小於 0.24.
最後 AlphaGo 系統使用策略和評價網路來搜索最好的棋子落點。使用這兩個網路可以極大減少搜索的範圍,但是使用這兩個網路使得單步計算的時間比蒙特卡洛方法要長,綜合下來 AlphaGo 系統還是需要強大的計算能力。
價值網路的一個例子
(輪到黑棋下,越藍代表落點的勝率越高,數字代表勝率。)
對應策略網路的一個例子
(輪到黑棋下,數字代表建議落子在此的概率。)
AlphaGo和李世石誰會贏?李世石觀看過 AlphaGo 和樊暉的棋局後,認為 AlphaGo 和自己有讓兩子的差距。不過和李世石比賽的 AlphaGo 應該有了很大的進步。基於網路的同質性,圖像識別方面的進步肯定會反應到圍棋演算法上來,我想得到的第一個進步就是原來的 13 層網路還可以加深,比如加深到 26 層。這樣網路的初始勝率估計會提高几個百分點。第二個進步是針對李世石的棋譜進行強化訓練,這種方法對應於在圖像識別時就是更多訓練難以識別的圖像。這樣改進後,再考慮到人有時候會犯錯,我認為 AlphaGo 有可能贏上一盤。(註:到北京時間 3 月 12 日,AlphaGo 贏了三盤了……)
人工智慧和人類智能的區別那麼人工智慧究竟發展到什麼程度了?是不是戰勝圍棋高手就是達到了成人的水平?其實深度神經網路用的還是大數據的方法。比如要訓練一個認識貓的網路,那麼你需要成千上萬張各種各樣貓的圖片來訓練,告訴網路這樣的圖是貓。可是一個兩歲的小孩,只要見過一隻貓,就能識別出他以前根本沒看見過的動物是一隻貓。所以雖然深度學習的基礎是模仿了人類腦神經的工作方式,但是實際上兩者的工作方式應該是截然不同的,人工智慧和人類的智能還無法直接比較。
人工智慧的未來
深度學習的概念由 Hinton 等人於 2006 年提出。近幾年來在圖像和視頻理解、語音識別、自然語言處理等方面都取得了很好的進展。令我印象最深的是自動駕駛方面的應用。Google、百度等互聯網巨頭都投入巨大,並且已經在實驗中取得了很好的效果,已經在逐步商業化的過程中,未來 5 年內應該會有可行的自動駕駛汽車上市。蒸汽機、汽油機、電動機把人類從繁重的體力工作中解脫出來,而人工智慧將會把人類從低端的腦力勞動中解放出來,使人類的生活上一大台階,樂觀一點的話,五年後工業機器人大批應用,十年後各種家庭智能機器人會像電冰箱、洗衣機、空調等電器一樣成為家庭必配。
一個問題如果去掉AlphaGo的資料庫,單憑遊戲規則的學習,AlphaGo還能勝么?如果憑著資料庫里的對局資料和強大的運算能力,以時間換取勝利,和深藍又有什麼區別?
作者:pattern,授權丁香園發布深度學習演算法專家,西西河站友
投稿 wangyc@dxy.com
回復「投稿」查看具體規則
推薦閱讀:
※溥儀騎自行車在紫禁城轉悠,騎到宮門口發現宮外早已是民國
※堆糖 發現生活
※洋人一般都只靠白開水治病.....如何提前2—5年發現癌?
※怎樣盤中發現熱點