李世石連輸阿爾法??五盤，氣急敗壞地砸開了電腦，發現柯潔趴在機箱里

07-27

李世石連輸五盤，氣急敗壞地砸開了電腦，發現柯潔趴在機箱里。

這個笑話指出了一部分事實，趴在電腦里的不是柯傑，而是過去的圍棋大師們。

2016 年 1 月 28 日，Google Deepmind 在 Nature 上發文宣布其人工智慧圍棋系統 AlphaGo 歷史性的戰勝人類的職業圍棋選手，定在 2016 年 3 月份 AlphaGo 對陣李世石的比賽更是吸引了全人類的目光。AlphaGo 系統是基於人工智慧中的深度學習演算法的，我恰好也做了一些這方面的工作，覺得可以介紹一些這方面的情況。

圖像識別系統的深度學習演算法

去年（2015 年）2 月 15 日，有一條很重要但是公眾不怎麼注意的消息，微軟公布了一篇關於圖像識別的研究論文，在一項圖像識別的基準測試中，電腦系統識別能力已經超越了人類。人類在歸類資料庫 ImageNet 中的圖像時錯誤率為 5.1%，而微軟研究小組的這個深度學習系統可以達到 4.94% 的錯誤率。在去年年底的比賽中，微軟研究員何愷明、張祥雨、任少卿和孫劍組成的團隊又獲得第一，把錯誤率降到了 3.57%。這個在圖像識別系統中取得突破的演算法就是深度學習演算法。深度學習演算法是普通神經網路的更多層的深化。

神經網路

lenet5 深度神經網路用於手寫數字識別

神經網路由單個的神經元組成

這個「神經元」是一個以 x1、x2、x3 及截距 1 為輸入值的運算單元，其輸出為 h, 輸入輸出為非線性關係。微軟去年底的突破是因為發展了一種深達 152 層的網路。

AlphaGo系統如何學習下棋

AlphaGo 系統充分利用了圖像識別的成果。它把 19 * 19 的棋盤當做 19 * 19 像素的圖像來處理。 Google 團隊設計了一個 13 層的類似圖像識別的深度學習網路。利用 KGS Go 伺服器上的高手對弈樣本來學習。這樣通過學習後生成了一個策略網路，這個策略網路無需搜索就達到了 57% 的準確率。形成策略網路後，系統使用這個網路自我下棋，並使用勝利一方的棋局強化學習。通過這樣的自我強化學習，系統的準確率達到了 80%。無需任何額外的搜索，僅僅使用強化學習過的策略網路和另外一個使用蒙特卡洛的軟體 PACHI 比賽時，勝率為 85%。

使用和策略網路差不多的方法，Google 還訓練了一個評價網路來評估當前的整體局勢。這個評價網路用來給當前的棋局打分。同樣通過強化學習後，這個打分的誤差小於 0.24.

最後 AlphaGo 系統使用策略和評價網路來搜索最好的棋子落點。使用這兩個網路可以極大減少搜索的範圍，但是使用這兩個網路使得單步計算的時間比蒙特卡洛方法要長，綜合下來 AlphaGo 系統還是需要強大的計算能力。

價值網路的一個例子

（輪到黑棋下，越藍代表落點的勝率越高，數字代表勝率。）

對應策略網路的一個例子

（輪到黑棋下，數字代表建議落子在此的概率。）

AlphaGo和李世石誰會贏？

李世石觀看過 AlphaGo 和樊暉的棋局後，認為 AlphaGo 和自己有讓兩子的差距。不過和李世石比賽的 AlphaGo 應該有了很大的進步。基於網路的同質性，圖像識別方面的進步肯定會反應到圍棋演算法上來，我想得到的第一個進步就是原來的 13 層網路還可以加深，比如加深到 26 層。這樣網路的初始勝率估計會提高几個百分點。第二個進步是針對李世石的棋譜進行強化訓練，這種方法對應於在圖像識別時就是更多訓練難以識別的圖像。這樣改進後，再考慮到人有時候會犯錯，我認為 AlphaGo 有可能贏上一盤。（註：到北京時間 3 月 12 日，AlphaGo 贏了三盤了……）

人工智慧和人類智能的區別

那麼人工智慧究竟發展到什麼程度了？是不是戰勝圍棋高手就是達到了成人的水平？其實深度神經網路用的還是大數據的方法。比如要訓練一個認識貓的網路，那麼你需要成千上萬張各種各樣貓的圖片來訓練，告訴網路這樣的圖是貓。可是一個兩歲的小孩，只要見過一隻貓，就能識別出他以前根本沒看見過的動物是一隻貓。所以雖然深度學習的基礎是模仿了人類腦神經的工作方式，但是實際上兩者的工作方式應該是截然不同的，人工智慧和人類的智能還無法直接比較。

人工智慧的未來

深度學習的概念由 Hinton 等人於 2006 年提出。近幾年來在圖像和視頻理解、語音識別、自然語言處理等方面都取得了很好的進展。令我印象最深的是自動駕駛方面的應用。Google、百度等互聯網巨頭都投入巨大，並且已經在實驗中取得了很好的效果，已經在逐步商業化的過程中，未來 5 年內應該會有可行的自動駕駛汽車上市。蒸汽機、汽油機、電動機把人類從繁重的體力工作中解脫出來，而人工智慧將會把人類從低端的腦力勞動中解放出來，使人類的生活上一大台階，樂觀一點的話，五年後工業機器人大批應用，十年後各種家庭智能機器人會像電冰箱、洗衣機、空調等電器一樣成為家庭必配。

一個問題

如果去掉AlphaGo的資料庫，單憑遊戲規則的學習，AlphaGo還能勝么？如果憑著資料庫里的對局資料和強大的運算能力，以時間換取勝利，和深藍又有什麼區別？

作者：pattern，授權丁香園發布深度學習演算法專家，西西河站友

投稿 wangyc@dxy.com

回復「投稿」查看具體規則