如何評價Alpha Go Zero以及它對AI和人類的影響？

01-14

今天早上被一條重大新聞刷屏：

Nature- Mastering the game of go without human knowledge，阿爾法元超越自己的大哥-阿爾法狗。這一代演算法被deepmind命名為Alphago Zero，中文阿爾法元，「元」含有起點，創世之意。總之，就是從零開始，其實這個元字用意很深，一方面說，這個演算法是不需要人類數據指導，也不需要它哥哥（阿法狗）指導，就自己演化出來。另一方面也可以理解為它可以開啟新紀元。

當然，同時谷歌也宣傳了它的TPU，只需要4台TPU運行幾天的功夫就可以了。那麼，這次的大新聞是不是一個谷歌精心策劃的商業廣告，還是真的隱藏天機。鐵哥就來給大家解讀一下阿法元和其背後的深度強化學習，看看這次的大新聞算不算得從零到一。

如果大家了解計算機學下棋的事情，就會了解到幾十年前，我們就已經用窮舉法來解決棋類問題了，在國際象棋這類遊戲里，計算機會以比人腦快的多的速度推演兩軍對峙的未來，在運用零和遊戲里固有的減少風險策略，在1996年就可以讓人類棋手甘拜下風。

窮舉法不適用圍棋，因為跟其燦若宇宙星辰的可能性搜索空間（每一步19*19可能，若干步驟後就是天文數字，這種由於可能性爆炸導致的悲劇也稱為維度災難），被稱為人工智慧界的mission impossible。而在2015年，夢幻被粉碎，原因在於深度卷積網路的幽靈終於潛入到了棋類遊戲領域。深度學習最擅長把高維度的問題自動的降維，從而解決了剛說過的維度災難，如宇宙星辰般的搜索空間瞬間被壓榨到很小，在此時的機器演算法面前，圍棋無非是一個當年的國際象棋。

然而當時立下首要功勛的深度卷積網路，卻需要學習三千萬組人類數據進行訓練，而整個訓練過程需要的能量據說要耗費幾噸煤炭。

人們說，你秒殺人類智商的阿法狗無非是比人類看棋譜的速度快，難道還真的懂圍棋嗎？你所作的頂多是模仿，裡面的強化學習到底有多少作用，真的不知道。

然而今天，阿法元卻能夠在不用那3000萬數據的時候來個完勝阿法狗。從人工智慧的技術角度看，這是強化學習的勝利，在不進行監督學習的情況下，就可以達到一個高於人類的境地。

為什麼強化學習如此重要？讓我們先比較一下監督學習和強化學習的基本思想。監督學習，強化學習和無監督學習是機器學習的三大框架。某一個意義說，監督學習是給定輸入和輸出，機器來學習輸入和輸出的關係，一個好的監督學習演算法猶如一個預言家，它能夠根據自己之前見過的輸入輸出關係來預測未知的輸入。

強化學習呢？強化學習的三元素是狀態，行為和環境獎勵。強化學習條件下，學習者每一步看到的是它決策的行為結果，然後導致下一步行動，為了最終遊戲的勝利。一句話說：強化學習強在決策。監督學習是預言家，強化學習是決策家。

我們一比就明白，強化學習更像是一個日常決策中的人。我們看到一個老虎，監督學習幫你識別出來它是老虎，那麼你可能剛說出來就被它吃了。而強化學習告訴你趕緊跑，你可能活下來。 監督學習讓你成為復讀機，而強化學習讓你稱之為生物。

再深一點想，其實學習是為了生存，是贏得game of life（想想那些不太讀書就能過得很好生活的真是深諳強化學習的道理）。強化學習賦予機器以靈魂。監督學習的那些任務反而是在這個宗旨之下產生的。

回到圍棋，我們看看強化學習如何決策：我們在好好理解一些一下「強化」二字，強化的意味是：強化優勢經歷，反過來，就是弱化劣勢經歷。當你走了一部棋導致不好結果，之後被選入這一步棋的概率就降低，而導致勝利的選擇被不停的強化，直到你每次都延著最佳路徑前進。這聽起來很像進化，而與進化的區別是，進化是嚴酷的客觀環境對隨機變化的生物的選擇，而強化學習里的單元可以通過梯度下降主動調整策略。

既然強化學習那麼牛，為什麼阿法狗還用監督學習這個拐棍呢？一句話說，強化學習太難了！

強化學習有兩大難題：

1，獎勵時間的不確定性：今天的努力，可能明天回報，可能十年後才有回報, 今天帶來獎勵的事情，明天可能就導致悲劇（比如吸毒很爽未來地獄）對於遊戲里的每一次決策，　你都無法獲得立即的反饋，相比監督學習時時可以得到對和錯的答案，這個信息實在太弱了，用來指導學習，那是慢慢的（如何利用這個或有或無的信息，強化學習的一系列方法圍繞而來，比如Q-learn）。　

2，探索與收益的平衡難以掌握：有的人一輩子抱殘守缺，７歲玩泥巴未來就永遠玩泥巴。有的人一輩子都在探索不同的方向，但是換來換去最終庸庸碌碌。而只有恰當把握探索收益平衡的，比如說27歲前讀書去不同國家，27歲開始認準一個方向成為大佬，30歲前各種風流倜儻，30歲選個知書達理另一半從一而終。強化學習始終面臨是探索更多空間，還是開始用現在經驗收益的矛盾。　

這兩點放到圍棋這個搜索空間猶如宇宙星辰的遊戲里，估計學習時間也要用生物進化的尺度算，然而阿爾法元所用的強化學習演算法，號稱解決了這個問題。

仔細看它和它哥哥阿爾法狗的差別沒那麼大，只不過這一次的神經網路完全由強化學習訓練，和蒙特卡羅樹得融合可以算是完美。

之前的阿爾法狗有策略和估值網路（都是深度卷積網路），策略負責把棋盤現在的狀態轉化為可能的行為概率，這個東西被稱為策略（policy，是由每個可能的行為概率構成的向量，簡稱策略向量），估值則是輸入目前的棋盤狀態得到最終結果的概率。這兩個網路在這一次被合成一個巨大的深度殘差網路（卷積網路的一種）。

Nature圖：深度卷積網路計算概率

深度卷積網路擅長整體對圖像信息進行編碼，我們可以把這個巨大的殘差網路所作的事情看成白日夢者對未來的總體規劃。多層卷積本身的天性決定它擅長從這種19*19的格子圖像總結出意思來，強化學習的信息一旦可以訓練網路，就會產生意想不到的效果。而之後MCTS蒙特卡羅樹則對這種初步的結論進行實踐修正。

在這裡回顧一下蒙特卡洛樹是怎麼工作的，說到蒙特卡洛，這是大名鼎鼎的隨機抽樣方法。所謂樹，大家一定可以想到決策樹，樹的節點是某一刻的狀態，而枝杈代表一個決策（行為），而這裡的蒙特卡洛樹即生成整個決策樹的過程，通過大量的實驗（猶如蒙特卡洛抽樣的過程）得到每個決策行為取勝的概率。

決策樹從一個狀態s出發，每個分支代表一個可能行為（a），而且有一個代表最終贏率的分數與之對應，我們選擇分數最高的那個行為繼續展開（下一次行動），得到新的狀態，用相同的規則行動，直到遊戲結束，最終贏的走法加一分，輸的走法減一分，依次往複模擬無數次後，就會得到從s出發不同決策贏得比賽的概率。這個過程酷似進化選擇演算法，就是讓那些有優勢的選擇有更高的繁殖子代概率，最終勝出。雖說這僅僅是阿爾法元的一小步，卻包含了著名的Q-learning和馬爾科夫決策樹的思想。

我們來看每一步決策神經網路和蒙特卡洛樹是怎麼結合的： 決策分為搜索階段和行為階段。假定現在我處在狀態s，在搜索階段神經網路對我所能做的所有行為（a）進行根據對未來的猜測進行預判，生成贏棋的概率v和策略向量p（s，a）。當然這個預判開始很不靠譜，蒙特卡洛樹在此基礎通過無數次模擬實踐展開來（注意均是在狀態s上），來實踐出靠譜的策略向量pi（s，a）。

有了神經網路的幫助，蒙特卡羅樹展開不是瞎展開，也不是從零開始，每一個樹的新分支上，我們都通過神經網路給它一個是正確步驟的先驗概率（P）和初始的贏率（V），代表走它通向勝利的概率。在神經網路助攻下，蒙特卡洛樹可以更快的更新策略向量（每個行為選擇的概率）。此時搜索階段結束，我們從這個策略向量里通過抽樣得到我們最終進行的行為，是為行為階段。這下一步棋還真不容易啊！

Nature圖：策略更新的方法

最終當遊戲結束的時候，神經網路的權重開始更新，這個更新的過程里，我們把整個遊戲的過程分成很多小段，比較神經網路預測的概率和蒙特卡洛樹算出來的（策略向量之間的差異），以及預測結果與最終結果的差距進行梯度下降（梯度由如下公式得到，此處混合之前的策略和估值網路）。

這樣周而復始，我們可以推斷，最終神經網路的預測將越來越靠譜，和蒙特卡洛樹給出的分析越來越一致。而圍棋的套路也會被一一發明出來，所謂無師自通。

Nature圖：看看右下的圖，是不是很像人類選手常用的招！

為什麼說阿爾法元敢叫元？如果從技術角度看，這一次的阿爾法元沒有那麼多新的東西，而是在之前基礎上讓強化學習進行的更徹底了，然而它所展示的深度強化學習的應用未來，卻是十分誘人的。

圖：強化學習的勝利（藍）對比監督學習（紫）和監督+強化學習（虛線）

首先，我們看到，並不是每一件機器學習的事情，都需要和數據，尤其是需要大量人力的標註數據死磕，而是可以通過恰當的設立模擬器（比如此處用到的蒙卡樹）來彌補。阿爾法元不是不需要數據，而是數據都是自己模擬產生的。模擬+深度強化學習， 在簡單的遊戲規則下，一些複雜的行為範式可以進化出來，而且可以比人類設計的還好，這，你就可以大開腦洞了。

這件事在很多設計性的工作里實在是太誘人了。無論是設計新材料，建築，還是衣服，這些可變維度很高的事物，你都可以想像設立一個模擬模擬環境，再設立一個相應的神經網路去做各種嘗試，最終設計出的結果有一個獎懲函數反饋，來讓這個網路來學習。這就打破了深度學習創業只和手裡有大量數據的壟斷者相關的夢魘。

這裡的深度強化技術，也才只展示了冰山一角，在一類被稱為SLAM的技術上，深度強化學習被證明了強大的控制能力，它能夠驅動機器人在非常複雜的空間里進行探索無需GPS，對於這一類深度學習任務，有別於alphago的任務，因為圍棋屬於完全信息的博弈，而真正的空間探索，是通過感知系統探測到的不完全信息，通過記憶在時間尺度上的綜合，這一點，只有搬出大名鼎鼎的LSTM來對付了。

能夠控制運動的深度強化學習，遲早會改變工業界，它不僅是無人車裡的核心技術，更是對話，推薦系統，金融交易，甚至是圖像識別的利器，幾乎各類需要監督學習的事情，說到底強化學習都有實力。你如果製造一個聊天機器人，你當然希望它能夠揣測你的意圖和你談情說愛而不是背書。你要一個推薦系統，你當然不需要它天天給你推你剛看過的小黃片，而是帶著你探索一段BBC-性的秘密。所以，強化學習，是人工智慧的大勢所趨啊。

更有甚者，我們可以設立一個具有類似地球的物理環境的地方，讓配備了深度強化學習系統的虛擬生物進行各種活動，看它們能否利用這個環境發現和利用其中的物理定律。

歡迎關注巡洋艦的深度學習課程，深度強化學習將是重點：巡洋艦新年深度學習訓練營計劃，這麼課程，將真正帶你手把手的領略深度強化學習的魅力，看你能不能自己動手設計個阿爾法元

如果說 Alpha Go 使得機器在圍棋上超越人類是 0 到 1 的突破，那麼 Alpha Go Zero 至多能算是 1 到 1.5 的改進而已，不算什麼人工智慧的突破。

Alpha Go Zero 優於以前版本主要是由於網路架構不同造成的（詳見《自然》雜誌原文：Mastering the game of Go without human knowledge)

Alpha Go Zero 使用了殘差網路 ResNet，而以前版本只是用了卷積網路 CNN。殘差網路大大降低了對結果估計的誤差，提高了精度和棋力（提高 600 Elo），提高了收斂速度和穩定性。
Alpha Go Zero 對於對策 ( policy，即下一步走哪裡 ) 和價值 (value) 是聯合估計，而以前版本是分兩步估計。做過優化的都知道，聯合估計如果可行的話，一般會得到更優的解。這裡也一樣，聯合估計雖然稍微降低了對下一步預測的精度，但是進一步減少對結局估計的誤差，並進一步大幅提高棋力 (another 600 Elo)

再加上其他一些技術細節（如 Monte Carlo Tree Search INSIDE training loop 等等) 使得運算速度上更加優化，所需樣本大大減少。所以 Alpha Go Zero 可以在很短時間內完成訓練，並可以單機運行（打敗柯潔和所有人類選手的 Alpha Go Master 也可以單機運行。但是再往前打敗李世乭的 Alpha Go Lee, 和打敗樊麾的 Alpha Go Fan 都要多機器分散式運行）。

至於 Alpha Go Zero 沒有使用人類的定式，在我看來倒是其次的。因為人類的定式也不是神仙給的鐵律，也不過是前人對弈總結出來的，跟機器自己對弈總結沒有區別。以前版本的 Alpha Go 在訓練 Policy Network 的時候要從人類定式開始，主要是因為當時的演算法運算量太大，所以要用人類的定式作為出發點。現在通過更優秀的網路結構使得計算能力更強，人類定式反而成了限制，去掉後棋力提高是理所應當的。

另外關於強化學習（reinforced learning），以前版本主要是在對策網路上進行，現在由於對策和價值合併在一個網路里，所以 Alpha Go Zero 全網路的加強學習也不算什麼新東西。

值得指出的是，殘差網路在圍棋上的應用，Alpha Go 並不是首創（見原文的第 33 參考文獻Cazenave 2017），對策（policy）和價值（value）網路聯合優化也不是 Alpha Go 首創的，無需人類專家輸入的機器自學就更是早就有了。但是只有 Alpha Go 團隊能快速地把它們有機、有效地結合到一起。

還是那句話，"The devil is in the detail" （真正的困難在細節上）。為 Alpha Go 團隊的傑出貢獻致敬！

人類一直都生活在認同自己就是一個頭腦+一個身體的模式，而現在人工智慧的出現，只是直觀印證了物質與精神都是可以以數據形式被複製取代的，人難道就僅僅是物質精神組合嗎？人類早已忘失了自己同樣是造物主的真正價值，而這個人工智慧時代的來臨會逼迫那些趨於絕望的人走到覺醒的邊緣！找到自己真正是誰！

人工智慧時代的來臨是一個偉大的契機，人的虛妄之夢將被擊碎，人將發現他們花了巨大精力時間囤積的知識經驗記憶都是無意義的，一轉眼就被機器超越，他們自以為是的優越感也將在機器面前一敗塗地！除非他們看到頭腦這個存儲設備的局限性和狹隘性，除非他們看到所有的共識觀念僅僅是觀念而沒有真正實質，除非他們看到知識的無用，除非他們不再把自己當成一個被局限在身心裡的有形生命體看待，否則他們不可能清除這些無用的障礙而獲得宇宙的智慧，回到產生萬物的源頭，融入其中親證永恆～能被機器超越的都是虛假，真實從來不會被超越，也無可取代～

人工智慧的機器可以做加法但不會做減法，它擅長不斷的收集數據並歸類提煉，但它無法做減法，如果把所有數據信息都刪除，它就報廢成了一堆廢鐵。但人不同，當人有意識的把頭腦裡面的所有信息觀念知識都丟棄，結果恰恰不是報廢，而是排除了一切虛假的阻礙，而看到自身的實相，看到自己從來就不是頭腦身體，頭腦產生的所有信息念頭都無法反過來對真正的我有任何影響和傷害，頭腦僅僅是我的能量幻化的一種工具，投射出一個世界的輪廓。

工業革命把人從繁重的體力勞動中解放出來，人從此轉入了腦力勞動，而人工智慧時代將會把人從腦力勞動和知識囤積中解放出來，人將走上開發智慧的道路!

很高興看到越來越多的人，已經開始往這條通往智慧，了解自身真相的道路上前行了，智者們的教導將帶領人類超越人工智慧時代，達到人類文明的又一個頂峰，就像2500年前佛爺爺所處的智慧時代，未來也會有越來越多的人覺醒，而成為智者！

方法上簡單明了引入了近期的一些其他paper提出的成果類似的Residual 結構以及 policy和value預測share大部分參數

結果上超過大部分人的常識吧畢竟至少是無人類label監督了

但是如果人類並不如自己想像的那樣擅長圍棋那這個結果也不那麼難以接受畢竟這麼多年下來人也沒下過機器自己模擬的那麼多局比賽不是？

關鍵在於還有哪些領域是人類自認為擅長但是事實上很弱的呢我相信有這個認知的哥們已經在動手準備搞大新聞了

在經過幾十天自己與自己的對弈（no human intervention, no historical data）後，這個系統從零開始學會了下圍棋（70Hrs at Super-Human level），並超越了人類數千年在這個領域積累的知識、經驗、技巧與智慧。#Deepmind

奇技淫巧不可取，有時間多看看黨代會

指數爆炸奇點臨近

翻看了新論文，說實話，辭藻很華麗但沒有太大的新意，簡要來說就是「演算法再次優化」。

拿alpha go和alpha Zero來說。必須由人類製造和調試承載程序的硬體、必須由人類預先計劃和設定程序具體的任務、必須由人類規劃和優化具體演算法寫出植入代碼、必須由人類操作調試硬體和軟體運行和停止······這不就是大號的計算器么？

你拿一個筆記本電腦計算百萬位的除法，肯定會比你自己心算百萬位的除法要快得多。你能說那是「Intelligence」（智慧、智能、智力）？跟人類「比賽」圍棋的alpha go或alpha Zero、你計算百萬位的除法的筆記本電腦，這二者有什麼本質上的區別么？沒有。

自主的本體、自主的意識、自主的思維、自主的交流、自主的創造——這才是AI。否則只是「人類依照人類的需求利用已有且已被人類發現的宇宙規則和物質創造出來的執行特定任務的工具。」

當然，這並不代表沒有意義，相反，演算法和計算力的優化，對於人類生產力進步有巨大的幫助，就像人類從刀耕火種發展到機械化耕地一樣。

如果說之前的alpha go是讓人有擔心有期盼，現在的alpha go zero則是狠狠地把人類藐視一番。幾千年來的積累和發展，不敵AI瞬間的參悟。

人類高高建起的大廈，我們引以為傲的殿堂，會不會在AI面前如同小學生課本一樣。如果AI有被添加情感的話，我都可以聽到它冷笑說道，廢物，幾千年來你們才搞懂這麼一些東西。到那時候，人類將整體體會到學渣被學神秒殺的那種恐懼。

唯一的出路，就是以AI為師。不過學渣可以拼盡全力成為學霸，卻無論如何都不肯能通過努力成為學神。我們可能只能遠遠地在AI身後追趕著了。到時候，人類會是被奴役，還是被供養，抑或是被清除呢？

go、zero、master

人類及AI圍棋將在fate的帶領之下產生新的革命。

聖杯將會實現人類願望，找到圍棋的最優解。

圍棋這項競技還有存在的必要嗎…