如何評價AlphaGo Zero?

https://deepmind.com/blog/alphago-zero-learning-scratch/

https://www.nature.com/nature/journal/v550/n7676/pdf/nature24270.pdf

AlphaGo Zero 以 100:0 擊敗了此前版本的AlphaGo,通過純強化學習的方法自我完善達到目的,不使用人類知識掌握圍棋。


證明了在某些領域訓練AI AGENT的過程中,模型的價值超過了訓練數據(先驗知識)。如果這種模型可以運用到其他領域,可以期望AI AGENT會產生超過人類現有知識積累的新的創造性的知識。

摘自DeepMind原博客(https://deepmind.com/blog/alphago-zero-learning-scratch/):

This technique is more powerful than previous versions of AlphaGo because it is no longer constrained by the limits of human knowledge. Instead, it is able to learn tabula rasa from the strongest player in the world: AlphaGo itself.


先佔個位子。回答進行中。

下載論文後迅速發現:

0.1 這篇論文有三位共同一作。除了之前的 David Silver 還有 Julian Schrittwieser 和 Karen Simonyan 也是共同一作。

0.2 Aja Huang (黃士傑), 第一篇 AlphaGo Nature 論文的共同一作,這次成了第五作者 (本論文共17位作者)。

0.3 Fan Hui (樊麾職業二段) 成為了本文的共同作者,創造了歷史。成為了世界上第一位在 Nature 雜誌發表論文的職業棋手。恭喜樊麾老師成功跨界職業圍棋和深度學習兩個領域,成為圍棋領域論文影響因子最高的職業棋手,同時也超越黃博士,成為了深度學習研究領域圍棋棋力最高的科研工作者。

0.4 論文認為 AlphaGo Fan 等級分約為 3,144 . AlphaGo Lee 等級分約為 3,739 . AlphaGo Master 等級分約為 4,858, AlphaGo Zero 等級分約為 5,185。柯潔今天的等級分為 3,664 。柯潔和AlphaGo Lee 之間等級分差距為 75 分,同柯潔和朴廷桓之間的差距相當。如果等級分估計準確的話,柯潔的確有機會在番棋中贏 AlphaGo Lee. 而 AlphaGo Zero/AlhpaGo Master 應該有讓柯潔兩子的實力。

---------分割線--------

已經仔細讀完論文,感覺非常震撼。下面是個人解讀,預計分三部分:技術細節, 整體感想,機(bu)會(zu)與未來展望,周末前完成。在知乎上寫回答評論學術論文有些行為藝術,因此這會是我的第一次也是最後一次。

技術細節

1.1 AlphaGo 版本間的區別。本論文除了介紹 AlphaGo Zero 的實現外,還粗略描述了另外兩個進入公眾視野的 AlphaGo 版本:AlphaGo Lee 和 AlphaGo Master 的實現細節。

AlphaGo Fan: 就是Nature 2016 論文描述的版本,5:0 勝樊麾。國內絕藝等圍棋 AI 都是基於 AlphaGo Fan 架構。

AlphaGo Lee: 這個4:1勝李世石的版本相較 AlphaGo Fan 等級分大約提高了 600 分。和 AlphaGo Fan (Nature 2016) 相比,改進有以下幾點: a) 自我對弈時走子同時打開 Policy Network 和 Value Network (AlphaGo Fan 自我對弈時走子只用 Policy Network); b) Policy network 和 Value Network 規模更大了,同時網路訓練由分散式 GPU 升級為分散式 TPU

AlphaGo Master: 這個版本相較 AlphaGo Lee 等級分提升了大約 1100 分。 年初網上快棋60:0贏了中日韓頂尖職業棋手,Master 微調版今年5月 3:0 勝柯潔。AlphaGo Master 和 AlphaGo Lee 相比, 主要改動有三項 a) 合併了 Policy Network 和 Value Network; b) 用 ResNet 替換了 CovNet; c) 強化學習訓練演算法從 Policy Gradient 改為 Policy Iteration.

AlphaGo Zero: 這個版本相較 AlphaGo Master 等級分又提升了大約 330 分。 330 分相當於柯潔和胡耀宇間的差距。 AlphaGo Zero 和 AlphaGo Master 相比,主要改動有兩處: 1) 直接使用棋子位置做神經網路輸入(下面會進一步敘述),不再使用人工特徵 (AlphaGo Lee/Master/Fan 用過的人工特徵包括: 當前位置是否是征子/引征, 當前位置吃子/被吃子數目, 本塊棋的氣數等); 2) 初始訓練時不再使用人類棋譜做有監督學習,而是直接從基於圍棋規則的隨機下法開始強化學習。

AlphaGo Raw Network: 除了上述版本外, DeepMind 還實驗了一個 Raw Network 版本,也就是直接用 AlphaGo Zero 訓練出來的 二合一網路走子,不做 MTCS 搜索。這個版本相當於人類棋手下多面打指導棋,僅憑棋感,不做計算時的行棋策略 (或者相當於老年職業棋手完全喪失計算力時的下棋方式?)。AlphaGo Raw Network 棋力大約為 3055 . 作為參考,女職業棋手范蔚菁的等級分正好是 3055.

1.2 棋力增強的原因。作者在本文中經常拿AlphaGo Zero 和 AlphaGo Lee 做對比,一個最形象的例子是 AlphaGo Zero 訓練 72 小時後,可以 100:0 打敗 AlphaGo Lee (注意:此時的 AlphaGo Zero 棋力遠低於 AlphaGo Master. AlphaGo Zero 需要訓練大約30天才能超越 AlphaGo Master). 具體的說,棋力增強主要來源有以下四點: a) 使用ResNet 替換原來的 ConvNet, 根據論文 Figure 4.a 使用 ResNet 帶來了大約 600 分的提高; b) 合併 Policy Network Value network 根據論文 Figure 4.a 這個改動也帶來了大約 600分的提高; c) Reinforcement Learning 訓練演算法的改進 (Policy Gradient -&> Policy Iteration)。論文並沒有量化這一改動的影響。但個人認為這裡的改動很可能導致的在不動用大量計算資源的情況下更穩定的收斂速度和更好的克服遺忘性能; d) 取消人類棋譜知識和人工特徵。論文暗示(但沒有提供詳細證據) 等級分為 4,858 AlphaGo Master 已經達到了訓練瓶頸(Figure 6 中用一條直線表示),而刪除基於人類棋譜的監督學習過程和刪除人工特徵得以使 AlphaGo Zero 的訓練上限更高。可以在訓練30天後超越 AlphaGo Master, 在訓練40天後超越 AlphaGo Master 300 分。

1.3 特徵提取。儘管作者在論文中宣稱使用原始棋盤信息做特徵 "The input features describing the position are structured as a 19x19 image; that is, the neural network architecture is matched to the grid-structure of the board." ,AlphaGo Zero 的特徵提取還是有一定技巧的。AlphaGo Zero 提取了 17 個通道的 19x19二值圖像作為特徵輸入進神經網形狀形狀絡。 其中有八個通道是當前黑棋形狀加上之前七步黑棋形狀。還有八個通道是當前白棋加上之前七步白棋形狀。第17個通道表示當前行棋方,如果輪黑方行棋,整個 19x19 通道的取值就是 1, 如果輪白方行棋,整個 19x19通道的取值就是 0. 上述取值方式有兩點有趣之處: a) 在提取特徵中黑棋和白棋存在與不同平面上,神經網路對黑棋或白棋棋形分別做 2d 卷積。卷積神經網路並不把黑棋和白棋簡單看作兩種顏色直接在一個平面里卷積; b) 提取出的特徵包含了當前棋盤和之前15手棋盤的內容 (相當於是一個寬度為16的在時間維度上的滑動窗),這是一種比較典型的用 CNN 處理時序信號的方法。之前 DeepMind 用RL玩 Atari 遊戲也用了類似的方法。因為打劫/禁止同型等規則要求, 作者認為需要提供歷史行棋特徵來確定下一手。疑惑:文中說使用第17個平面是因為貼目 (Komi) 規則下無法通過當前棋盤上的棋子和提走的棋子確定下一手的行棋方。莫非這是作者的筆誤?此處 Komi (貼目) 應為 handicap (讓子)邏輯上才解釋得通?

1.4 強化學習。這裡可能是本文最令人震驚的部分了。套用近期一句流行語,此處訓練演算法和訓練過程完全可以用 "the unreasonable effectiveness of reinforcement learning" 來形容 (意譯: 訓練效果好到難以置信)。即使對於圍棋這樣的完全信息博弈遊戲,AlphaGo Zero 的強化學習訓練能以如此效率,如此速度收斂,實在是難以置信。演算法部分在 1.1 - 1.3 小結中已有簡略敘述,這裡補充一些細節:a) AlphaGo Zero 在三天訓練中產生了近五百萬局對局 (4.9 million), 考慮到除了圍棋規則外,每局自我對局僅含 1比特的勝負關係信息用於強化學習 (獲勝目數並不產生額外獎勵). 考慮到不同對局間的走法的冗餘, 所有近五萬局對局的勝負關係所包含的總信息量不超過 (4,900,000 / 8 bits) / 1024 bytes = 598 kb 。 也就是說 AlphaGo Zero 三天所學到的總圍棋知識量上限不超過 600kb,即使這樣已經可以吊打人類幾百年,甚至上千年總結下來的圍棋知識了 :-( ; b) 如論文 Figure 3.b 和 Figure 3.c 所示, 強化學習演算法可以預測人類棋手的下一步棋,隨著訓練時間的增長,預測準確度也會提高,但準確率始終比監督學習版本低 2-3個百分點。與此同時,強化學習對人類對局結果的預測準確率卻可以迅速超越有監督學習演算法。 這裡作者把上述現象當做人類知識可能會拖軟體演算法後腿的一個旁證。註:這裡 Figure 3.b 和 Figure 3.c 的結果和 2016年第一篇 AlphaGo Nature 論文里的 Figure 2.a Figure 2.b 略有出入 (預測準確度 vs 勝率,2016 年初代 AlphaGo 彙報的 MSE 甚至更低 )。 這些不一致很可能是實驗設置不完全相同造成的,作者本應對此做適當的討論; c) 論文附錄中提到,MCTS 的參數是用 Gaussian process optimization 優化的。大膽猜測:此處的 Gaussian process optimization 應該是指在 ACM KDD 2017 上發表的 Google Vizier ( Google Vizier ), 因為 Vizer 發表於 2017 年 8月,因此在 AlphaGo Zero 論文4月初投稿時無法直接引用。

整體感想

2.1 簡潔之美。整篇論文讀完非常震撼。整個系統和2016年的 AlphaGo Fan 相比,更簡潔,更優雅,計算量更小,同時棋力更高了。如果說 2016 年的 AlphaGo Fan 論文展示了Google DeepMind 團隊超強的工程能力和執行能力, 那麼這次的 AlphaGo Zero 論文就體現了Google DeepMind 團隊的科學素養和研究品味。依照論文描述,這次 AlphaGo Zero 軟體實現複雜度和硬體資源需求都大幅降低,被第三方重現,甚至是大學實驗室或個人重現的難度將大大降低。這篇論文雖然沒有第三次上 Nature封面 (之前DeepMind 用 RL 玩 Atari 遊戲,AlphaGo Fan 都上了封面),但我覺得這篇文章會是三篇中歷史地位最高的。

2.2 到底發生了什麼?因為系統設計簡潔到不可思議,效果好到不可思議,接下來的一個重要問題就是:效果為什麼這麼好? 這究竟是說明了: a) 強化學習巨大的潛力; b) 圍棋這個問題似難實易; 還是 c) 卷積神經網路+強化學習這套方案恰好完美契合圍棋這類開放問題? 個人愚見,通過後續研究發現 AlphaGo Zero 方案有效性的本質原因會給相關領域的理論水平和工程實踐水平帶來一次飛躍。

2.3 從特徵工程(Feature Engineering) 到數據工程/數據增強( Data Engineering/Data Augmentation) 再到採樣工程 (Sampling Engineering)。傳統人工智慧系統的性能並非取決於分類器設計,而主要取決於數據預處理,特徵提取和特徵設計。到了深度學習時代,大數據採集,數據增強(根據某些先驗知識對數據進行變化,以增加數據的數量和多樣性)成了演算法設計師和系統工程師的日常。能否借鑒 AlphaGo Zero 的思想,不直接做 Data Augmentation, 而是對目標系統做部分或全部建模,然後在龐大的模型空間中通過特定採樣演算法進行採樣?AlphaGo Zero 證明了如果採樣演算法合理,即使只採樣了模型空間的一個天文數字分之一的子集,也能很好描述問題領域。考慮到 No Free Lunch Theorem, 我們很可能需要根據問題的領域特性設計合適的 Domain Specific Sampling Strategies and Algorithms.

2.4 AlphaGo Zero 離圍棋之神有多遠?個人認為, AlphaGo Zero 離圍棋之神依然很遙遠。兩個理由:a) 儘管 AlphaGo Zero 對 AlphaGo Master 的勝率接近 90%, AlphaGo Master 依然可以執黑勝 AlphaGo Zero. 而根據人類棋手和 AlphaGo 的共識,在當前中國規則下執白是有不到一目的優勢的。即使對等級分低於自己300分的下手 AlphaGo Master, AlphaGo Zero 依然無法做到把不到一目的執白優勢保持到終局;b) AlphaGo Zero 最終形態自我對弈時執白勝率約為 70% , 也間接說明了 AlphaGo Zero 在和水平接近的對手下棋時,有大約30%的概率無法將不到一目的優勢從開局保持到終局。 個人大膽猜測:高水平圍棋軟體基於中國規則自我對弈時的執白勝率可以間接反映和圍棋上帝的接近程度。接近圍棋上帝的軟體自我對弈時執白勝率應無限接近 100%

2.5 海外人才引進。在感想 0.3 中略微調侃了一下 Nature 作者樊麾職業二段。如果下個月某著名高校傳來消息,破格將樊麾為做為海外傑出學者引進為該校人工智慧方向講席教授,學術帶頭人,長江學者+青年千人,理由是樊麾二段在 AlphaGo Zero 項目中的「里程碑式貢獻」,媒體報道和自然雜誌論文。大家會作何感想?不要覺得荒唐,在過去十幾年,不少高校對外宣傳重金引進了 David Silver 式的領軍人物,實際上引進的是類似樊麾的著名項目的參與者。此處水很深,不能細說。

機(bu)會(zu)與未來展望

誇獎完後,再談一談我的顧慮和對未來的展望。我把預言(馬前炮)放在這裡,希望儘快看到被證實或證偽的一天。

3.1 學習效果。AlphaGo Zero, 或者說卷積神經網路,是否真的可以在任何場景,靈活運用學到的圍棋知識? 例如 AlphaGo Zero 學會了征子/引征/打吃的知識,是否代表 AlphaGo Zero 可以在任何場景發現引證/打吃?本人對此略感悲觀,理由有兩個: a) 即使讓神經網路通過大量例子學習簡單的除法求餘數規則,也不能保證訓練出的網路可以正確處理任何未知數字。請參考 Fizz Buzz in Tensorflow 作為上述觀點的一個具體證據。 要做到真正的觸類旁通,人類學習過程中有一個歸納-&> 升華為定律 -&> 推理/演繹的過程。目前沒有證據證明卷積神經網路支持基於公理/定理的嚴格邏輯推理/演繹。在網上60:0 大勝職業棋手,3:0 勝柯潔的 AlphaGo Master 不存在上述問題,因為 AlphaGo Master 是直接通過手寫演算法判斷征子,吃子,緊氣等概念的。哪怕 AlphaGo Zero 可以通過強化學習發現 99%以上的征子,吃子,一次漏看也會導致棋局瞬間崩潰。同時,4百萬盤自我對局裡不一定存在足夠多的執白模仿棋,如果沒有人工知識或邏輯推演模塊,出於貼目壓力, AlphaGo Zero 也許不能有效應對執白模仿棋; b) AlphaGo Master 烏鎮聯棋和 AlphaGo Master/Zero 對弈棋局都表明當 AlphaGo 自我判斷出於下風棋時,有可能進入"瘋狗模式「。即走出一些明顯是打將的損棋,期待對手漏看。 不難想像,如果進入瘋狗模式的 AlphaGo 認為對手會漏看,基於概率行棋的另一隻狗很有可能真的會漏看。

3.2 其它領域。一個直接後續工作: 能否使用 AlphaGo Zero 的訓練框架,提高現有國際象棋軟體的棋力? 自二十年前深藍戰勝卡斯帕羅夫後,國象軟體已經有了長足進步,現在很多手機上的國象軟體(如 Pocket Fritz),已經有了國際特技大師的棋力。但現有的國象軟體,都是基於開局庫+終局庫+人工局面評估函數+Alpha–beta 剪枝方案。 能否不引入象棋規則外的任何人類知識 (開局庫, 人工局面評估函數), 從零開始訓練出一個最強的國象軟體?儘管國際象棋的狀態空間遠小於圍棋,但國象存在大量和棋,大量和棋是否會導致演算法收斂於低水平和棋而無法進步?AlphaGo Zero 的思想,有推廣潛力的話,會刺激基於建模環境和採樣生成訓練樣本的方案作為有監督學習的補充. (未完待續)

3.3 對圍棋和圍棋棋手的影響。 誰會是第一位使用圍棋軟體作弊被抓獲的職業棋手? 國際象棋,中國象棋領域都有職業棋手在正式比賽中使用軟體作弊被抓的記錄,我相信只要有利益,就會有人鋌而走險。誰會是第一位受益於高水平圍棋軟體的職業圍棋棋手?高水平軟體很可能改變職業棋手的對局方式:a) 職業棋手利用圍棋軟體提升自己的大局觀和計算力; b) 職業棋手藉助圍棋軟體大規模發現"飛刀"在比賽時使用。圍棋對局很可能會演變成線下飛刀發現能力的比拼。少數極為成功的棋手也許會有私人的圍棋軟體定製開發團隊; c) 圍棋軟體還會改變兒童的學棋方式。也許在未來,去北京加入圍棋道場不再是有天賦圍棋兒童入段的唯一方式。


看了paper,有一些簡單的想法,歡迎指正和討論。

老版AlphaGO的設計比AlphaGO zero要複雜得多,先是supervised學習了人類的對局,之後還有3個演算法來走棋和評估:Policy, Rollout和Value。

在AlphaGO之前有個叫CrazyStone的圍棋軟體用的是純自學習的演算法,戰鬥力只是業餘棋手水平,於是我一直以為AlphaGO的能力是基於這些精巧的engineering和通過supervised學習人類知識來縮小搜索空間。

然後。。。就被這個新研究來了一巴掌。。。刪掉了我心中「精巧的engineering」,訓練方式和CrazyStone幾乎一樣,連Simulation都用的是和它差不多的upper confidence bound公式

我覺得這篇論文最大的貢獻是:說明了AlphaGO比CrazyStone強很可能是歸功於

1 10年來計算速度的提高

2 當面對一個搜索空間巨大的決策問題時,神經網路能比一個真?蒙特卡洛搜索樹(CrazyStone的演算法)更好的表示一個蒙特卡洛搜索樹(可能是node之間dependent,用一個真樹有太多無用的parameter)


論文異常的簡單。

把CNN換成ResNet, 把倆網路換成一個網路接兩個頭

搞機器學習的都應該想得到。

唯一瓶頸就是一次實驗要拿一個伺服器訓練3天才能取得結果。

我很疑惑為啥騰訊也投了不少資源,卻沒想到這個。

更點圍棋角度的分析吧

master之前無論是對柯潔還是自戰,都幾乎沒有弱點。但是在zero面前感覺弱點還是很明顯的。

全100局比分貌似是11-89,前20局master 黑 1-9, master 白 2-8,所以zero拿白棋也是會輸比自己低300分的ai的,並非全然沒有弱點。

第一盤master就狂找損劫打連環劫……不知道是判斷自己必敗了還是本來就不怎麼認識連環劫……


眾神已經說的差不多了,所以被邀請時沒敢上來說話,補充幾點小小的感想:

1. zero是resnet的一個應用,resnet中國人發明的,這點給了中國人更大的信心。

2. 這一版結構反而更簡單,眾人都被耍了,之前騰訊的絕藝抄完兩個網路的結構,這回估計要改回抄一個網路的結構了。

3. 有人說這個結構好簡單初學者都能想出來,再次賦予了深度學習更大的想像空間,也給了聰明人們一個機會,它昭示著:只要你足夠聰明,也許不一定太複雜的結構也可以挑戰極難的課題。


仔細看了後更新一下,歡迎指正。

  1. 有人說主要創新點在於合併了網路和使用resnet,這點我完全不贊同,這只是大家近兩年都在做的事。作用只能刷出更高的點,不足以帶來質變。
  2. 用在圍棋上的強化學習演算法有明顯創新。前一個版本中,強化學習部分用的是policy gradient來加強policy network。這個版本已經不提policy gradient,而是policy iteration。它是一個policy/value network,利用與MCTS搜索出的概率相似度和勝負作為loss。MCTS中,居然捨棄了rollout policy,依靠網路輸出的概率來做rollout,完全不利用任何domain knowledge。這雖然與deep learning理念很相符,但能訓出來很不容易。

原答案:

睡前掃了一眼,印象最深的是在強化學習中把MCTS分布結果也作為網路的target,不再僅僅用勝負。這樣一局下來信號極豐富。

在前一個版本中,為了迎合傳統policy gradient演算法,加mcts是不合理的而且很慢,於是純用網路來自我對弈,再根據勝負結果更新網路。這樣reward就非常稀疏。

至於合併上一版本的兩個網路以及利用殘差網路,這都是情理之中吧。


有意思,所有評論都在講網路如何設計了啊,resnet怎麼調整了啊。。。

你們沒驚訝過訓練速度?paper裡面提到了用到多少gpu和整個分布訓練架構。。。從零開始訓練的想法又不是沒有過,都是覺得訓練量太大無法快速驗證效果而放棄

網路怎麼調一定有其道理,如何在工程上配合實現,把分散式體系發揮最大作用並能快速驗證猜想,我認為其意義遠大於分離價值or策略網路。

神經網路是鍊金術,可是很多人迷醉於煉金師產出的丹藥,驚嘆其天才配方,卻無視煉金師設計了高效的火爐用於方便快速試錯。

我重視那台火爐的設計,而不是丹藥配方。


看了一下paper,我覺得最厲害的就是把MCTS和reinforcement learning巧妙的結合起來,通過MCTS解決了reinforcement learning的exploration問題,大幅度提升了訓練速度還有效果。

對於結果我表示真的太神奇,效果好爆炸!


一方面,這當然是很大的一個進步,因為與以往的棋類程序不同,不再需要輸入大量棋譜或人工定義的策略,完全由機器從零開始,僅依據規則就學成了超級大師,確實是個突破。

另一方面,也要看到,這並不說明機器真的具備了自學達到人類的普遍智能的程度。而且還遠不到慶祝歡呼這一點的時候。這是因為圍棋作為一種人工定義的遊戲有著確定的、機器可表示、可理解的遊戲規則,機器可以利用遊戲規則判別勝負、評估形勢,從而實現對數據的內部標註,然後基於標註數據進行學習。而對於大多數的感知和語義理解任務來說,不存在這樣明確的規則,機器只能依賴於人的標註來學習。對海量標註數據的依賴是當前人工智慧演算法的最大挑戰之一,而alphaGo zero目前來看很難說為這一問題的突破指明了道路。


我在想,這算GAN的思想又一個應用?


2017 天網元年

3小時,零在亂下。

 10小時,發現簡單定式。

 16小時,發現小雪崩定式。

 19小時,發現死活、厚勢與實地的邏輯。

 24小時,發現小目一間高掛定式。

 36小時,也就是超越李世石版的時候,發現星位一間夾點角定式。

 55小時,發現非人類定式。

 72小時,出關。


被微信朋友圈給刷屏了,圍觀群眾們紛紛驚呼AI要逆天了,「AI不再需要人類指導即可超越人類」之類的言論甚囂塵上。但我倒覺得,從 AI 的技術層面來講,深度強化學習達到這個成果是可以預期的,雖然文章一再強調AlphaGo Zero沒有使用人類標註,但其實給定了最重要的標註——人類給定的圍棋規則(最重要的是結果輸贏的判定方法,這就是機器學習中的label。這也是AlphaGo的技術很難推廣到其他領域的原因。如果不告訴機器某張照片是狗,它就算左右互搏一萬年,也不可能參透這就是狗。

——————————————

- 老師,怎麼練好英語聽力呀?

- 每天都聽就好啦!

- 可是我每天都聽我家狗叫,20年了也沒聽懂它在說什麼。

——————————————

好像評論有點偏,補充一下。在這裡,我絲毫沒有貶低甚至質疑AlphaGo及其團隊的意思。我的回答僅僅針對朋友圈裡廣為流傳甚至讓人驚恐的 「人工智慧威脅論」AlphaGo Zero的出世是否意味著機器具備了無需人類指導的自我學習能力?

機器學習可以分為 監督學習 無監督學習,監督學習需要給定數據的標註(label),無監督學習的目的則是在不給定標註的情況下由機器自己進行學習。在圍棋遊戲中,每一步棋的走法是 演算法的輸入數據或者特徵(features),最終的輸贏判定是數據標籤(label)。無監督學習是未來機器學習的方向,而圍棋因為有著明確的輸贏規則(也即數據標籤),因此屬於監督學習領域。監督學習的目的是讓演算法能夠按照人類的認知運行,產生符合人類知識體系的結果。有同學提到,如果不給演算法以標註,也許AlphaGo能夠創建出一套自己的遊戲規則,但那還是圍棋嗎?棋和狗的定義都是人給的,因為AI演算法是由人創造的,也是為人類服務的。如果超出了人類的定義,那這樣的AI也就沒有意義了。

AlphaGo Zero並不是說沒有意義,相反意義很大。機器學習不僅需要數據標註,更需要訓練數據(training data),特別是在深度學習時代,更是需要海量的訓練數據。最早的AlphaGo,從人類的頂級訓練棋譜開始學習,這就是訓練數據。後來的Master中,深度強化學習嶄露頭角,通過左右互搏自己產生訓練數據,直到此次的Zero僅利用強化學習來自己產生訓練數據。其意義在於,通過強化學習,在某些特定的領域,可以不再需要提供人工數據,而是自己產生數據。但是,數據的標籤(label)必須是可以確定的。

為什麼AlphaGo Zero不好推廣呢?舉個AI最常見的例子——語音識別。輸入的數據是音頻,對應的label是音頻對應的文字。如果不給定每段音頻對應的文字,機器左右互搏——左手產生音頻、右手產生文字,你能指望它什麼時候學出來一個人類可以使用的語音識別AI嗎?

所以說,讓科學的歸科學,讓科幻的歸科幻。

——————————————

再補充一下。有很多同學提到了吳恩達大神在Google做的讓演算法自動識別貓的實驗。那麼就有必要區分一下:

吳恩達的工作,是讓演算法觀看一周YouTube視頻,自主學會了識別哪些是關於貓的視頻。這個工作里,沒有給定什麼是貓的標註,但是給了一周的真實視頻,這屬於 擁有大量真實數據無監督學習

AlphaGo Zero的工作,是不給演算法任何人類的棋譜數據,但是告訴機器怎麼判斷棋局的輸贏(也就是數據的標註),讓機器左右互搏自己產生訓練數據。這屬於 沒有真實訓練數據(但是機器自己產生了訓練數據) 的 有監督學習

還記得最初的Alpha么,先是給了大量的人類棋譜數據進行訓練,之後的Master中深度強化學習才大放異彩,通過自己產生訓練數據來學習。這屬於 擁有真實數據 的 有監督學習

Zero不可謂不精彩,但其突破性進展在於 圍棋領域以及機器學習的工程方面(包括融合了多種技術),但對機器學習理論和方法的創新並沒有達到朋友圈裡吹捧的高度。

——————————————

如果大家還有疑問,請參考幾位專家的回答:

周志華教授:

來自周志華教授的朋友圈,周教授同意轉載:「花半小時看了下文章,說點個人淺見,未必正確僅供批評:1. 別幻想什麼無監督學習,監督信息來自精準規則,非常強的監督信息。2. 不再把圍棋當作從數據中學習的問題,回歸到啟發式搜索這個傳統棋類解決思路。這裡機器學習實質在解決搜索樹啟發式評分函數問題。3. 如果說深度學習能在模式識別應用中取代人工設計特徵,那麼這裡顯示出強化學習能在啟發式搜索中取代人工設計評分函數。這個意義重大。啟發式搜索這個人工智慧傳統領域可能因此巨變,或許不亞於模式識別計算機視覺領域因深度學習而產生的巨變。機器學習進一步蠶食其他人工智慧技術領域。4. 類似想法以往有,但常見於小規模問題。沒想到圍棋這種狀態空間巨大的問題其假設空間竟有強烈的結構,存在統一適用於任意多子局面的評價函數。巨大的狀態空間誘使我們自然放棄此等假設,所以這個嘗試相當大膽。5. 工程實現能力超級強,別人即便跳出盲點,以啟發式搜索界的工程能力也多半做不出來。6. 目前並非普適,只適用於狀態空間探索幾乎零成本且探索過程不影響假設空間的任務。

作者:Nemo

鏈接:知乎用戶:如何評價 DeepMind 發表在 Nature 上的 AlphaGo Zero?

李開復老師:

一方面,AlphaGo Zero的自主學習帶來的技術革新並非適用於所有人工智慧領域。圍棋是一種對弈遊戲,是信息透明,有明確結構,而且可用規則窮舉的。對弈之外,AlphaGo Zero的技術可能在其他領域應用,比如新材料開發,新葯的化學結構探索等,但這也需要時間驗證。而且語音識別、圖像識別、自然語音理解、無人駕駛等領域,數據是無法窮舉,也很難完全無中生有。AlphaGo Zero的技術可以降低數據需求(比如說WayMo的數據模擬),但是依然需要大量的數據。

另一方面,AlphaGo Zero裡面並沒有新的巨大的理論突破。它使用的Tabula Rosa learning(白板學習,不用人類知識),是以前的圍棋系統Crazy Stone最先使用的。AlphaGo Zero裡面最核心使用的技術ResNet,是微軟亞洲研究院的孫劍發明的。孫劍現任曠視科技Face++首席科學家。

AlphaGo Zero的工程和演算法確實非常厲害。但千萬不要對此產生誤解,認為人工智慧是萬能的,所有人工智慧都可以無需人類經驗從零學習,得出人工智慧威脅論。AlphaGo Zero證明了AI 在快速發展,也驗證了英美的科研能力,讓我們看到在有些領域可以不用人類知識、人類數據、人類引導就做出頂級的突破。

但是,AlphaGo Zero只能在單一簡單領域應用,更不具有自主思考、設定目標、創意、自我意識。即便聰明如AlphaGo Zero,也是在人類給下目標,做好數字優化而已。

作者:李開復

鏈接:https://www.zhihu.com/question/66861459/answer/247330566

來源:知乎

著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處


昨天看著那張AZ學習的曲線發獃了好長時間,想哭。

簡單說幾個感想:

1. 我們人類自認為對的東西、做法中,恐怕有不少都是錯的。

如果不依靠人類的經驗,而只憑藉一些簡單的規則,那麼AI有可能發展出來整個的文明體系。

而且是完全超越人類的文明。

我們人類實在是太渺小了。

2. 《三體》中所說的「技術增長爆炸」,是完全有可能的,並且這種增長速度,是超出發生之前的人們的預想的。

也就是說,在發生之前,我們中的99.99%的人,都無法想像出來其速度的可怕。

或者可能將這種速度看成一種冷冰冰的、和自己無關的數字。

一直到真實的去面對這種增長速度的時候,去面對這種增長速度所帶來的實際的改變的時候,我們才能切身的感受到這種速度的可怕。

3. AI、機器人,是完全可能「統治」人類的,並且是我們人類自願將這種「統治權」拱手讓出去的。

不是AI、機器人想統治世界,而是我們人類會發現:讓AI來統治,世界會更美好。

我們人類,逐步的淪為樂於享受的生物。

以前的《南方周末》上,曾經刊登過一句話:總有一種力量,讓你淚流滿面。

這些年,我經歷過、見過、聽說過很多事,一次次的驗證了這句話,有令人悲傷的,有令人激憤的,有令人感動的……

以往的科技,不管是以前的AlphaGo,還是VR等,都只讓我感到震撼、興奮。

但這次,我頭一次感受到了:科技本身,也足以讓人淚流滿面。

向Google致敬。

從此,Google是我最崇敬的公司。

希望我能活著見到AI統治人類的那天,太有趣了。


今天早上被一條重大新聞刷屏:

Nature- Mastering the game of go without human knowledge, 阿爾法元超越自己的大哥-阿爾法狗。 這一代演算法被deepmind命名為Alphago Zero, 中文阿爾法元,「元」 含有起點,創世之意。 總之,就是從零開始 ,其實這個元字用意很深, 一方面說, 這個演算法是不需要人類數據指導,也不需要它哥哥(阿法狗)指導,就自己演化出來。 另一方面也可以理解為它可以開啟新紀元。

當然, 同時谷歌也宣傳了它的TPU, 只需要4台TPU運行幾天的功夫就可以了。 那麼, 這次的大新聞是不是一個谷歌精心策劃的商業廣告,還是真的隱藏天機。鐵哥就來給大家解讀一下阿法元和其背後的深度強化學習,看看這次的大新聞算不算得從零到一。

如果大家了解計算機學下棋的事情,就會了解到幾十年前,我們就已經用窮舉法來解決棋類問題了,在國際象棋這類遊戲里, 計算機會以比人腦快的多的速度推演兩軍對峙的未來,在運用零和遊戲里固有的減少風險策略, 在1996年就可以讓人類棋手甘拜下風。

窮舉法不適用圍棋,因為跟其燦若宇宙星辰的可能性搜索空間(每一步19*19可能,若干步驟後就是天文數字,這種由於可能性爆炸導致的悲劇也稱為維度災難),被稱為人工智慧界的mission impossible。 而在2015年, 夢幻被粉碎,原因在於深度卷積網路的幽靈終於潛入到了棋類遊戲領域。 深度學習最擅長把高維度的問題自動的降維,從而解決了剛說過的維度災難,如宇宙星辰般的搜索空間瞬間被壓榨到很小,在此時的機器演算法面前, 圍棋無非是一個當年的國際象棋。

然而當時立下首要功勛的深度卷積網路,卻需要學習三千萬組人類數據進行訓練, 而整個訓練過程需要的能量據說要耗費幾噸煤炭。

人們說,你秒殺人類智商的阿法狗無非是比人類看棋譜的速度快,難道還真的懂圍棋嗎? 你所作的頂多是模仿,裡面的強化學習到底有多少作用, 真的不知道。

然而今天,阿法元卻能夠在不用那3000萬數據的時候來個完勝阿法狗。從人工智慧的技術角度看, 這是強化學習的勝利, 在不進行監督學習的情況下, 就可以達到一個高於人類的境地。

為什麼強化學習如此重要? 讓我們先比較一下監督學習和強化學習的基本思想。 監督學習, 強化學習和無監督學習是機器學習的三大框架。 某一個意義說,監督學習是給定輸入和輸出,機器來學習輸入和輸出的關係,一個好的監督學習演算法猶如一個預言家, 它能夠根據自己之前見過的輸入輸出關係來預測未知的輸入。

強化學習呢? 強化學習的三元素是狀態,行為和環境獎勵。 強化學習條件下, 學習者每一步看到的是它決策的行為結果, 然後導致下一步行動,為了最終遊戲的勝利。 一句話說:強化學習強在決策。 監督學習是預言家,強化學習是決策家。

我們一比就明白, 強化學習更像是一個日常決策中的人。我們看到一個老虎,監督學習幫你識別出來它是老虎,那麼你可能剛說出來就被它吃了。 而強化學習告訴你趕緊跑,你可能活下來。 監督學習讓你成為復讀機,而強化學習讓你稱之為生物。

再深一點想,其實學習是為了生存,是贏得game of life(想想那些不太讀書就能過得很好生活的真是深諳強化學習的道理)。 強化學習賦予機器以靈魂。監督學習的那些任務反而是在這個宗旨之下產生的。

回到圍棋, 我們看看強化學習如何決策: 我們在好好理解一些一下「強化」 二字, 強化的意味是: 強化優勢經歷,反過來,就是弱化劣勢經歷。當你走了一部棋導致不好結果,之後被選入這一步棋的概率就降低, 而導致勝利的選擇被不停的強化,直到你每次都延著最佳路徑前進。這聽起來很像進化, 而與進化的區別是,進化是嚴酷的客觀環境對隨機變化的生物的選擇,而強化學習里的單元可以通過梯度下降主動調整策略。

既然強化學習那麼牛, 為什麼阿法狗還用監督學習這個拐棍呢?一句話說,強化學習太難了!

強化學習有兩大難題:

1, 獎勵時間的不確定性: 今天的努力,可能明天回報, 可能十年後才有回報, 今天帶來獎勵的事情,明天可能就導致悲劇(比如吸毒很爽未來地獄) 對於遊戲里的每一次決策, 你都無法獲得立即的反饋,相比監督學習時時可以得到對和錯的答案,這個信息實在太弱了, 用來指導學習,那是慢慢的(如何利用這個或有或無的信息,強化學習的一系列方法圍繞而來,比如Q-learn)。  

2, 探索與收益的平衡難以掌握: 有的人一輩子抱殘守缺,7歲玩泥巴未來就永遠玩泥巴。 有的人一輩子都在探索不同的方向,但是換來換去最終庸庸碌碌。而只有恰當把握探索收益平衡的,比如說27歲前讀書去不同國家,27歲開始認準一個方向成為大佬,30歲前各種風流倜儻,30歲選個知書達理另一半從一而終。 強化學習始終面臨是探索更多空間,還是開始用現在經驗收益的矛盾。 

這兩點放到圍棋這個搜索空間猶如宇宙星辰的遊戲里,估計學習時間也要用生物進化的尺度算, 然而阿爾法元所用的強化學習演算法,號稱解決了這個問題。

仔細看它和它哥哥阿爾法狗的差別沒那麼大, 只不過這一次的神經網路完全由強化學習訓練, 和蒙特卡羅樹得融合可以算是完美。

之前的阿爾法狗有策略和估值網路(都是深度卷積網路),策略負責把棋盤現在的狀態轉化為可能的行為概率, 這個東西被稱為策略(policy,是由每個可能的行為概率構成的向量,簡稱策略向量) ,估值則是輸入目前的棋盤狀態得到最終結果的概率。 這兩個網路在這一次被合成一個巨大的深度殘差網路(卷積網路的一種)。

Nature圖: 深度卷積網路計算概率

深度卷積網路擅長整體對圖像信息進行編碼, 我們可以把這個巨大的殘差網路所作的事情看成白日夢者對未來的總體規劃。 多層卷積本身的天性決定它擅長從這種19*19的格子圖像總結出意思來,強化學習的信息一旦可以訓練網路,就會產生意想不到的效果。而之後MCTS蒙特卡羅樹則對這種初步的結論進行實踐修正。

在這裡回顧一下蒙特卡洛樹是怎麼工作的,說到蒙特卡洛, 這是大名鼎鼎的隨機抽樣方法。所謂樹,大家一定可以想到決策樹,樹的節點是某一刻的狀態,而枝杈代表一個決策(行為),而這裡的蒙特卡洛樹即生成整個決策樹的過程,通過大量的實驗(猶如蒙特卡洛抽樣的過程)得到每個決策行為取勝的概率。

決策樹從一個狀態s出發,每個分支代表一個可能行為(a),而且有一個代表最終贏率的分數與之對應,我們選擇分數最高的那個行為繼續展開(下一次行動),得到新的狀態,用相同的規則行動,直到遊戲結束, 最終贏的走法加一分, 輸的走法減一分,依次往複模擬無數次後,就會得到從s出發不同決策贏得比賽的概率。 這個過程酷似進化選擇演算法, 就是讓那些有優勢的選擇有更高的繁殖子代概率, 最終勝出。雖說這僅僅是阿爾法元的一小步,卻包含了著名的Q-learning和馬爾科夫決策樹的思想。

我們來看每一步決策神經網路和蒙特卡洛樹是怎麼結合的: 決策分為搜索階段和行為階段。假定現在我處在狀態s,在搜索階段神經網路對我所能做的所有行為(a)進行根據對未來的猜測進行預判,生成贏棋的概率v和策略向量p(s,a)。 當然這個預判開始很不靠譜, 蒙特卡洛樹在此基礎通過無數次模擬實踐展開來(注意均是在狀態s上),來實踐出靠譜的策略向量pi(s,a)。

有了神經網路的幫助,蒙特卡羅樹展開不是瞎展開, 也不是從零開始,每一個樹的新分支上,我們都通過神經網路給它一個是正確步驟的先驗概率(P)和初始的贏率(V),代表走它通向勝利的概率。在神經網路助攻下,蒙特卡洛樹可以更快的更新策略向量(每個行為選擇的概率)。此時搜索階段結束, 我們從這個策略向量里通過抽樣得到我們最終進行的行為,是為行為階段。 這下一步棋還真不容易啊!

Nature圖: 策略更新的方法

最終當遊戲結束的時候,神經網路的權重開始更新,這個更新的過程里,我們把整個遊戲的過程分成很多小段, 比較神經網路預測的概率和蒙特卡洛樹算出來的(策略向量之間的差異),以及預測結果與最終結果的差距進行梯度下降(梯度由如下公式得到,此處混合之前的策略和估值網路)。

這樣周而復始,我們可以推斷,最終神經網路的預測將越來越靠譜,和蒙特卡洛樹給出的分析越來越一致。 而圍棋的套路也會被一一發明出來,所謂無師自通。

Nature圖: 看看右下的圖,是不是很像人類選手常用的招!

為什麼說阿爾法元敢叫元? 如果從技術角度看,這一次的阿爾法元沒有那麼多新的東西,而是在之前基礎上讓強化學習進行的更徹底了,然而它所展示的深度強化學習的應用未來,卻是十分誘人的。

圖: 強化學習的勝利(藍)對比監督學習(紫)和監督+強化學習(虛線)

首先,我們看到, 並不是每一件機器學習的事情, 都需要和數據,尤其是需要大量人力的標註數據死磕, 而是可以通過恰當的設立模擬器(比如此處用到的蒙卡樹) 來彌補。阿爾法元不是不需要數據,而是數據都是自己模擬產生的。 模擬+深度強化學習, 在簡單的遊戲規則下,一些複雜的行為範式可以進化出來,而且可以比人類設計的還好, 這, 你就可以大開腦洞了。

這件事在很多設計性的工作里實在是太誘人了。 無論是設計新材料,建築,還是衣服,這些可變維度很高的事物,你都可以想像設立一個模擬模擬環境,再設立一個相應的神經網路去做各種嘗試,最終設計出的結果有一個獎懲函數反饋,來讓這個網路來學習。這就打破了深度學習創業只和手裡有大量數據的壟斷者相關的夢魘。

這裡的深度強化技術, 也才只展示了冰山一角, 在一類被稱為SLAM的技術上, 深度強化學習被證明了強大的控制能力, 它能夠驅動機器人在非常複雜的空間里進行探索無需GPS,對於這一類深度學習任務, 有別於alphago的任務,因為圍棋屬於完全信息的博弈, 而真正的空間探索,是通過感知系統探測到的不完全信息, 通過記憶在時間尺度上的綜合,這一點,只有搬出大名鼎鼎的LSTM來對付了。

能夠控制運動的深度強化學習,遲早會改變工業界,它不僅是無人車裡的核心技術, 更是對話,推薦系統, 金融交易, 甚至是圖像識別的利器,幾乎各類需要監督學習的事情,說到底強化學習都有實力。 你如果製造一個聊天機器人, 你當然希望它能夠揣測你的意圖和你談情說愛而不是背書。 你要一個推薦系統, 你當然不需要它天天給你推你剛看過的小黃片,而是帶著你探索一段BBC-性的秘密。 所以, 強化學習, 是人工智慧的大勢所趨啊。

更有甚者,我們可以設立一個具有類似地球的物理環境的地方,讓配備了深度強化學習系統的虛擬生物進行各種活動,看它們能否利用這個環境發現和利用其中的物理定律。

歡迎關注巡洋艦的深度學習課程, 深度強化學習將是重點:巡洋艦新年深度學習訓練營計劃, 這麼課程, 將真正帶你手把手的領略深度強化學習的魅力, 看你能不能自己動手設計個阿爾法元


王婆賣瓜

空口放炮

ag本身從李世石, master快棋, 科節, 到紙上談兵的zero, 歷時幾年, 反覆炒作, 甚至還在宣布退役後繼續搞, 可見谷歌的ai商業化的巨大挫折

從谷歌商業化的實際出發, 最可以被利用的已成產品如 google translate, gmail/hangout spam filter,google maps 高級路線規劃, adsense轉化insight,在這段時間內一直沉默無重大進展,

而谷歌未發布的自動駕駛, ct/mri 診斷 同樣裹足不前

一個pr騙局在實際產品毫無重大推進的情況下被反覆炒作, 最後炒到實際對弈棋盤都沒有

it公司的ai股價泡沫可以說是比韋恩斯坦更惡劣的空心營銷


全新強化學習演算法:無需任何人類指導

社長發現,這篇論文的最大亮點,在於無需任何人類指導,通過全新的強化學習方式自己成為自己的老師,在圍棋這一最具挑戰性的領域達到超過人類的精通程度。相比起之前使用人類對弈的數據,這一演算法訓練時間更短,僅用3天時間就達到了擊敗李世石的AlphaGo Lee的水平,21天達到了之前擊敗柯潔的AlphaGo Master的水平。

在3天內——也就是AlphaGo Zero在擊敗AlphaGo Lee之前,曾進行過490萬次自我對弈練習。 相比之下,AlphaGo Lee的訓練時間長達數月之久。AlphaGo Zero不僅發現了人類數千年來已有的許多圍棋策略,還設計了人類玩家以前未知的的策略。

據Deepmind博客介紹,AlphaGo Zero採用了新的強化學習方法,從一個不知道圍棋遊戲規則的神經網路開始,然後通過將這個神經網路與強大的搜索演算法結合,然後就可以實現自我對弈了。在這樣的訓練過程中,神經網路被更新和調整,並用於預測下一步落子和最終的輸贏。

這一更新後的神經網路將再度與搜索演算法組合,這一過程將不斷重複,創建出一個新的、更強大版本的AlphaGo Zero。在每次迭代中,系統的性能和自我對弈的質量均能夠有部分提高。「日拱一卒,功不唐捐」,最終的神經網路越來越精確,AlphaGo Zero也變得更強。

Alpha Zero與之前版本有如下不同:

  • AlphaGo Zero 只使用棋盤上的黑子和白子作為輸入,而之前版本AlphaGo的輸入均包含部分人工特徵;
  • AlphaGo Zero使用一個神經網路而不是之前的兩個。以前版本的 AlphaGo 使用一個「策略網路」來選擇落子的位置,並使用另一個「價值網路」來預測遊戲的輸贏結果。而在AlphaGo Zero中下一步落子的位置和輸贏評估在同一個神經網路中進行,從而使其可以更好地進行訓練和評估。
  • AlphaGo Zero 無需進行隨機推演(Rollout)——這是一種在其他圍棋程序中廣泛使用於勝負的快速隨機策略,從而通過比較確定每一手之後輸贏的概率選擇最佳落子位置,相反,它依賴於高質量的神經網路來評估落子位置。

上述差異均有主於提高系統的性能和通用性,但使最關鍵的仍是演算法上的改進,不僅使得AlphaGo Zero更加強大,在功耗上也更為高效。

AlphaGo不同版本所需的GPU/TPU資源

技術細節

新方法使用了一個具有參數θ的深層神經網路fθ。這個神經網路將棋子的位置和歷史狀態s作為輸入,並輸出下一步落子位置的概率,用, (p, v) = fθ(s)表示。落子位置概率向量p代表每一步棋(包括不應手)的概率,數值v是一個標量估值,代表棋手下在當前位置s的獲勝概率。

AlphaGo Zero的神經網路通過新的自我對弈數據進行訓練,在每個位置s,神經網路fθ都會進行蒙特卡洛樹(MCTS)搜索,得出每一步落子的概率π。這一落子概率通常優於原始的落子概率向量p,在自我博弈過程中,程序通過基於蒙特卡洛樹的策略來選擇下一步,並使用獲勝者z作為價值樣本,這一過程可被視為一個強有力的評估策略操作。

在這一過程中,神經網路參數不斷更新,落子概率和價值 (p,v)= fθ(s)也越來越接近改善後的搜索概率和自我對弈勝者 (π, z),這些新的參數也會被用於下一次的自我對弈迭代以增強搜索的結果,下圖即為自我訓練的流程圖。

AlphaGo Zero 自我對弈訓練的流程示意圖

雖然這一技術還處於早期階段,但AlphaGo Zero的突破使得我們在未來面對人類面對的一些重大挑戰(如蛋白質摺疊、減少能源消耗、尋找革命性的新材料等)充滿信心。

眾所周知,深度學習需要大量的數據,而在很多情況下,獲得大量人類數據的成本過於高昂,甚至根本難以獲得。如果將該技術應用到其他問題上,將會有可能對我們的生活產生根本性的影響。


老狗之所以費半天勁才戰勝李世石,歸根結底是因為被愚蠢的人類用棋譜套路了。


人類制定的規則劃定了可行域,人類經驗使得人類達到了某部分的可行域的局部最優,但是真正的最優解,可能就要拋棄經驗打破局限去獲得。這可能也是alphago zero成功的原因。

反觀人類社會,從農耕文敏到機械電氣時代再到計算機時代再到數據時代,每一次科學歷史性的時刻,所有重大突破的出現或者理論的提出總是帶著點異端學說的味道,因為總是會推翻以前理論(人類經驗)大家都習以為常的假設。所以正像武林高手到最後都是心中無條框的,人類經驗造福人類卻也約束了最優解,人類也難以跳出條框經驗去研究,所以阿法元的出現倒是福星卻也是一種必然:人類社會發展至今,世界大多數理論都被找到了,對於在深層次無法解釋和無法推進的理論和規律,一方面通過大量數據去模擬規律(這也是人類進入大數據時代的原因);另一方面則通過打破人類局限的方式去推進(人類經驗也就是人類在探索更高層次理論的局限性中的一種)

期待更好的未來。


成神了。

之前的估值和策略合併,這是合理的。

rollout 和蒙地卡羅 本來就是同樣的,只是為了快速採用快速走子,這個合併很明顯的選擇。

簡單說,這個論文就是把以前人工干預的東西全部合併入新的體系,數學上學術上可以算完美版了。

三天超越alphago ,可見速度+演算法+數據的厲害,人類歷史的三千年智慧只等於TPU的三天。

建議:Alphago Zero 對人類歷史的所有棋譜進行一次遍歷。找出那些10+%勝率變化的妙招和敗招,一則可以統計下人類的妙手發生率(特別是造成比Alphago Zero 還好的妙招)。基本上看看人類歷史上有多少手超越Alphago Zero 的招數,看看人類做為一個整體,是否還有用。

順便看看圍棋的歷史,到底是能力為王還是傳承為王,這個是圍棋文化的一個歷史課題啊。

另外說說棋力:

Zero 對master 90% 勝率,這在圍棋中基本是讓兩子的差距了。

Zero 對 alphagoLee 100% 勝率,這是三子以上四子的差距了。

反過來可以推,master 對 alphagoLee 讓三子很正常。柯潔當時該讓三子試試,發揮下人類的餘熱啊。


「這人與人的差距呀,比人與狗都大」對應到alphaGo上:「這狗與狗的差距呀,比狗與人還大.......」


推薦閱讀:

如何看待 iPhone SE?
人工智慧時代的價值創造:如何看待無人工廠、無人車間與勞動價值論的「矛盾」?
如何向人類同伴證明自己不是一個人工智慧?
為什麼信息熵要定義成-Σp*log(p)?
如果Google AlphaGo來中國挑戰圍棋大師會是怎樣的結局?

TAG:人工智慧 | 圍棋 | 深度學習DeepLearning | AlphaGo | 強化學習ReinforcementLearning |