谷歌的人工智慧原來有點弱智

06-11

關於谷歌最新的圍棋程序AlphaGo Zero，我們這篇《阿法狗Zero是傻逼還是牛逼？》試圖講點真話，但理所當然地招來了大批狗吹的攻擊。狗吹們就是大陸網民的一個縮影。這些人思維固化、知識固化，腦袋裡裝滿了教科書和官媒的標準答案，腦子就跟脂肪肝一樣痴肥滯腫，基本無力轉動，凡事就扔一堆標準答案。從本質而言，他們與他們熱衷於在朋友圈轉雞湯文的父母一樣，只是這新一輩可以稱之為科學雞湯黨，他們可能是靠「科學無所不能」的信念支撐著在塵世的卑微生活。他們不信上帝會使人上天堂，更不信玉皇大帝或元始天尊會使人得道升仙，卻堅信「科學」會使人長生不老。

科學雞湯黨們可能不清楚，「科學」可能是人類造假最多的一個領域。1912年著名的「辟爾唐人」就是原始人頭骨和當代猩猩頜骨湊合而成的。藤村新一在日本「發現」的「4萬年前」陶器、「50萬年前」舊石器，全是他自己埋進去的。2000年的「遼寧古盜鳥」也是一件粘合的假化石。1903年，法國物理學家布朗洛宣布發現了N射線，事後證實純屬子虛烏有。1989年，美國猶他大學的彭斯和英國南安普敦大學的弗萊西曼舉行新聞發布會，宣稱實現了常溫常壓下的「冷核聚變」，事後證實其實驗無法重複。荷蘭心理學家德里克·斯塔佩爾發表研究稱「人類在骯髒的環境中更可能表現出種族歧視」、「食肉會導致人們變得更加自私與不合群」，事後證實純屬學術造假。還有2000年德國科學家舍恩的「分子晶體管」……類似的事例可謂不勝枚舉。

有科學家指出，有些所謂科學領域，造不造假純屬良心問題。譬如以前的人類化石考古，把這個地層發現的化石挪到另一個地層，是常有的事，這麼一挪，憑空多出十幾到幾十萬年曆史濕濕碎。

因此，對任何大張旗鼓自吹自擂的「科學成果」保持警惕，是保守主義的正確態度。尤其對那些背後有龐大商業利益的「科學成果」。譬如以前的「水變油」，譬如最近所謂的「量子衛星通訊技術」。當然也包括谷歌的「無人駕駛汽車」、「人工智慧」。「無人駕駛汽車」已經吹噓五年了，到現在還在「原型車」階段，12輛原型車跑的里程只有一百多萬英里。微軟的「小冰」、蘋果的「siri」，都是普遍應用的「人工智慧」，其粗陋程度令人髮指，一般人只是用來「調戲」，鬧著玩的。谷歌居然吹噓自己的「人工智慧」已經實現「自主進化」了，再過10年會變成「天網」了，這種明顯「畝產百萬斤」的論調，難道不需要稍稍用點心思質疑一下？

看完上篇《阿法狗Zero是傻逼還是牛逼？》，覺得本號在「反科學」的人士，建議你好好拜讀本文，好好學習什麼才是真正的符合常識和邏輯的思考方法。

谷歌聲稱，新版本圍棋程序AlphaGo Zero通過「自我學習」，已經一躍成為世界上最強大的智能圍棋程序，與「AlphaGo李世石」版本對弈的成績是100:0，全勝。

國內媒體是這樣報道的：

問題是，這是狗吹口徑，與客觀事實無關。「狗吹事實」被常識和邏輯剃刀削一削，會怎麼樣呢：

1、AlphaGo Zero 需要學習圍棋規則么？

按照百度百科「阿爾法圍棋」詞條援引中華網的報道，AlphaGo Zero是不需要學習圍棋規則的：

據大衛·席爾瓦介紹，AlphaGoZero使用新的強化學習方法，讓自己變成了老師。系統一開始甚至並不知道什麼是圍棋，只是從單一神經網路開始，通過神經網路強大的搜索演算法，進行了自我對弈。

隨著自我博弈的增加，神經網路逐漸調整，提升預測下一步的能力，最終贏得比賽。更為厲害的是，隨著訓練的深入，DeepMind團隊發現，AlphaGoZero還獨立發現了遊戲規則，並走出了新策略，為圍棋這項古老遊戲帶來了新的見解。

但根據公號「量子位」和「新智元」援引孫劍博士等人的說法，AlphaGo Zero是先學習了圍棋規則的：

曠視科技首席科學家孫劍（AlphaGo Zero裡面最核心使用的技術ResNet是孫劍在微軟亞洲研究院時期的發明）：

「AlphaGo Zero的偉大之處是第一次讓機器可以不通過任何棋譜，在只告訴規則的前提下，完全從隨機開始，而且只在一台有TPU的單機上運行，不到3天就超越柯潔版的水平，最終成為圍棋大師，這種無師自通的學習模式在AI整個發展上是具有里程碑意義的。」孫劍博士講到AlphaGo Zero的技術意義時說。「但是，這種『無師自通』在很多AI落地中也存在一些局限，因為嚴格講，圍棋規則和判定棋局輸贏也是一種監督信號。」

但要說它是「無監督學習」，就有點「不對」。孫劍說：「如果仔細看這個系統，它還是有監督的。」它的監督不是來自棋譜，而是圍棋規則所決定的最後誰輸誰贏這個信號。

「從這個意義上說，它不是百分之百絕對的無師自通，而是通過這個規則所帶來的監督信號，它是一種非常弱監督的增強學習，它不是完全的無師自通。」

南大周志華：

別幻想什麼無監督學習，監督信息來自精準規則，非常強的監督信息。

清華大學馬少平教授：

根據DeepMind透露的消息，AlphaGo Zero不但拋棄了人類棋譜，實現了從零開始學習，連以前使用的人類設計的特徵也拋棄了，直接用棋盤上的黑白棋作為輸入，可以說是把人類拋棄的徹徹底底，除了圍棋規則外，不使用人類的任何數據和知識了。僅通過3天訓練，就可以戰勝和李世石下棋時的AlphaGo，而經過40天的訓練後，則可以打敗與柯潔下棋時的AlphaGo了。

但是，本號去下了這個谷歌DeepMind團隊的論文《Mastering the Game of Go without Human Knowledge》瞄了一眼，開始部分有一段：

Our program, AlphaGo Zero, differs from AlphaGo Fan and AlphaGo Lee 12 in several importantaspects. First and foremost, it is trained solely by self-play reinforcement learning, startingfrom random play, without any supervision or use of human data.

我們的程序，AlphaGo Zero，與「AlphaGo樊麾」版本、「AlphaGo李世石」版本不同，在以下幾個重要的方面。首先，它是由自我強化學習訓練，從隨機的遊戲中開始，沒有任何監督或使用人類數據。

按照論文本身提綱挈領的說法，確實是「沒有任何人類監督」，也沒說任何圍棋規則的事，與專家們的說法不一樣。

當然，論文太長，我沒有看完。不知道後面有沒有插入「規則」和「監督」。

我們曾指出：機器程序在不掌握任何規則，也沒有任何監督的前提下，是不可能獨立發明出來一套與現行圍棋規則一樣的輸贏規則的。

圍棋一塊棋的死活，由「兩隻眼」的規則決定。但這「兩隻眼」的規則，是人類在歷史上某個時間點訂立的。機器如果事先不掌握這個規則，為什麼它在自我對弈時，不發明出「一隻眼」、「三隻眼」、「不需要眼」的規則呢？

機器不需要監督的話，何以把「圍棋」當圍棋下，不當飛行棋、五子棋、七子棋、跳棋下？

即使生物演化，也是由環境因素「監督」的。在水裡，就演化出腮、鰭，在陸地，就演化出肺、四肢。沒有任何前提條件「監督」，是不可能往特定方向演化、演變的。這是再明顯不過的常識了。

因此，谷歌DeepMind團隊的夸夸其談顯然水分不小。我們同意專家們的話，AlphaGo Zero起始啟動時，不但需要規則，還需要強監督。

2、AlphaGo Zero 需要學習人類棋譜么？

1、為什麼 AlphaGo Zero 的訓練如此穩定？深度強化學習極其不穩定且易於遺忘，自我對弈（self-play）也是，兩者的結合如果沒有很好的（基於模仿的）初始化和大量人類棋譜將是一個災難。但是 AlphaGo Zero 從零開始，並且沒有藉助人類棋譜來防止遺忘或死循環。論文對於這點沒有涉及，因此你們是如何做到的？

David Silver：相較於典型的（無模型）演算法，如策略梯度或者 Q 學習，AlphaGo Zero 採用了一種相當不同的深度強化學習方法。藉助 AlphaGo 搜索，我們顯著提升了策略和自我對弈的結果，接著我們使用簡單的基於梯度的更新訓練下一個策略+價值網路。這要比累加的、基於梯度的策略提升更加穩定，並且不會遺忘先前的成果。

在《自然》雜誌登出論文的次日，David Silver代表AlphaGo團隊在Reddit上答網友問。

網友問道：深度強化學習極其不穩定且易於遺忘，自我對弈（self-play）也是，兩者的結合如果沒有很好的（基於模仿的）初始化和大量人類棋譜將是一個災難。但是 AlphaGo Zero 從零開始，並且沒有藉助人類棋譜來防止遺忘或死循環。論文對於這點沒有涉及，因此你們是如何做到的？

David Silver以一種迴避式的口吻回答：「AlphaGo Zero 採用了一種相當不同的深度強化學習方法。」

然而，這套「深度強化學習方法」如果真是前所未有的，為何不在論文里稍作說明呢？

強化學習是一種獎勵學習模式，原理等同於人類訓練動物。給金毛犬擺出兩根筷子，讓它叫兩聲，擺出四根筷子，叫四聲，然後獎勵狗糧。叫錯了就挨打。這樣「強化學習」久了，金毛犬條件反射式的叫聲估計比人類的反應還要快。

但這裡有個巨大的問題，無論金毛犬學得多快、叫得多歡，它不能真實理解數學。

對於實際上沒有智力的機器而言，其實「深度強化學習方法」與AlphaGo原先的輸入大量棋譜的蒙特卡洛演算法沒有本質區別。它們同樣在「瞎下」，只是AlphaGo是模擬棋譜地瞎下，AlphaGo Zero是不模擬棋譜地瞎下。

演算法改變一下，從原理上，AlphaGo Zero真是可以不學習棋譜。

至於AlphaGo團隊會不會偷偷輸入棋譜以迅速提升AlphaGo Zero的對局能力，我相信只要技術上可行，非常可能會的。因為這是一個商業項目，商業科學家們為了達成他們的目的，歷來是不擇手段的。早在IBM時代，卡斯帕羅夫就指出，有人類棋手給「深藍」代下關鍵一著。

3、AlphaGo Zero的圍棋水平究竟高不高？

我這裡可以負責任地告訴讀者，AlphaGo Zero的圍棋水平超越大部分業餘愛好者的水平，但還遠達不到職業棋手最高端的水平。

為什麼我從去年至此，一貫持這個觀點，道理如下。

下好圍棋需要真正的智力和創造力

當然，其實所有的棋類都是策略性遊戲，都需要智力。但相對而言，其他棋類規則比較呆板，變化比較少，它們更需要套路，對創造力的需要比較低。

圍棋棋盤比國際象棋、中國象棋大，規則自由得多，意味著變化更大，不能只靠計算取勝。

圍棋不能光靠階梯強化激勵提高水平，也不能只靠單純計算獲得勝利。學習圍棋、提高水平，需要明白圍棋的理論，並實踐之。

日本圍棋獨自發展四百餘年後，在民初時大幅度領先中國棋界，原因就是因為他們更講究理論。一個掌握一套經過長期摸索的成熟理論的棋手，是自然優越於不太熟悉理論、只注重實戰的棋手的。日本很早就取消了座子制，也沒有還棋頭的規則，這讓他們在長期探索中更自由，能發展出更長足的布局、序盤理論。

而機器沒有真正的智力，只要模仿、模擬、計算，這就導致他們根本無法真正懂得和掌握理論。

圍棋是兩種範式之間的對決，而且兩種範式是隨時靈活進行流變的，不是固定的。人類大師的勝利，是一種範式強迫另一種範式，而另一種範式不斷反抗，從而反強迫對方範式進行改變的過程。其實任何一種棋類也差不多，但其他棋類受制於比較呆板的走子規則和棋盤大小，範式的嬗遞變化在戰鬥中較少，只要背熟了套路、提高了計算力，不需要太高的創造力。像吳清源對決藤澤庫之助那樣，提早幾十手就給敵人設下幾個連環套，一步步強迫對手入彀的名局，只會在圍棋里出現。

創造力需要設想，設想是基於計算之上的能力。而機器只會計算，沒有設想能力，更談不上設想之上的創造力。

機器的計算能力也並不高明

這不需要多費唇舌，只要擺出棋譜即可證明：

這是deepmind團隊最近公布的AlphaGo Zero對AlphaGo Master的第二十盤對局的棋譜。

AlphaGo Master在右下和左上都把自己的角部走死了。

我們仔細看看過程即可知道，黑子只要稍微仔細地算一下，就不會把自己被斷進去，把自己弄死。

換言之，AlphaGo Master的計算是有嚴重問題的。

不但過氣的AlphaGo Master計算出問題，連號稱「世界上最強圍棋程序」的AlphaGo Zero自己的計算也出了嚴重問題。

下圖是AlphaGo Zero自己跟自己的對局：

黑方AlphaGo Zero只要接上，就是兩隻眼，白棋AlphaGo Zero凈死。但黑方AlphaGo Zero竟然走了收官的粘，而不走死活的粘，硬生生的變成對殺死，中盤認輸。

任何一個業餘棋手都不會這麼下吧。

AlphaGo只跟李世石和柯潔下了兩次令人懷疑的「比賽」，就號稱世界第一，現在居然不跟人類下棋了，自己跟自己下，就可以號稱超超超高手了。這種補藥碧蓮臉精神，果然是天下第一。

問題是，AlphaGo團隊為了自吹，不得不公布棋譜。

AlphaGo團隊從AlphaGo Zero幾百萬盤對局棋譜里精挑細選出來的八十局，我們仔細看棋譜，就可以發現千瘡百孔、問題成堆。光計算上出現的問題，幾乎每盤都有。一個連計算都出現嚴重問題的圍棋程序，有什麼好吹的呢？

我們在這裡特地強調一下，讓那些不明真相的讀者知道：AlphaGo Master所謂橫掃人類棋士無敵手，是在弈城上下的每步20秒、30秒的快棋。即使撇除作弊因素，人類高手在30秒內反應比不過電腦，有什麼奇怪嗎？

作為AlphaGo的對標產品，日本的deepzengo倒是與六十幾歲的老棋手趙治勳九段下過公信力較高的比賽，被趙老二比一輕取。趙治勳曾在媒體上向AlphaGo叫陣，AlphaGo團隊裝聾作啞。

從種種跡象判斷，目前全球所有的圍棋程序都沒有達到人類最高水平，純粹是為了燒起人工智慧的虛火自吹自擂。

不但如此，連極其倚重套路化、計算力的中國象棋，機器程序也沒有超越人類。

2006年，從事超級計算機領域的浪潮公司以高度2米、重量300KG、每秒最多可計算42億步棋，最多可支持上千節點/數千顆處理器的電腦「浪潮天梭」對決人類聯隊（徐天紅、卜鳳波、柳大華、張強、汪洋五位象棋大師），最終僅以三比二險勝。然後，許銀川單獨對戰浪潮天梭，二戰二和，不分勝負。

我們姑且假設這不是廣告賽事，那超級電腦在計算力上與人類頂級棋手也只是一個層次而已。

很多人會拿「深藍」說事。但「1997年那場人機大戰，表面上是超級電腦戰勝了人類第一高手，但在具爭議性的第二局中，卡斯帕羅夫懷疑有人類大師影響深藍走棋」（維基百科）。而總計1996年和1997年深藍vs卡斯帕羅夫兩次對戰的成績，卡斯帕羅夫仍以6.5比5.5勝出。

而在2003年里，卡斯帕羅夫分別再與超級電腦X3D Fritz 和 Deep Junior（比深藍強一倍）對弈，均能獲取勝局。這兩次對弈總成績都是和局。

換言之，在中國象棋、國際象棋這兩個領域，超級電腦與人類僅在伯仲之間。

AlphaGo團隊連碾壓人類的象棋程序都做不出來，就在比象棋需要更多創造力的圍棋上大吹大擂，恐怕難以取信於人。