AlphaZero: 直覺是如何摧毀邏輯的

本文由 【AI前線】原創,原文鏈接:t.cn/RH6WhdI

作者|AlphaZero 譯者|孫浩 編輯|Emily

AI前線導讀:「現代文明和科技帶來的額外實惠導致了我們自身直覺的衰退。我們中的許多人已經意識不到它的價值,甚至它的客觀存在。直覺作為複雜計算的基礎,是一種很容易被忽視的傳統方法之外的方法。對這種理念認識的缺乏導致許多研究人員忽視了它的潛力。」

直覺是神聖的禮物,理性的頭腦是忠實的僕人。我們創造了一個尊重僕人的社會,卻忘記了禮物。

—— 愛因斯坦

我在人工智慧 (AI) 中所做的研究是以「高級認知機器將利用直覺作為其智能的基礎」為中心的 (參見:「人工直覺」)。我們自己的人類思維為一般智力提供了充足的依據。人類本質上是直覺機器,而我們的理性 (和有意識的) 自我只是一個基於直覺的機器 (見:「認知堆棧」) 之上的一個模擬層。這與笛卡爾著名的「我思故我在」(Cogito ergo sum) 形成了鮮明的對比,這意味著我們的理性思考是將我們與所有生物區分開來的東西。因此,我們有一種認知上的偏見,即要求由邏輯機器驅動技術和方法。這確實是出色的老式人工智慧 (GOFAI) 數十年間失敗的原因,因為它試圖以形式邏輯去解決智力問題為出發點。

直覺機器的一個反直覺的預測是「邏輯思維是如何從直覺機器產生的?」自從 2012 年以來,我們看到了深度學習技術的驚人進步。深度學習網路是直覺機器。這些系統通過使用歸納法來學習執行推理 (或作出預測)。深度學習系統能夠執行通常認為只有生物大腦才能做到的任務。諸如面部識別和語音識別等任務,對於傳統計算能力來說很難,而深度學習系統的表現卻可以超出人類的水平。

然而,深度學習網路卻無法執行諸如長除法之類的邏輯任務。人們不應該期望能夠教會動物 (比如你的狗) 做乘法,當然還有加法或減法。然而,人類的大腦能夠執行各種各樣的邏輯問題。我們不得不問,一個穴居人會做乘法么? 我們天生就具備先進的邏輯認知能力嗎? 還是我們在先進的文明中才學習到的這些能力?

要實現更普遍的人工智慧,需要跨越的鴻溝是所謂的「語義鴻溝」。我們如何將深度學習 (亞符號) 系統的能力與邏輯 (符號) 系統相結合?

人類的思維能夠完成邏輯推理的偉大壯舉。如果我們的機器都是基於直覺的,我們的思維是如何做到這一點的呢?我將在這裡假設我們沒有任何天生的邏輯機制。我們在這個星球上生存的很短的時間裡,智人不可能進化出這種認知機制。因此,為了彌補語義上的鴻溝,我們需要用直覺的機制來溝通。這意味著我們不需要將直覺組件與邏輯組件融合為一體。但我們所有人永遠都需要直覺組件。

因此,我們需要有充分的證據證明,複雜的邏輯思維可以由直覺機器來完成。

這就是 AlphaZero 的革命性啟示之所在。AlphaZero 是 DeepMind 圍棋程序的最新進化版。我之前曾寫過關於 AlphaGo Zero(不同於 AlphaZero) 是如何從頭學會下圍棋 (不懂人類知識) 的文章。西方人從來沒有玩過圍棋,根本就不懂圍棋。因此,DeepMind AlphaGo Zero 相關成就的影響力被削弱了。我們不明白這一成就的巨大意義。不管怎樣,圍棋已被認定是一種直覺遊戲。因此,直覺機器 (以深度學習為基礎) 能夠精通此遊戲並不令人吃驚。

DeepMind 的新化身 (AlphaZero) 能做的便是玩國際象棋。這當然不會讓很多人感到驚訝,因為自從 1996 年 IBM 的深藍擊敗 Kasparov 以來,國際象棋已經被計算機「解決」了。對於那些不懂的人來說,AlphaZero 從零開始學習國際象棋的玩法,花了幾個小時的時間就能精通不算什麼。AlphaZero 能夠在 100 場比賽中打敗最好的國際象棋程序 (Stockfish) 也算不了什麼。

真正了不起的地方是,AlphaZero 是如何與更加邏輯型的對手拆招的。為了給你一些直觀認識,我將引用國際象棋比賽社區中的一些評論。

  • 它接近「B 類」,這是一種類似於人類的機器棋手,而非蠻力計算,這曾是克勞德·香農和艾倫·圖靈的夢想。——加里·卡斯帕羅夫。
  • 我一直在想,如果一個優秀的物種來到地球上,向我們展示它們是如何下棋的,那將是怎樣的情景。我現在感覺我知道了。——彼得·海涅尼爾森
  • 「它不像人類那樣玩,它也不像一個程序。它用的是第三種方法,像外星人的方法。」——丹米斯·哈薩比斯 (他也是棋手)

對於那些理解國際象棋遊戲的人來說,最好是看一下 AlphaZero 和 Stockfish 的實際比賽。你將看到的是一個基於直覺的系統如何與基於邏輯的對手拆招的(比如,不排斥棄兵)。以下是一些專家的評論:

AlphaZero 玩的是一款完全不同的象棋遊戲。為了獲得相對於對手的位置優勢,它願意犧牲部分。它在玩一種國際象棋柔道,它利用對手的急切渴望來獲得自身的直接利益。它將對手設置為「被動強制」狀態,在這種情況下,對手的每一次移動都會導致更糟糕的結果。它似乎更全面地理解了象棋的遊戲,所有棋子都以高度協調的方式移動。「AlphaGo zero」玩遊戲時可以最大化其其創造力,對抗無法在短期內取得突破的邏輯型對手。它玩國際象棋不僅不可思議,假如在過去,甚至還將被放進紀念館裡讓所有人瞻仰讚歎。

這篇關於 AlphaZero 的論文是在最近的 2017 年神經信息處理系統大會上發表的。這是一篇極短的論文,正文只有 7 頁長。關於它如何評估盤面的位置來決定走棋,它提到了一個有趣的細節。

AlphaZero 在國際象棋中每秒只檢索 8 萬個位置,而 Stockfish 檢索的數量為 7000 萬。直覺機器使用的評估比它的邏輯對手少 1000 倍。

你們在這裡所看到的 AlphaZero,是對我最初關於直覺機器及其執行邏輯推理能力的論點的驗證。這是正在跨越的語義上的鴻溝。這一極其困難的通用人工智慧領域的里程碑難題,正以創紀錄的速度被跨越。我不信人工智慧社區有人能夠預料到速度進展如此之快。然而,這種情況已經發生,並且現狀已經永遠地被改變了。

查看英文原文:

medium.com/intuitionmac

關注後回復「AI」你懂的


推薦閱讀:

TAG:AlphaZero | 直觉 | 逻辑 |