經濟學人特寫|機器能「深度學習」,但還不能舉一反三
圍棋到底有多複雜?
在一項真正簡單的遊戲中,每一步可能導致的後果都能通過計算推導出來。這種蠻力演算法意味著計算機總能推算出在某種局面中哪步棋是最佳選擇。
但DeepMind的創始人之一傑米斯·哈薩比斯(Demis Hassabis)稱圍棋「無法被數學蠻力攻克」。圍棋棋盤的規模(19x19)意味著棋手落子的方式極多——粗略估算數量約為10的170次方。已經找不到類比來描述如此大的體量。它大概要比已觀測到宇宙中原子的數量多100個數量級,後者僅為10的80次方左右。在圍棋的幾百個回合中,每一步都有約250種可能的合規走法,這個數目被稱作分支因數。而每下一步又會再導致250種可能的走法,如此繼續直到遊戲結束。在圍棋比賽中推算哪方會勝出極為困難。因為一個棋子的價值只由它相對於棋盤上其他棋子的位置而定,而這種相對性又隨著每一步而發生改變。
什麼是「深度學習」?
AlphaGo使用「深度學習」技術自行發現人類棋手能理解卻無法解釋的規則。這一技術不斷向計算機提供複雜的統計數字,讓計算機想辦法從大量的干擾數據中分離出一般法則。
深度學習需要兩樣東西:大量的處理能力和大量的可學習數據。DeepMind從匯聚業餘和專家棋手的網站中摘選三千萬個棋局樣本來訓練AlphaGo。他們對AlphaGo稍作改動,製造出它的一個分身,讓兩者互搏,從而更迅速地生成更多訓練數據。
這些數據被灌入兩種深度學習演算法中,其一是「決策網路」(policy network),它接受訓練來模仿人類下棋。在觀看了數百萬局比賽後,它已經學會提煉特徵、原則和經驗法則。在比賽過程中,它的任務是審視棋譜當前的局勢,推薦出一些看起來不錯的走法,讓第二種演算法來考慮。
這第二項演算法叫「值網路」(value network),它評估一步棋的優劣。機器人會演繹由「決策網路」推薦的棋步,並對它們可能導致的成千上萬種子棋局推演出雙方棋手的應對。因為圍棋如此複雜,要把所有可預見的棋局都通盤演算一遍並無可能。因而「值網路」所做的是審視幾步棋之後可能出現的棋局,並將它們與那些它之前見過的例子做比對。其目標是找出那個就統計學而言與那些曾經導向勝利的棋局最為相像的棋局。「決策網路」和「值網路」共同運作,展現出人類棋手通過多年訓練積累的智慧。
電腦僅僅依靠蠻力計算挑戰人類的時代已近尾聲,阿爾法狗的「深度學習」代表了計算的未來發展方向。點擊圖片閱讀本周封面文章《「阿爾法狗」開啟計算新紀元》並收聽全文音頻
機器還不能舉一反三
隨著AlphaGo的演算法做出調整,收集更多的數據並從中學習,它會變得越來越強大。但哈薩比斯認為,目前來說,一般機器智能還有很長的路要走。
深度學習演算法的模式識別能力已令人驚艷,但計算機仍然缺乏對人類而言理所當然的智力工具。其中一大工具是「轉化學習」,這是人工智慧研究人員對推理的類比稱法。這種能力是把從一個領域裡獲得的經驗教訓應用到另一個領域。而像AlphaGo這樣的機器並無目標或對自身存在的意識,和一個文字處理器或會計軟體並無差別。從這個意義上,它的創造者——人類,還是要全面而強大得多。
歡迎登陸《經濟學人·全球商業評論》App,閱讀三月刊文章《一決勝負》了解更多
點擊「閱讀原文」,閱讀《經濟學人·全球商業評論》三月刊文章《一決勝負》
推薦閱讀:
※特寫:一花一木總是情
※20個蜂鳥特寫
※鞋帶女王的煩惱:唯一沒被中國製造打敗的百年鞋帶公司 |商周特寫
※圖文:影人特寫劉德華 引領風潮三十載