圍棋告一段落,AlphaGo的下一步要解決什麼問題?

上個月人類與人工智慧(AI)的一場重要比賽中,谷歌人工智慧AlphaGo擊敗了世界頂尖圍棋選手柯潔。

AlphaGo是由Alphabet旗下人工智慧部門DeepMind開發的人工智慧程序。去年,它以四比一的總比分擊敗了另一名頂尖圍棋選手李世石,但自那以來,AlphaGo的性能已經有大幅改善。柯潔將AlphaGo的技能描述為「圍棋上帝」。AlphaGo現在將不再進行圍棋比賽,絕塵而去。一名圍棋專家將其描述為「未來的遊戲」,人類將需要研究多年來改進自己的遊戲。

準備好了,人工智慧AlphaGo即將出發。

圍棋是一種古老的遊戲,本質上是兩個玩家之間的博弈。棋盤有19條橫線和19條豎線,一方是黑子,另一方是白子,通過不斷博弈看誰在棋盤上佔據主導地位。由於棋盤上每個位置的棋數要更多,因此圍棋比國際象棋要複雜得多。這使得計算機要通過遍歷所有可能的棋數變得非常困難。

從理論上講,DeepMind的突破在於通用學習演算法的發展使其可以在與社交相關的領域中進行訓練,而非圍棋本身。DeepMind表示,AlphaGo背後的研究團隊正在尋找利用人工智慧解決其他複雜的問題,比如尋找治療疾病的新方法,極大地降低能源消耗,或者是發明革命性的新材料。

該公司補充稱:「如果人工智慧系統能夠證明他們能夠在這些領域中發掘出重要的新知識和新策略,那麼這些突破將是非常了不起的。」我們迫不及待地想看看接下來會發生什麼。這為未來帶來了許多機遇,但挑戰依然存在。

神經科學遇見人工智慧的結果。

在過去的幾年裡,AlphaGo將關於機器學習的兩個最強大概念結合在一起:深度學習和強化學習。值得注意的是,這兩項研究最初的靈感都來自於人類大腦如何從經驗中學習。在人類大腦中,感官信息經過了一系列層次處理。例如,視覺信息首先在視網膜中產生,然後在中腦處理,然後通過許多不同的大腦皮層區域處理。這就創建了一種層次結構,其中簡單、局部的特徵首先被提取出來,然後再由這些特徵構建更複雜的全局特徵。相應的人工智慧方法被稱為「深度學習」,因為它涉及到許多層次的處理,就像簡單的神經元計算單元一樣。

但要想在這個世界上生存下去,動物不僅需要識別感官信息,還需要採取行動。幾代科學家和心理學家都在研究動物如何學會採取一系列行動,以最大限度地獲得回報。這導致了強化學習數學理論的產生,現在也可以在人工智慧系統中實現。其中功能最強大的是時間差異學習,它通過將未來回報的期望最大化來提高行為力。

採取最好的行動。

通過在一系列人工神經網路中運用深度學習和強化學習,AlphaGo首次從圍棋比賽中獲得了3000萬步的人類經驗。但隨後,它開始與自己進行對戰,利用每一場比賽的結果,改進自己在每步棋中對全盤棋局的影響。價值網路讓其學會了根據任何位置預測可能的結果,而策略網路則讓其學會了在每種情況下採取的最佳行動。儘管它無法對每一步棋進行採樣,但AlphaGo的神經網路對在任何位置都能運行良好策略提出了關鍵思維方式。

在過去的一年中,AlphaGo無數個小時的自我訓練讓AlphaGo獲得大幅改進。但目前還沒有一種已知的方法可以通過詢問機器本身來直接了解這些關鍵思維是什麼。相反,我們只能研究它的比賽,並希望從中吸取教訓。這是使用這種神經網路演算法來幫助做出決策的問題之一,機器無法解釋他們的推理。我們仍然對人類大腦的實際運作方式知之甚少,而神經科學將繼續為人工智慧的改進提供新的靈感。人類可以依託更少的實踐經驗成為圍棋高手,因此這樣看,顯然人工智慧還有進一步提升的空間。此外,AlphaGo的大部分性能都是基於一種名為「反向傳播學習」的技術,幫助它糾正在比賽中的錯誤。但這與人類大腦的運行方式有何關聯尚不清楚。

下一步是什麼?

圍棋比賽為優化這些學習演算法提供了一個很好的開發平台。但許多現實世界的問題比這更複雜,那麼目前的演算法是否能夠被立即應用呢?很可能是在受控工業環境下對其進行優化。在工業控制環境下,人工智慧的目標通常是完成一系列複雜的任務,同時滿足多個約束並使成本最小化。只要這些可能性能夠被精確地模擬,這些演算法就能夠不斷探索和學習。

正如該公司所言,DeepMind的大膽聲明很可能會實現,我們迫不及待地想看看接下來會發生什麼。

(本文由網易見外智能翻譯平台提供翻譯服務,英文來源:singularityhub,校對:晗冰)

網易AI研究院 2017年6月9日

推薦閱讀:

團體賽相談棋的形式能贏 AlphaGo 嗎?可能的勝機何在?
AlphaGo 戰勝了李世石,人工智慧突破了圍棋領域,這意味著什麼?
二十年前,世界最強的圍棋AI出自中國
如果阿爾法狗和人類一起打爐石那麼誰會贏?
如何看待柯潔4月與阿法狗的三番戰,以及人類高手組團對決阿法狗?

TAG:AlphaGo | 围棋 | 人工智能 |