人工智慧的熱點:深度強化學習正成為通往通用AI的關鍵

深度強化學習( DRL ) 是人工智慧研究的一個令人興奮的領域,這個領域在許多問題上都具有潛在的適用性。有些人認為DRL是通往通用人工智慧(AGI)的一條道路,因為它是通過探索和接收環境的反饋來反映人類學習的。

最近,DRL成功擊敗人類視頻遊戲玩家,以及雙足智能體學習在模擬環境中行走,這些進展都提高了人們對該領域的熱情。

與基於已知標籤訓練模型的監督學習不同,在強化學習中,研究人員通過讓智能體與環境交互來訓練模型。當智能體的行為產生期望的結果時,例如智能體獲得獎勵得分或贏得一場比賽,它會得到積極的反饋。簡單地說,研究人員加強了智能體的良好行為。

將 DRL 應用於實際問題的關鍵挑戰之一是構造一個激勵函數,該函數鼓勵期望的行為而不存在副作用。

也許值得注意的是,儘管深度強化學習(「深層」指的是底層模型是一個深層神經網路)仍然是一個相對較新的領域,但強化學習自上世紀70年代或更早就出現了。

圖丨Andrej Karpathy

正如計算機視覺領域大牛之一、李飛飛高徒、曾在OpenAI任研究科學家、現任特斯拉AI總監的 Andrej Karpathy 在他2016的博文中所指出的那樣,像AlphaGo和Atari Deep Q-Learning這樣關鍵的 DRL 研究都是基於已經存在了一段時間的演算法,但是深度學習取代了其他近似函數的方法。當然,他們能夠使用深度學習歸功於過去20多年中廉價計算能力的爆炸式增長。

DRL帶給人們的信心,再加上谷歌在2014年以5億美元收購DeepMind的行為,使得許多初創公司希望利用這項技術。由於人們對 DRL 越來越感興趣,我們也看到了新的開源工具包和 DRL 智能體的訓練環境。這些框架中的大多數本質上都是專用的模擬工具或介面,以下是幾個值得關注的工具包:

  • OpenAI Gym

OpenAI Gym是一個流行的工具包,用於開發和比較強化學習模型。它的模擬器界面支持多種環境,包括經典的Atari遊戲,以及機器人和物理模擬器,如MuJoCo和DARPA資助的Gazebo。和其他DRL工具包一樣,它提供API來反饋觀察結果和獎勵給智能體。

  • DeepMind Lab

DeepMind Lab是一個基於Quake III第一人稱射擊遊戲的3D學習環境,為智能體訓練提供導航和學習任務。DeepMind最近增加了DMLab-30智能體訓練套裝,並引入了新的Impala分散式智能體訓練體系結構。

  • Psychlab

另一個DeepMind工具包Psychlab今年早些時候開源了,它擴展了DeepMind Lab,以支持認知心理學實驗,比如搜索一組特定目標或檢測一組物體的變化。然後,研究人員可以比較人類和智能體在這些任務上的表現。

  • House3D

在加州大學伯克利分校和Facebook人工智慧研究人員的合作下,House 3D提供了45,000多個模擬室內場景,包括真實的房間和傢具布局。介紹House 3D的論文中提到的主要任務是「概念驅動導航」,比如訓練一個智能體,在只給出像「餐廳」這樣的高級描述符的情況下,導航到房子中的一個房間。

  • Unity Machine Learning Agents

在Danny Lange (VP of AI and ML) 的指導下,遊戲引擎開發者Unity公司正在努力將先進的人工智慧技術納入其平台。Unity Machine Learning Agents於2017年9月發布,這是一個開源的Unity 插件,它可以讓運行在該平台上的遊戲和模擬環境作為訓練智能體的環境。

  • Ray

這裡列出的其他工具主要關注DRL培訓環境,Ray則更多地介紹了DRL的基礎架構。Ray是由Ion Stoica和他在Berkeley RISELab的團隊開發的,它是一個在集群和大型多核機器上高效運行Python代碼的框架,其目標是為強化學習提供一個低延遲的分散式執行框架。

所有這些工具和平台的出現將使 DRL 更便於開發人員和研究人員使用。但是,他們需要得到所有的能得到的幫助,因為深度強化學習技術很難付諸實踐。谷歌工程師 Alex Irpan 最近發表了一篇題為「深度強化學習還不成熟」的文章,對原因進行了解釋。Irpan 列舉了 DRL 所需的大量數據、大多數 DRL 方法沒有利用關於所涉及的系統和環境的先驗知識、以及前面提到的提出有效的激勵函數方面的困難等問題。

從研究和應用的角度來看,深度強化學習能繼續成為人工智慧領域的一個熱門話題。它在處理複雜、多方面和決策問題方面顯示出巨大的潛力,這使得它不僅對工業系統和遊戲有用,而且在營銷、廣告、金融、教育,甚至數據科學本身等領域都很有用。

推薦閱讀:

TAG:人工智慧 | 強化學習ReinforcementLearning | 深度學習DeepLearning |