【重磅】馬斯克的AI野心——OpenAI Gym系統深度解析

1新智元編譯

來源:nvidia

譯者:王婉婷,弗格森

【新智元導讀】開源人工智慧系統OpenAI 的成立打破了谷歌、Facebook 等巨頭霸佔 AI 領域的格局,但其創始人、特斯拉CEO馬斯克多次發表人工智慧威脅論。馬斯克創立 OpenAI 目的何在?分析最近發布的OpenAIGym,可以找出他的真正動機。OpenAI Gym是一款用於研發和比較強化學習演算法的工具包,它支持訓練智能體(agent)做任何事——從行走到玩Pong或圍棋之類的遊戲,都在範圍中。本文其中一位作者是OpenAI 內部研究員,你想知道關於這個系統的一切,他都寫在這裡了。

2015年12月16日,特斯拉CEO埃隆·馬斯克(Elon Musk)和創業孵化器Y Combinator總裁山姆·奧特曼(Sam Altman)創建了人工智慧公司 OpenAI,並表示將開源其研究成果分享給研究人工智慧的每一個人。國外知名科技媒體《連線》雜誌發表評論文章,稱開源的OpenAI的成立將人工智慧研究推向高潮,同時也轉變了目前由谷歌、Facebook等巨頭引領的人工智慧領域競爭格局。未來,OpenAI有望成為這一領域的監管者,將其引向對人類更為安全的發展軌跡上來。

谷歌和Facebook正在將人工智慧推向新的時代,OpenAI至少還可以監督它們,當然還會監督其他人。深度學習初創企業Skymind.io的聯合創始人克里斯·尼科爾森(Chris Nicholson)說:「馬斯克和OpenAI已經看到了人工智慧的勢不可擋,他們唯一希望的是改變其發展軌跡。」

2016年4月28日,Open AI 對外發布了人工智慧一款用於研發和比較強化學習演算法的工具包OpenAI Gym,正如 Gym 這詞所指的意思(健身房)一樣,在這一平台上,開發者可以把自己開發的AI演算法拿出來訓練和展示,獲得專家和其他愛好者的點評,共同探討和研究。不管馬斯克希望把所有AI技術進行開發的夢想多麼遠大和浪漫,其背後的真正動機是什麼,至少,在OpenAIGym里,可以看到AI開放化的步伐正在漸漸加快。

如果OpenAI能夠堅守他們的使命,讓所有人都能接觸到新技術理念,那麼它至少將是對谷歌、Facebook等巨頭的一次考驗。

最近,OpenAI 研究人員 John Schulman 與NVIDIA 的 GPU 計算軟體首席技術員 Mark Harris分享了一些關於這個組織的細節,以及 OpenAI Gym 將如何讓AI研究者更容易地設計、迭代、優化他們下一代的應用程序。

John在加州理工大學修習物理學,隨後在加州大學伯克利分校繼續深造。在伯克利,繼短暫地學習了神經科學之後,他師從Pieter Abbeel研究機器學習與機器人學,最終將強化學習作為他的主要研究興趣。

John Schulman是OpenAI的一位研究員

OpenAI是什麼?

OpenAI是一家非盈利性人工智慧研究公司。每一天,我們都在致力於進行非監督式學習和強化學習的研究。我們的使命和長期目標是以將最大限度地造福全人類的方式發展人工智慧。

強化學習(reinforcement learning,RL)是機器學習的一個分支,它考慮的是做出一系列的決策。它假定有一個智能體(agent)存在於環境中。在每一步中,智能體(agent)採取一個行動,隨後從環境中收到觀察與回報。一個RL演算法尋求的是,在一個原先毫無了解的環境中通過一段學習過程——通常包括許多試錯——讓智能體(agent)收到的總體回報最大化。

上面說到的強化學習問題——涉及到一個讓回報最大化的智能體(agent)——是非常寬泛的說法,而RL演算法已經被應用到了許多不同的領域。它們被用於業務管理問題,比如用來決定一家商店應該持有多少庫存商品、或是應該如何設定商品價格。它們也被應用在機器人控制問題上,這個領域最近有了非常快速的發展。下面這個視頻展示了用OpenAI Gym訓練Hopper(一個二維單腿機器人)來儘可能快速地向前單腳跳躍。

強化學習關注的是做出好決策,而監督式學習和非監督式學習主要關注的是做出預測。然而,這之間有大量相通之處,有一些成為了研究中非常活躍的話題。除了不同的側重點之外,強化學習本質上的序列性也讓它無緣於大部分監督式學習問題。在強化學習中,智能體(agent)的決策會影響到它得到怎樣的輸入數據,也即它的決策最終帶來的效果。這使得強化學習更難發展出穩定的演算法,也讓探索成為必須——智能體(agent)需要不停地進入可能會收穫大量回報的未知領域。

OpenAI Gym將怎樣幫助AI的研發?

OpenAIGym是一款用於研發和比較強化學習演算法的工具包,其中包括了各種環境,目前有模擬的機器人學任務、桌面遊戲、多位數加法之類的計算任務等等。我們預期工具包中包含的環境將隨時間不斷增多,用戶也會將他們自己創建的環境加入到其中。這些環境都有一個通用交互界面,使用戶能夠編寫可以應用於許多不同環境的通用演算法。

OpenAIGym也有一個網站,人們可以將他們在這些環境中的訓練結果發布到網站上並分享他們的代碼。這個網站的目的是讓人們能簡單地迭代並優化他們的RL演算法,並對什麼演算法才是有效的演算法有一個概念。

為了讓你感受一下代碼是什麼樣的,下面給出的是創建其中一個環境(經典倒立擺(cart-pole)任務,目標是在一輛移動的小車上讓垂直放置的長桿保持平衡)、模擬一些隨機行為、隨後將結果提交到分數板上的方法(在實際操作中,你只有在應用了一個學習演算法以後才可能想要提交結果)。

這一小段代碼不包括任何學習或是訓練——學習和訓練會需要更多的代碼。很快我們就會貼出在OpenAI Gym的環境中簡潔實現各種重要演算法的展示,如果你感興趣的話,記得關注我們的網站。

神經網路怎樣用於強化學習?

為了回答這個問題,我需要談一點關於RL演算法學習了什麼的問題。一些強化學習演算法關注的是學習一個策略(policy),這是一個輸入觀察(例如相機照片)、然後輸出行動(例如motor torques)的函數。其他演算法關注的是學習估值(value)函數,它衡量的是狀態(也即世界的狀態,the state of the world)以及行動的好壞。鑒於我們通常都無法查知世界的整體狀態(full state),我們一般會使用一個或是更多過去的觀察來作為替代。Q函數(估值函數的一種)衡量的是狀態-行動組(s, a)的好壞,也就是說,Q(s, a)能告訴你「如果我處於狀態s中並選擇行動a,我能獲得多少回報」。有了這個Q函數以後,你就能簡單地選擇出帶來最高預期回報的行動。這也就是說,Q函數定義了策略。下面這個視頻展示了如何在OpenAI Gym上訓練深度Q網路(Deep Q-Network)來玩Breakout。

基於策略的演算法和基於Q函數的演算法在核心上非常相似,我們可以用神經網路來表示策略和Q函數。例如,當玩Atari遊戲的時候,向這些網路輸入的是屏幕上的一個圖像,同時有一組離散的行動,例如{扔套索, 左走, 右走, 開火}。你可以用一個卷積神經網路將屏幕圖像作為輸入並輸出一個代表四種行動之一的數字,表示出行動的好壞,作為這個任務的Q函數;用一個結構相似、輸出每種行動可能性的卷積神經網路作為策略。

Schulman et al.(2015)使用的結構,上方的結構用於模擬機器人控制,下方的結構用於玩Atari遊戲。

OpenAI Gym與眾不同之處在哪裡?還有其他類似的開源環境嗎?

有各種各樣的開源環境集成,包括但不限於RL-Glue、RLPy、Arcade LearningEnvironment。我們從這些庫中獲得了靈感與一些代碼。OpenAI Gym也整合了最近加州大學伯克利分校的研究者們在對深度強化學習演算法做基準測試時的工作成果。闡述這個基準測試研究的論文可以從ArXiv下載,並且將會在今年的ICML上作展示。

比起之前提到的那些環境集成,OpenAI Gym更為完善,擁有更多種類的任務、更多任務的難度級別(包括在去年之前都無法解決的模擬機器人任務)。不僅如此,OpenAI Gym還獨有在線分數板,讓用戶能夠做比較並分享代碼。

OpenAI Gym的用戶都是誰?AI研究者如何從RL-Gym中獲益?

我們希望讓OpenAI Gym對於擁有不同背景的人來說都能夠使用。對RL毫無了解的用戶可以下載基礎代碼,在短短几分鐘之內開始實驗這些代碼。他們可以訪問不同環境的分數板並下載其上的解決方案代碼,隨後自行驗證這些解決方案(這是一個非常重要並且實用的功能!)並做修改。

AI研究者將能運用其中包含的環境進行RL研究。每種環境都有規範命名的版本號(semantically versioned),便於在論文中報告結果並易於理解。研究者們也能夠在分數板上將自己的演算法的效果與其他人的演算法作比較,並找到表現優異的演算法的代碼。

你們有計劃用NVIDIA GPU來加速OpenAI Gym嗎?GPU會為你們的工作帶來怎樣的增益?

GPU對於涉及大型神經網路的學習問題來說正在逐漸變得不可或缺。我們將會使用GPU來為大規模任務訓練神經網路,並且我們也預期我們的許多用戶也會這麼做。

更現實的環境渲染是否有助於讓學習遷移到現實世界?

是的,我相信真實感渲染(photorealistic rendering)能讓機器人在虛擬環境下接受訓練、學習到能夠遷移到現實世界的策略。尚有許多激動人心的可能性等待我們發覺。

OpenAI和OpenAI Gym的下一步是什麼?

非監督式學習和強化學習方面,我們很快就會開始發布我們一些持續進行的研究項目的結果。我們很期待看到用戶們用OpenAI Gym來做些什麼,並計劃繼續更新它,讓它成為一款對於研究社區和領域內新人來說都很有用的工具。


「招聘」

全職記者、編譯和活動運營

歡迎實習生

以及人工智慧翻譯社志願者

詳細信息請進入公眾號點擊「招聘」

或發郵件至jobs@aiera.com.cn


推薦閱讀:

(深度)艦艇出口,中國的市場著力點在哪兒?
孩子的一切問題,都能用「深度陪伴」治癒
閬苑仙葩 林黛玉的深度剖析(僅針對前80回的)《中》
誠信+感恩+人品=做人(深度好人)
中評深度專訪:梁愛詩論人大釋法

TAG:系統 | 深度 | 解析 | 野心 |