基於人工智慧的遊戲代理商

07-31

說明

我們生活在一個激動人心的時刻。我們都是創建智能機器和機器人軍隊。創造這些機器一直有一個夢想，其中一個最大的挑戰，人類面臨。什麼使這個令人興奮的是，沒有人知道這些智能機器和機器人會影響我們的回報。他們會把他們的工作？或者他們會創造新的途徑和機會，這是我們人類不能認為現在！不過有件事是肯定的–有很多自動化大約發生在這裡！

研究人員已經創建了一個路線圖機器智能研究。下面的套房，一些大平台已建成讓本研究。在這篇文章中，我解釋了加固簡單來說學習和比較大平台測試的強化學習演算法。請注意，我只包括那些項目的環境和不具有增強學習演算法的集成支持專用平台。

這些平台將使新一代的研究和新的發現/開發人工智慧和機器學習。

強化學習是什麼？
強化學習的例子
什麼是強化學習的平台？
強化學習平台實例
主要平台列表
其他一些著名的平台

1。強化學習是什麼？

讓我們從一個簡單的類比。如果你家裡有寵物，你會與你的寵物用這種技術。

一個遙控器（或笛）是一種技術，讓你的寵物知道一些治療大概要得到服務！這基本上是「補」你的寵物養成良好的行為。你點擊「點擊」和跟進治療。隨著時間的推移，你的寵物就會習慣於這種聲音和回應每一次他/她聽到聲音。用這種方法，你可以訓練你的寵物做「好」的行為時。

現在讓我們在例子中使這些替代品：

寵物成為人工劑

治療成為獎勵功能

良好的行為是合力的作用

上面的例子說明了強化學習看起來像。這實際上是一個強化學習的經典例子。

應用在人工代理，你有一種反饋迴路來加強你的代理。它的回報時，所採取的行動是正確的，懲罰的情況下，這是錯誤的。基本上你的小貓：

一個內部狀態，它是由代理學習環境

一個獎勵功能，這是用來訓練你的代理如何表現

一個環境，這是一個場景的代理必須面對

一個動作，這是通過在代理環境

最後但不是最不重要的，一個代理所做的所有事！

來源閱讀與RL組

2。強化學習的例子

現在，我相信你必須思考如何進行動物實驗可以給人們練習機器學習相關。這就是我想當我遇到強化學習第一。

很多初學者往往認為只有2種類型的問題在機器學習–監督學習和無監督學習。我不知道這個想法是從哪裡來的，但機器學習的世界遠遠超過2種以上問題。強化學習是一個這類問題。

讓我們在強化學習一些現實生活中的應用。一般來說，我們知道的開始狀態和結束狀態的代理，但可能有多條路徑到達最終狀態–強化學習可應用在這些場景。這實際上意味著，無人駕駛汽車自主導航的吸塵器，調度電梯都應用強化學習。

這是一個視頻遊戲訓練玩Flappy Bird BOT。

三.什麼是強化學習的平台？

在我們尋找到一個平台是什麼，讓我們試著去理解一個強化學習環境。

強化學習的環境是什麼樣的一個代理可以觀察和行動。代理人的視野是非常大的，但它的代理的任務，可以幫助它最大限度地發揮其獎勵的環境中執行的行動。按「強化學習」簡介Murphy（1998），

環境是一個建模為一個隨機的有限狀態機的輸入（從代理髮送動作）和輸出（觀察和獎勵給代理）。

讓我們舉個例子，

這是一個典型的遊戲馬里奧。記得你如何玩這個遊戲。現在考慮一下你的「代理人」，誰是在玩遊戲。

現在你有了「准入」機會之地，但你不知道會發生什麼，當你做一些事情，說砸磚。你可以看到一個限量的「環境」，直到你遍歷全世界你不能看到所有的一切。所以你周圍的世界，試圖理解什麼是在你前面，同時盡量增加你的機會去實現你的目標。

這個「故事」不是創造出來的。你要「渲染」這一。這是該平台的主要任務，即創建一個完整的經驗–環境所需的一切，代理和獎勵。

4。學習平台主要加固我）Deepmind Lab

DeepMind Lab是一個完全的3D遊戲平台為基於人工智慧的研究

最近發布的谷歌DeepMind，Deepmind lab是一個集成的代理平台通用的人工智慧研究的一個焦點上的第一人稱視角遊戲。它的建立是為了滿足在DeepMind的研究。DeepMind實驗室是基於一個開源引擎ioquake3，被修改為人工系統集成介面靈活。

我喜歡的東西

它具有更為豐富和逼真的視覺效果。

與遊戲環境更緊密的整合

我不喜歡的事情

它仍然缺乏一個遊戲環境變化，這會隨著時間的推移建由開源貢獻。

也在那一刻，它只支持Linux，但已經在不同的操作系統測試。Bazel（這是一個為DeepMind實驗室依賴）是實驗的Windows。所以Windows支持Deepmind實驗室仍然沒有保證。

資源的進一步探討：

釋放後

開放源代碼庫

deepmindlab

簡單教程

二）openai健身房

（openai健身房）為發展與強化學習演算法工具包

openai健身房是為了創造一個平台，評估和基準測試人工代理遊戲環境。我最喜歡的健身房，隨著工具包，有社區支持，圍繞它，即評價平台，代碼共享平台和交流平台。運動平台由隨著樣品溶液由社區提供多類環境

我喜歡的東西

遊戲環境相當支持各種開源。

我不喜歡的事情

像Deepmind實驗室，健身房也有支持環境限制的數量（這基本上是照顧openai宇宙）

資源的進一步探討：

釋放後

開放源代碼庫

白皮書

簡單教程

三）openai宇宙

宇宙是一種測量培訓AI的智力在世界上供應的遊戲軟體平台，網站和其他應用程序

這基本上是openai健身房的延伸，與字面意思是「什麼」你可以做一個計算機支持。宇宙是建立在模仿人類如何與計算機進行交互。它使用虛擬網路計算訪問遠程電腦的任何程序，包並將其轉換成一個健身環境。我喜歡的東西

無限制地訪問任何遊戲環境。

宇宙不僅限制的遊戲環境，它可以用來取代像手工測試和工作在亞馬遜的Mechanical Turk

我不喜歡的事情

最初的版本缺少許多，答應的事情，重要的是集成Windows。

資源的進一步探討：

釋放後

開放源代碼庫

簡單教程

四）工程馬爾默

馬爾默平台是一個複雜的人工智慧實驗平台之上的Minecraft，旨在支持在人工智慧基礎研究。

項目是由馬爾默微軟研究院的一個研究計劃，以建立智能代理完成複雜的任務。Minecraft是建設一個完美的方案AI劑，這就是為什麼他們選擇了它。

我喜歡的東西

一個複雜的環境整合

定製的遊戲環境的靈活性

我不喜歡的事情

支持是Minecraft，並沒有其他的遊戲環境與openai宇宙。

資源進一步探索：

釋放後

開放源代碼庫

白皮書

簡單教程

vizdoom V）

基於人工智慧的研究平台，厄運，從原材料的視覺信息的強化學習

我個人認為這建立AI最有趣的平台，你可以用一個競爭環境下測試代理多代理支持。平台上運行的厄運，第一人稱射擊遊戲，有各種層次和模式。

我喜歡的東西

遊戲模式與競爭環境的變化

我不喜歡的事情

類似以上的平台，vizdoom只支持一個環境。

資源進一步探索：

釋放後

開放源代碼庫

白皮書

簡單教程

5。主要平台列表

其他一些著名的平台

RL膠

關於語言：為連接劑的品種標準介面、環境和實驗程序。

資源主要的維基頁面

commai

關於：用於訓練和測試平台的人工智慧基於通信任務系統

資源GitHub的回購

粗麻布

關於：麻布是一個單或多主體規劃和學習演算法和域陪伴他們的使用和開發java代碼庫。

資源GitHub的回購

rlenvs

關於：Lua類似openai健身房但平台

資源GitHub的回購

致謝

由於AV界和Reddit的有益的討論社區。特別感謝johny_cauchy，kendingpku和kaixhin他們的反饋。

最後的筆記

在這篇文章中，我們簡要地看看什麼是強化學習。我列出了所有的主要平台的研究。大多數這些依靠遊戲環境模擬現實生活的條件。如果你知道其他的平台，強化學習，讓我知道在下面的評論！

你的工作在任何這些平台？在你評論滴分享你的經驗。如果你有任何疑問/建議/反饋我會愛你聽到它。隨時發表您的評論。

你可以測試您的技能和知識。檢查生活比賽和最好的數據科學家來自世界各地的競爭。分享

點擊分享在LinkedIn（在新窗口中打開）

點擊分享臉譜網（在新窗口中打開）

點擊分享在谷歌+（在新窗口中打開）

點擊分享推特（在新窗口中打開）

點擊分享口袋（在新窗口中打開）

點擊分享在Reddit（在新窗口中打開）