預告:分享Pieter Abbeel和Sergey Levine基於深度增強學習在機器人中的應用(論文)

近期,人工智慧在計算機視覺、自然語言處理、語音識別等等領域都得到了廣泛的應用。AI如此的火,那麼她能不能應用在機器人領域呢?

很多小夥伴針對這個問題也進行了討論:有沒有將深度學習融入機器人領域的嘗試?有哪些難點?, @fly qq 大神的回答已經非常的全面。除了這個討論,還有些其他的討論,例如深度學習在機器人領域的局限和潛力都在哪裡?(上)等等。

最近自己也在看這方面的資料,先把這段時間看的內容做個小結,分享給那些和我一樣的初學者。

在分享「AI能不能應用在機器人領域」這個問題之前,先來補充點基礎知識,便於梳理AI的眾多演算法。引用 @李沐大神 視頻講座《使用MXNet/Gluon來動手學深度學習》的一副圖來說明人工智慧、機器學習和深度學習的關係。

下面的總結是參考了李沐大神的講義《gluon_tutorial_zh.pdf》。先對AI所涉及到的演算法進行簡單歸類,進而引出深度學習等能否應用到機器人領域這個話題。

(1)監督學習(supervised learning)

① 回歸分析(regression) 公司股票價格、房價、電影評分,強調「多少」

② 分類(classification) OCR、CEO離職、識別類別、動物分類

③ 標註(tagging) 「是否有」標籤

④ 搜索和排序*(search and ranking)

⑤ 推薦系統(recommender systems) 購物web、搜索引擎、新聞門戶

⑥ 序列學習(sequence learning) 視頻片段,機器翻譯,死亡風險

⑦ 語類標註和句法分析(tagging and parsing) 分解和注釋文本

⑧ 語音識別(automatic speech recognition)

⑨ 文本轉語音(text to speech)

⑩ 機器翻譯(machine translation)

(2)無監督學習(unsupervised learning)

① 聚類(clustering) 少量原形,精準概況

② 子空間估計(subspace estimation) 裁衣

③ 主成分分析(principal component analysis)

④ 表徵學習(representation learning) 城市向量

⑤ 生成對抗網路(generative adversarial networks) 生成數據,真實數據在統計中的相似性

⑥ 貝葉斯模型 因素間關聯性

(3)與環境因素交互

① 協變數轉移(covariate shift)

② 強化學習(reforcement learning)

③ 深度強化學習(deep learning learning) Deep Q-network,AlphaGo

④ 信用分配問題(credit assignment problem) 僱員升職

⑤ 馬爾科夫決策問題(Markov decision problem,MDP)環境充分觀察

⑥ 情境式賭博機問題(contextual bandit problem) 狀態不依賴於之前的動作

⑦ 多臂賭博機問題(Multi-armed bandit problem) 不存在狀態,僅有一組可選動作,問題初期搭配未知的獎勵。

李沐大神的講義非常清楚,給大家進行了非常清晰的歸類,解決了疑惑:遇到什麼樣的問題應該採用什麼樣的演算法和策略。

言歸正傳, @蓋蚊叮 給大家列舉了幾位將DL應用到機器人領域的研究者,再列舉一遍:

① Sergey Levine

② Pieter Abbeel

③ Ashutosh Saxena

④ Martin Riedmiller

⑤ Emo Todorov

⑥ Igor Mordatch

最近一則新聞引起了我的注意,離開OpenAI和導師一起創業,他們要讓機器人不編程也能像人一樣幹活,文中說的導師就是Pieter Abbeel。

Pieter Abbeel是誰呢?Pieter Abbeel和Sergey Levine又是什麼關係呢?

大家都聽過世界公認的計算機視覺大神Micheal Jordon,而他的弟子也是家喻戶曉,那就是百度前首席科學家Andrew Ng(吳恩達)。Andrew留校斯坦福之後,帶出了一名叫做Pieter Abbeel的弟子。Pieter Abbeel 2008年從斯坦福大學博士畢業後,回到了美國加州大學伯克利分校做教授。2014年,Pieter Abbeel實驗室的博士後Sergey Levine發明了啟發式策略搜索(Guided Policy Search),進一步提高了機器人學習新動作的效率。Sergey Levine後來成為了伯克利的教授,和Pieter Abbeel一起繼續在基於神經網路的機器人控制研究領域探索。(此段文字摘抄於 @YY碩 大神的文章又愛又怕,學術大佬各執一詞,工業機器人的未來是否真的由人工智慧主宰?)。

而我一直關注Sergey Levine和Pieter Abbeel的研究工作,可以詳見網頁Sergey Levine。

本專欄的目的就是來分享Sergey Levine和Pieter Abbeel的研究工作,主要對他們的代表作展開分析和討論。

① Deep Visual Foresight for Planning Robot Motion.

② Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates.

③ Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection.

④ End-to-End Training of Deep Visuomotor Policies.

先來分享一個Sergey Levine最近的talk,網址為:youtube.com/watch?

還有一個Pieter Abbeel的講座視頻,網址為:youtube.com/watch?

推薦大家看一下google research blog:research.googleblog.com

非常期待和您一起來討論《深度增強學習在機器人中的應用》,也歡迎大家積極投稿~


推薦閱讀:

你願意在大腦中植入晶元 升級成半機械人嗎?
甘來智能微超:懂你的自動售賣機,開啟無人超市新時代
隔閡——第三章:機管會
未來機器人入門——4:軟體

TAG:机器人 | 科技 | 制造业 |