怎樣看待地平線機器人以深度強化學習演算法為切入點?
是deepmind的成果激勵還是該方案可能會是一個比較通用的AI框架。
主要還是task的問題,機器人方面的很多task本身就很適合於用Reinforcement Learning解決,中間的state-action空間太大,uncertainty太多,人很難用其它模型把他們都表示出來。用deep learning簡單粗暴,只要能想辦法把它弄收斂就行了,目前看起來還是挺有戲的。如果要是能用graph模型整出來的話肯定比deep learning好啊,省計算省空間還能解釋清楚,這就得看學術界的了,正在看這方面,覺得智商無法支持。。------------------------------------
額, 快半年前發的了, 稍微編輯一下吧.
這半年的主要精力放在了visual slam的部分, 對DRL沒有再做仔細的思考, 可能到下半年去地平線以後會再根據項目撿起來. 這兩年DL大火, 主要還是圖像語音方面supervised learning的成果, 應該說supervised learning的局限是有目共睹吧, 通過這半年follow的幾門ML相關的課程來看, 老師們的授課重點都已經放在unsupervised和semi-supervised上, 傳統的supervised版本ANN, SVM都被當成了常識, 一兩節課帶過. RL更像是high level一點的思想, 無關supervised或unsupervised的事情, 只要對RL問題的求解有幫助都可以拿來用. 比如award函數可以用CNN來learn, 日後可以換. 機器人框架可以分為perception, planning, control三部分, 按照俺老師的說法, control可以算是well studied了, perception這些年有賴DL進展也不小, RL正好做planning, 中間一串起來, 整個系統就可以work起來了. 個人覺得pieter他們那樣end to end也不是必須得, 只是聽起來比較炫酷, 總之這還是個坑很大的方向, 繼續關注著吧...這個問題有意思,回答一下。
短期內,我覺得Deep Reinforcement Learning(DRL)應該不會是地平線的主要支撐。DRL對數據的需求不同於supervised learning,需要大量的」活數據「才能有效地訓練出來,而supervised learning只需要一個很大的離線數據集就可以。這是因為DRL不僅僅涉及學習,還涉及如何採樣,需要一個能實時根據agent action提供新樣本的environment。這也是為什麼DeepMind很聰明的選擇了Atari和Go作為起點,因為對於遊戲來說,可以很方便地通過emulator去生成大量的在線數據。相比之下,如果要用DRL從頭開始學無人駕駛,恐怕要撞毀無數輛車才能真的學出一個能用的模型吧。當然這個方向也不是沒有辦法,最好是有那種可以允許快速試錯、採樣成本低的場景,再不還可以採用一起其他折衷的辦法,包括用simulated環境進行預訓練再進行轉移學習,或者用off-policy在離線數據上預訓練再上線微調。但是不論怎樣,都還有太多的不確定性,不能立刻像CV類演算法一樣快速轉換為產品。
長遠來看,我覺得RL恐怕是任何認真想做AI的公司都不可能忽視的方向,這是因為RL這個框架研究的是一個更基本的問題,當你做出的預測會影響接收預測的人或物時,你怎麼能預判這種反饋環的演進進而做出最優抉擇。隨著AI演算法被應用到越來越多的場景中,預測和下一步採樣之間的耦合將更普遍地被發現,到那個時候應用RL恐怕是逃不掉的。而且這是一個讓做RL的人打雞血的時代,從DQN開始,我們看到各種傳統的RL工具鳥槍換炮能處理」實際「問題了。這裡面不僅僅有Q learning,還有AlphaGo里的估值網路(狀態價值函數)和走子網路(環境一階轉移矩陣),還有今年的Continuous Actor-Critic。Deep learning是一把鑰匙,而DRL的門後還有很多東西沒有開發。
遺憾的是,這個領域目前還是被DeepMind霸佔,沒有百花齊放的狀態。近期的OpenAI勢頭很強,但是定位似乎沒有DeepMind的雄心萬丈。希望地平線這樣的公司能把RL納入到戰略構圖中,至少在應用,最好在演算法上,能在這個新領域發出一些不一樣的聲音。非常正確的路徑!
deepmind現在已經漸入佳境,從早期的DQN到現在的DDPG,離問題的實質越來越近,相信他們在10年內會有突破性的成果。不得不佩服google的眼光,超過其它大佬好大一截。這是要走pieter的路線啊。
拋磚引玉吧。
個人感覺他們主要是受到ucb的pieter的啟發,應該不是deepmind吧。deeplearning在機器人應用這幾年發展很快。我主要關注了ucb和cornell兩邊。個人感覺deep policy應該是比較靠譜的方案。機器人運動規劃其實挺噁心的,比想像的要難。當初的deep learning學個feature用處不大。 policy算是運動規劃主流方法裡面比較適合結合deep learning的。sampling based motion planning還不知道怎麼弄,trajectory optimization本來就還有些問題,很trick。基本就是deepmind的思路嘛,不過要從dl發展到符號表示不容易啊。。。
要說實用和效果,如果不是數據量特別少的領域,現在還真得是首推deep learning。特別是在工業界,圖模型、Bayesian系的東西,理論上雖然很好,但是不是算不動就是推不出,很難work,只有神經網路,簡單實用好實現,(基本)不用推導易訓練。只要數據量夠,一定還你一個好效果。
俺先都贊一遍問下有去過 地平線機器人公司 參加面試的嗎,筆試難不,都考些啥
是先用自己的」套路」邊試邊學, 還是把所有情況都考慮之後再總結, 這是一個問題 — David 9
David 9 本人並不提倡用外部視角或者」黑箱」來看待」智能」和」機器學習」.
正如《西部世界》迷宮的中心是自己的內心. 神經網路發展到目前的深度學習, 正是因為內部的結構發生了變化(自編碼器, 受限玻爾茲曼機, 改進的激活函數, 等等…) . 所以David 9 相信神經網路未來的發展在於人類對內部結構的新認知, 一定有更美的內部結構存在 !
而今天所說的增強學習, 未來更可能作為輔助外圍框架, 而不是」智能核心」存在.
詳見: #15 增強學習101 閃電入門 reinforcement-learning
從手動處理Feature到自動處理Feature.
推薦閱讀:
※同價位的專業卡與遊戲卡誰更適合跑深度學習相關程序?
※學數學用中文還是英文?
※為什麼說雲計算、大數據、機器學習、深度學習被並稱為當今計算機界四大俗?
※AlphaGo 演算法的通用性到底有多廣?
※AlphaGo挑戰《星際爭霸2》會像圍棋之戰一樣橫掃頂級選手嗎?
TAG:機器人 | 人工智慧 | 機器學習 | 深度學習DeepLearning | 強化學習ReinforcementLearning |