Google Brain Robotics: Towards Lifelong Robot Learning

01-26

晚飯被小夥伴們催稿，於是到睡覺前覺得拖延症不能第一篇就食言，於是掙扎寫第一篇處女作。

介於從小作文水平就不高，加上很多專業辭彙不知道中文，各位看官大可隨意當作飯後消遣讀物，不要太認真啦。本伊也只打算寫個樂子，講講見聞講講八卦，非常主觀，開心就好。萬一有人也覺得有意思呢，我就算撿了個便宜。

這次講講上個禮拜聽的Google Brain機器人組來講的所謂lifelong learning。內容部分來自@Judy Ye (Ye, 2017)和我自己的筆記，海報如下：

講座海報

來者是James Davidson，Google Brain的Software Engineer。作為一個pro stalker，發現linkedin顯示他是2009年UIUC的Phd畢業（和海報不符啊喂！），按照他本人的說法來自控制理論背景，掃了一眼發過的論文大概有隨機系統相關，particle filter相關，當然按照海報說的，或許就是基於機器人的強化學習（只想說看他phd時期的論文標題有點存疑）。不管是不是survivors bias，09年之前就做基於機器人的強化學習，不得不說Google Brain裡面的人真的是非常令人敬佩。而且他說Google Brain Robotics組現在只有30個人，想想這麼少人做完manipulation做slam，一臉驚恐之後感嘆大公司的研發組恐怕也是小而精。

好吧然後講座開始啦。然後我因為開會遲到啦。開頭的資訊來自 @vztmvgo 同學 (Cao, 2017)。

James和CMU教授Abhinav Gupta看起來是好基友，全場最受矚目的恐怕還是懟人不倦的大白老師Chris Atkeson。當James開始講"Our plan is ..."的時候，Chris Atkeson接話茬"No plan."

開場

先講我們認為未來機器人的中心是人，在於人的感知、認知、和適應。然後就秀出了Google Brain Robotics組曾經遠近聞名的Arm Farm，也就是我的文章圖（好吧其實是視頻另一張）：

每次看到這種暴力演算法都感嘆：啊有錢真好。做Learning怕什麼，沒data啊。屌絲怎麼解決呢，我們跑模擬嘛。但是模擬不準啊。有錢人怎麼做呢，我們有機械臂的海洋啊。

問題

很多時候Learning只是在解決一些非常小的任務，每一個很小的任務都要大量的數據去訓練。
經典步驟我想熟悉的人都知道，我們制定一個任務，然後選取隨機的動作，或者依靠greedy的方式選取動作，然後採集大量數據，然後採集大量數據，然後採集大量數據……最終希望可以學習出來一個model。這種時間和空間的累積，也無法解決可拓展性的問題。

解決方案
於是就有了learning from demonstration，通過演示來學習。如果大家熟悉這幾年伯克利的網紅Sergey Levine教授，就是做這個方向的。當然所謂的演示也並不是真的抓一隻人類天天在機械臂面前抓來抓去啦，James聲稱可以從Youtube小朋友抓東西，用勺子等等成功與失敗的視頻中的demo來學習。哎呀不要問為什麼是小朋友，哪個大老爺們錄自己抓東西的視頻啊。萌即正義！不過想想也是可怕，Google帝國啊，有什麼是狗家拿不到的data嘛？
當然最嚴重的也是眾所周知的問題就是模擬和現實的差距。我企圖搜到他用的視頻但是失敗了。一隻在模擬器里行走的愉快而優雅的機器人，同樣的參數直接應用到真實的機器人身上，走起來就是一瘸一拐的。理由很明顯，模擬無法真正模擬硬體，信息量遠遠不夠。這就是之前Boston Dynamics的Atlas視頻出來我想退學的原因（微笑），雖說模擬裡面的full body control好多年前就已經做出來了，但是真機上真正做出來的時候還是覺得，太強了無法接受。
解決方案
將一些認知（Perception）的方法遷移過來。個人覺得這個說來容易做來難啊，在筆者一丟丟對於醫療機器人的了解，怎麼去完全model觸覺都沒有真正的搞清楚，遷移perception感覺也是任重而道遠。
插播一則Chris懟人，他認為模擬對於不需要和環境有很多接觸和互動的任務來講，還是非常合適的。同時，要解決這個模擬和現實的差距還有一個好辦法是modulize模塊化，去把可以分割的部分分出來，每個逐一分析和建模，讓誤差互相之間不要有太多關聯。
當然還有數據維度很多不好訓練，而很多訓練的網路也多多少少存在問題的。

解決方案
你猜狗家會說什麼，tensorflow啊（微笑）。同時也可以去尋找一些更好的代表及表現方法（Representation），比如對連續空間的處理等等。

視覺導航

其實每次講到Lifelong Learning，大家無非都是在提記憶。James說他們在做建圖和導航的learning時是希望基於認知的。這樣就造成了一個問題就是，對於mapping太多，對於planning太少了。我個人認為planning這種怎麼說都是真AI搜索的東西，你要是偏要learning我是不高興的（咦我黑了誰？）。

對於這個的解決方式是spatial memory，也就是記憶。同時希望可以做到mapping和planning同步（其實我沒太懂這裡……）。

最後就講了講展望，和一些特別technical導致我沒聽懂的東西。

最後一則Chris的懟人。講道理每次大白老師在場我都非常同情講者，這次Chris直接說：Lifelong learning is everything Google is not good at. 簡直全場嘩然。他的大概觀點是，Lifelong learning做的是每個點點滴滴穿起來的事情，而google最不擅長的就是這件事。我想了很久，其實也還是不太知道他到底在refer些什麼。

結束之後我一臉壞笑的跑去問，你們狗家如何看待Boston Dynamics呀？James一臉壞笑：No comment。我賣個萌說，哎呀評論一下技術性的東西嘛。他說，我作為控制出身的人非常敬佩BD的成果，一個傳統控制領域需要一些里程碑式的作品。我之後想想，哎真是一個完美的回答啊，肯定了傳統控制領域的基礎，也沒有給做learning的下不來的台階。大概從挺久以前，我就在思考是不是我們真的處在一個歷史性的轉折點了。一個從theory driven的時代到data driven的時代了。作為一個其實並不相信learning是解決問題根本方法的人，也在思考自己的執著到底是該有的堅持還是該放下的執拗。在看不清的未來面前，大概大家都是平等的吧。

第一期流水賬結束啦，希望看官中意。