Chelsea Finn博士論文賞析

10-14

Chelsea Finn博士論文賞析

來自專欄智能單元253 人贊了文章

今天Flood和大家分享一下Chelsea Finn的博士論文賞析。

Chelsea Finn，想必很多人還是很熟悉的，可以說是AI圈最牛逼的博士之一吧。我也算是自來粉，雖然曾經的paper還被她弊了，但是她的paper我都看啊。

所以我們來看看她的博士論文，吊炸天的博士論文，應該還是可以有所啟發的。

她的博士論文名稱叫Learning to Learn with Gradients，大家Google一下可以找到原文。

看到這個名稱，我的第一感覺是她真的對自己的MAML及之後基於MAML的各種應用有一個非常深刻的理解。MAML的方法可以說是Meta Learning三大方法之一，另外兩個方法就是conditional neural network條件神經網路及neural network parameter generator神經網路參數生成，具體我們可以單獨開一個blog說。MAML的特點在於通過梯度下降的方法來Learning to Learn。想來還是蠻特別的，所以很多應用本來加個條件神經網路加以處理，改用MAML就顯得很fancy。

現在我們來說說Chelsea Finn的工作。她的工作給人的感覺就是非常的完整solid，簡單的說就是：

1）選擇一個新問題

2）構造一個新的方法論

3）基於新的方法論做應用

Chelsea Finn完美的做到了。她的博士論文簡直就是一個Meta Learning或者MAML的教程。MAML現在的影響力非常大，雖然方法論看起來真的非常簡單。但可能也是正因為簡單，所以大家都在用。某種程度上，MAML可以類比Ian Goodfellow提出的GAN，都是各種領域的一個全新方法，並且基本原理都非常簡單，只是GAN可以做出很酷炫的視覺效果，而MAML在Meta Learning上相對比較局限，特別是Chelsea Finn只是在Robot Learning領域上做，不過也足夠酷了。這確實是一個頂級PhD做出來的事情，很佩服。

那麼看她的博士論文，我們應該思考什麼問題呢？

1. 為什麼選擇Meta Learning這一研究方向？

2. 為什麼構造出MAML這一通用Meta Learning演算法？

3. 為什麼選擇做這些robot learning的應用？

Meta Learning一開始只是在Few-Shot Learning問題上做，然後當時Reinforcement Learning這塊大家最大的質疑恐怕就是測試集就是訓練集本身（比如玩Atari遊戲，就只是在Atari這個遊戲本身上玩高分）。那Reinforcement Learning如果才能在新的任務中學的更好，更快呢？這就不知不覺演變成了Fast Reinforcement Learning的問題，而具體看就是Meta Learning的問題設定了。所以，Chelsea Finn顯然是看到了這個問題的潛力，所以就來做了Meta Learning。而事實也充分證明了Chelsea Finn選擇這個課題的眼光是非常好的，現在Meta Learning已經成為一個非常火的話題了，今年的ICLR19投稿的Meta Learning文章有70多篇，是Reinforcement Learning的一半。估計到明年會全領域大火。就如我之前說的，Meta Learning是一個通用的深度學習渦輪增壓器，什麼問題都可以加。

選擇一個有潛力的研究方向，可能就成功了一大半了。然後就是Chelsea Finn的超強實力，提出了MAML這一全新的Meta Learning方法。當我分析Meta learning的三大方法論的時候，我覺得MAML並不是最好的方法，畢竟它需要二次梯度，訓練速度慢，並且數據樣本必須有loss來做梯度下降（老實說就因為二次梯度這一點，讓MAML很難做到large scale，這可能是Chelsea會去解決的問題。OpenAI提出Reptile簡化MAML但是在RL上效果並不好，甚至不如簡單joint-training）。相比之下可能條件神經網路什麼都能做。但是條件神經網路一聽好土啊，這就是Meta Learning了？大家會不屑，但是MAML一聽，很酷很Fancy。Chelsea Finn還用強大的理論能力證明MAML和其他方法一樣，具有通用性，能夠逼近任意一個函數。這就奠定了MAML的江湖地位了。然後我們必須承認，能想到MAML其實很不容易的事情，需要對Meta Learning有一個很深刻的認識，而這一點Chelsea Finn應該是比大多數人都超前了。

有了MAML這個理論基礎之後，Chelsea Finn或者整個Sergey Levine團隊都開啟了瘋狂水paper的模式。把Robot Learning中的Imitation Learning，Reinforcement Learning等各個環節都變成Few-Shot Learning或者Fast Adaptation問題加以研究。而Chelsea自己則在Few-Shot Imitation Learning上做得非常強，把MAML的用處發揮得淋漓盡致，在One-Shot Imitation Learning from Demonstration上得到完美體現。

https://www.zhihu.com/video/1031484649771573248

做完Few-Shot Imitation Learning，Chelsea Finn又開始做Meta Inverse Reinforcement Learning及Few Shot Goal Inference，說白了就是學一個meta reward function，只要少量樣本，就能學到一個reward function，然後用RL訓練。這種思路倒是相比之下比較容易想到了。但是Sergey Levine他們團隊的研究連續性讓其他研究團隊基本沒有任何機會了，這也導致Meta Robot Learning這一塊的問題全部讓他們做了。

從Chelsea Finn幾年的研究看下來，真的是自己挖個大坑，然後瘋狂填坑。這確實是大神才能做出來的事情。

對我們Researcher來說可以有什麼啟發呢？

1. 選對研究方向確實是最重要的。Meta Learning with Robot Learning恐怕是很難做了，但是如果你做Meta Learning with NLP還可以做，或者Multi Agent Meta Learning也可以做。或者當然了，最好是選擇一個更新的更沒有人想到去做的問題。比如Meta Learning的下一步是什麼？

2. 構建自己的理論根基然後再做更具體更細的應用。這當然是非常非常難的事情了。但是實際上很多大神及公司都是這麼做的。比如DeepMind，在DQN上開發了多少新版本。然後個人的話很類似的就是DeepMind的Adam Santoro，自從提出了relational network之後，就瘋狂在這上面水paper了。

最後就是Meta Learning的理論層面就只有這樣了嗎？

我覺得不然。

說白了Meta Learning就是要學習一個y = F(D,x;theta) 這樣一個函數，F是神經網路，theta是對應的參數。D是訓練樣本，x是當前輸入。對於這樣一個神經網路，怎麼學才能學的更好？我們可以改網路結構，可以改訓練模式。MAML在Few-Shot Learning也早已不是最好的方法，所以在RL上，在Robot Learning也沒有道理只用MAML來做。我想這些都是值得去研究的。

今天的賞析就到這裡，感謝大家的閱讀與支持！

最後，歡迎大家關注本人公眾號：FloodSung的AI遊樂場，可以掃描頂部圖片的二維碼，本人所有文章都將在公眾號優先發布！謝謝！