Meta Learning 入門：MAML 和 Reptile

07-14

本文介紹我最近學習的兩個 Meta Learning 的演算法：MAML 和 Reptile。原始論文分別見：Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks 和 Reptile: a Scalable Metalearning Algorithm 。文章內容結合了李宏毅老師的課程、toy example，以及我個人的理解，可能文字有點多，但力求通俗易懂。

背景

Meta Learning 中文翻譯為「元學習」，它研究的不是如何提升模型解決某項具體的任務（分類，回歸，檢測）的能力，而是研究如何提升模型解決一系列任務的能力。

如果把訓練演算法類比成學生在學校的學習，那麼傳統的機器學習任務對應的是不同科目，例如數學、語文、英語，每個科目上訓練一個模型。而 Meta Learning 則是要提升一個學生整體的學習能力，讓學生學會學習（就是所謂的 learn to learn）。就像所有的學生都上一樣的課，做一樣的作業，可偏偏有的學生各科成績都好，有的學生偏科，而有的學生各科成績都差。

各科成績都好的學生，說明他大腦 Meta Learning 的能力強，可以迅速適應不同科目的學習任務。
而對於偏科的學生，他們大腦的 Meta Learning 能力就相對弱一些，只能學習某項具體的任務，換個任務就不 work 了。對這種學生，老師的建議一般是：「在弱科上多花一點時間」，可這麼做是有風險的，最糟糕的一種情況是：弱勢科目沒學好，強勢科目成績反而下降了。可以看到，現如今大多數深度神經網路都是「偏科生」，且不說分類、回歸這樣差別較大的任務對應的網路模型完全不同，即使同樣是分類任務，把人臉識別網路架構用在分類 ImageNet 數據上，就未必能達到很高的準確率。
至於各科成績都差的學生，說明他們不但 Meta Learning 能力弱，在任何科目上的學習能力都弱，需要被老師重點關照……

Meta Learning 的演算法有很多，有些高大上的演算法可以針對不同的訓練任務，輸出不同的神經網路結構和超參數，例如 Neural Architecture Search (NAS) 和 AutoML。這些演算法大多都相當複雜，我們普通人難以實現。另外一種比較容易實現的 Meta Learning 演算法，就是本文要介紹的 MAML 和 Reptile，它們不改變深度神經網路的結構，只改變網路的初始化參數。

從網路參數初始化談起

訓練神經網路的第一步是初始化參數。當前大多數深度學習框架都收錄了不同的參數初始化方法，例如均勻分布、正太分布，或者用 xavier_uniform，kaiming_uniform，xavier_normal，kaiming_normal等演算法。除了用隨機數，也可以用預訓練的網路參數來初始化神經網路，也就是所謂 transfer learning，或者更準確地說是 fine-tuning 的技術。如果不了解 fine-tuning 技術，可以閱讀這篇博客：Building powerful image classification models using very little data，它通過微調預訓練的 VGG-16 網路，用較少的數據訓練了一個高精度的貓狗分類器（這是我當年跑通的第一個 deep learning 演算法，從此走上煉丹的不歸路）。fine-tuning 之所以能 work，是因為預訓練的神經網路本身就有很強的特徵提取能力，能夠提取很多有含義的特徵，例如毛皮，耳朵，鼻子，眼睛，分辨貓狗，只需要知道這些特徵是如何組合的就好了，這比從頭開始學習如何提取毛皮、耳朵、鼻子等特徵要高效得多。

利用預訓練的網路進行參數初始化，相當於賦予了網路很多先驗知識。類比我們人類，讓一個小學沒畢業的人去聽高等數學，顯然他是無法聽懂的；而讓一個高考數學滿分的高中畢業生去聽，他可能要學得輕鬆得多。如果忽略智商因素，我們人類的大腦從結構上說都是大同小異，為啥表現差別那麼大呢？因為它們積累的知識量不同，後者積累的知識更多，也就是常說的「基礎紮實」，換成神經網路的術語，就是後者的網路只需要 fine-tune 一下就好了，而前者需要 train from scratch ，要補很多課才行。

通過上面的例子我們發現，預訓練的網路比隨機初始化的網路有更強的學習能力，因此 fine-tuning 也算是一種 Meta Learning 的演算法。它和我們今天要介紹的 MAML 以及 Reptile 都是通過初始化網路參數，使神經網路獲得更強的學習能力，從而在少量數據上訓練後就能有很好的性能。

訓練數據：以 task 為基本單位

對於傳統的機器學習問題，每個模型通常只用來解決一個任務，要麼是人臉識別，要麼是物體分類，要麼是物體檢測，等等。即使有多輸出的網路，例如同時檢測人臉的位置和關鍵點，本質上其訓練任務（task）還是一個，換一個任務又要從頭開始訓練（不考慮 fine-tuning 的技術）。而 MAML 專註於提升模型整體的學習能力，而不是解決某個具體問題的能力，因此，它的訓練數據是以 task 為基本單位的，每個 task 都有自己獨立的損失函數。訓練時，不停地在不同的 task 上切換，從而達到初始化網路參數的目的，最終得到的模型，面對新的 task 時可以學習得更快。

還拿學生的例子類比，Meta Learning 相當於讓學生學習多門功課，比如第一節數學，第二節英語，第三節歷史，等等……每門功課是一個 task。聽說山東高考要考一門「基本能力測試」，這門課會學很多特別雜的知識（類比既檢測人臉的位置，又檢測人臉關鍵點坐標的網路），但這歸根結底只是一門課而已，並不能因為它學的知識雜就變成了好幾門課。

下圖是李宏毅老師在 PPT 中給的例子，Task 1 是貓狗分類任務，而 Task 2 是蘋果橘子分類任務。Learning Algorithm F 即 Meta Learning 的演算法，它在 Task 1 上經過訓練，吐出一個分類器 $f^1$ 用於分類貓和狗，在測試集上算出的損失為 $l^1$ ，在 Task 2 上又吐出一個分類器 $f^2$ ，損失函數是 $l^2$ 。