腦洞大開的機器視覺多領域學習模型結構 | CVPR 2018論文解讀

04-22

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。在這個欄目里，你會快速 get 每篇精選論文的亮點和痛點，時刻緊跟 AI 前沿成果。點擊即刻加入社區，查看更多最新論文推薦。

本期推薦的論文筆記來自 PaperWeekly 社區用戶 @jsh0123。本文來自牛津大學 VGG 組，論文模型結構比較有特點，改變了以往的階段性參數獲取模式，採用壓縮方式適應性獲取，對預訓練的模型參數有記憶性，保留先前的領域知識。

關於作者：姜松浩，中國科學院計算技術研究所碩士生，研究方向為機器學習和數據挖掘。

論文 | Efficient Parametrization of Multi-domain Deep Neural Networks

鏈接 | https://www.paperweekly.site/papers/1800

源碼 | http://github.com/srebuffi/residual_adapters

論文亮點

這篇論文來自於牛津大學 VGG 組，該研究小組在機器視覺和遷移學習領域發表多篇重磅論文並且都被各類頂會錄用，作者之一的 Andrea Vedaldi 就是輕量級視覺開源框架 VLFeat 的主要作者。

平常工程中或者參加過 Kaggle 比賽的都知道遷移學習對模型效果提升、訓練效率提升的好處。這篇文章認為人類可以很快地處理大量不同的圖像進行不同的任務分析，所以模型也能夠經過簡單的調整適應不同的場景。

本文提出了一種適合多領域、多任務、可擴展的學習模式，儘管當前階段多領域學習有很大突破，但效果相比於專有模型略有差距。

作者提出一種參數獲取模式——Parametric Family（圖a），這種模式改變了以往的階段性的參數提取（圖b），需適應的參數更少，並且在參數較少的基礎上使用了參數壓縮方法依然可以保證模型的效果。

論文中提出了兩種殘差適配器，順序殘差適應器（Series Residual Adapters）和平行殘差適應器（Parallel Residual Adapters）。兩種模型的結構如下所示。

本文作者在 2017 年的 NIPS 上發表了一篇關於殘差適應器（Residual Adapters）的論文Learning multiple visual domains with residual adapters [1]，這篇論文中將殘差適應器定義為：

公式中 α 為適應參數，這樣做法的好處是當 α 為 0 時，f 就恢復到曾經的狀態，這樣就保證了記憶性。當參數 α 進行強正則項時， α 會接近於 0（L1 正則和 L2 正則都會令參數接近於 0）。

這裡作者們利用一種操作將 C×D 維的矩陣 A 進行重塑（Reshape）。

1. 順序殘差適應器（Series Residual Adapters）在前殘差適應器（Residual Adapters）進行了改進。

公式中 f 是標準的 filter，新的 filter g 可以看作是用 f 做為標準的低質的矩陣組合。

這樣適應器相當於對卷積層 filter 加入了「保險」機制。並且適應參數 α 維度較小是 filter f 的 1/L^2 大小。

2. 平行殘差適應器（Parallel Residual Adapters）和它的名字一樣適應參數 α 採用一種平行的方式。

新的 filter g 可以按照如下公式定義：

論文選擇 RestNet [2] 作為兩種殘差適應器（Residual Adapters）的應用網路結構。論文中利用 SVD 矩陣分解將適應參數進行降維處理使得存儲的參數變得更加低維。

模型通過不同數據集，取 RestNet 的不同階段應用殘差適應器（Residual Adapters），並同常見的 Finetuning 以及兩種不同的多領域學習模型 [1,3] 進行比較，得出實驗結果如下所示。

平行殘差適應器（Parallel Residual Adapters）進行參數壓縮後的平均結果最佳，相較於 Finetuning 以及兩種不同的多領域學習模型 [1,3] 都有很好的提升。

論文還驗證了不同規模的數據集的效果和 fine-tuning 進行比較，得出小規模數據和中等規模數據上兩種殘差適應器的效果都比較好，特別是小規模數據集中表現總是優於 fine-tuning，但是在大量數據集中 fine-tuning 效果就要領先了。

這篇論文的模型結構比較有特點，改變了以往的階段性參數獲取模式，採用壓縮方式適應性獲取，對預訓練的模型參數有記憶性，保留先前的領域知識。

本文在效果上也相對不錯，開拓了新的遷移學習模型結構，是多領域學習的一大突破，同時也是遷移學習領域的一個較為突出的進展。

[1] S. Rebuffi, H. Bilen, and A. Vedaldi. Learning multiple visual domains with residual adapters. In Proc. NIPS, 2017.

[2] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In Proc. ECCV, pages 630–645. Springer, 2016.

[3] A. Rosenfeld and J. K. Tsotsos. Incremental learning through deep adaptation. arXiv preprint arXiv:1705.04228, 2017.

本文由 AI 學術社區 PaperWeekly 精選推薦，社區目前已覆蓋自然語言處理、計算機視覺、人工智慧、機器學習、數據挖掘和信息檢索等研究方向，點擊即刻加入社區！

投稿須知 | 讓你的文字被很多很多很多人看到

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域，歡迎在公眾號後台點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

微信公眾號：PaperWeekly

新浪微博：@PaperWeekly