[論文筆記] Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space

[論文筆記] Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space

論文概述

純屬個人理解,梳理自己思路用,僅供參考(可能會有標點錯誤或語句不通順 +_+)

目前對於單目標跟蹤,相關濾波思想可以是舉足輕重,依賴其匹配效果好,速度快,將其相關思想融入各種模型,產生了很多演算法,這裡借用foolwood的一張圖說明下,如下圖所示。可以看出基於CF思想演算法的家族已經佔據絕大多數跟蹤演算法,包括現在很多深度學習演算法也已經把CF融入模型中,比較著名SiameseFc就是其一。從自己幾年前接觸跟蹤演算法,一直覺得單目標跟蹤VOT領域非常活躍,開放程度很高,大多數論文開源代碼都是matlab實現(源碼非常多),易於學習,模型相對簡單,cnn層數不多,易於訓練和掌握(節省時間,不要求太高配置,非常適合個人搗鼓),是入門視覺演算法很好的途徑。

這篇是關於meta-learning方法在跟蹤領域的應用,其實meta-learning這個概念很早就提出,只是目前將其應用於深度學習和強化學習領域做出了一些效果,或提高性能,或提高訓練效率。目前對meta-learning的理解,可以簡單理解為learning to learn,換句話解釋就是要去學習超參,那對超參的定義可以理解為設計演算法時不是由data-driven的部分,可以是模型結構,可以是訓練參數,也可以是根據情況動態修改模型結構等。總之,meta-learning就是要學習並替代設計演算法時人的工作。

本文的貢獻點:在跟蹤演算法SiameseFc基礎上,這裡簡稱matching network,添加了meta-learner network,在運行時動態產生部分matching network的參數。利用meta-learner network,能夠使matching network適應目標外形變化,而且對matching network動態新增的參數,也只需要計算forward-pass就可以,因此,實時效果好,達到了62fps,整體流程如下圖如所示,matching network生產的特徵包括原始matching network的特徵和新增參數產生的特徵。說句題外話,這篇文章作者和之前寫的筆記Visual Tracking by Reinforced Decision Making作者相同,看覺這幾個韓國人,總喜歡用些新思想去做跟蹤,但是論文里的測試性能都沒有做太高,挺有意思的。

為了理解本文,先詳細介紹下SiameseFc這篇文論的工作(個人感覺這篇論文的分量舉足輕重),然後這些其改進meta-learner network的工作。

SiameseFc

SiameseFc跟蹤演算法,沒有採用更新model或者維護template,而是使用兩個全卷積cnn組成Simaese network,提取卷積層特徵做相關,產生heatmap來預測目標位置,如下圖所示。兩個網路中,一個輸入是起始幀的目標模板,另一個輸入是目標附近更大範圍的區域(一般可以設為4倍,相當於搜索區域)。

上圖中可以看出其核心計算公式,如下式所示:

網路的損失函數如下式所示,y[u]表示真實標籤,其定位目標框內為1,框外為-1:

Meta-learning for Tracking

meta-learner network根據matching network提供的最近幾幀跟蹤產生的patch(需要維護歷史跟蹤圖塊,借鑒圖像分類中few-shots learning),然後計算產生能夠適應目標變化的新增參數。其設計的依據目標發生變化時δ也發生變化這個假設,關於δ的計算由下式生成(matching network最後一層對Wn的導數),利用選出的M個圖塊計算平均梯度,Fw是指matching network網路的輸出。

依據δ作為meta-learner network的輸入,meta-learner network將產生適應目標變化的參數模板Wtarget,如下式所示:

那麼關於最終結合了兩種網路的預測,對最後一層進行參數疊加可以用下式表示:

這對上述描述的整個流程,可用下圖表示,meta-learner network網路的輸入是matching network網路的梯度:

對於meta-learner network的δ,為了其計算,需要從T個patch裡面選出M個圖塊來計算,那麼篩選的標準通過熵最小化,如下式表示, p表示某個位置上,σ表示sigmoid函數。

跟蹤流程可以查看下圖所示:

meta-learner network的損失函數,針對meta-learner network進行最優化,matching network固定不變,如下式所示,

訓練流程,如下圖所示:

性能測試如下所示,可能會有疑問為什麼採用SiameseFc做matching network網路性能還沒有SiameseFc好呢?這是因為作者隊SiameseFc網路的參數進行了修改,減少了通道數,懷疑是這個原因引起的:


推薦閱讀:

Caffe2教程--2.圖像載入與預處理
[論文筆記] I3D
Paper Notes:Mask R-CNN
【機器視覺】1. 張正友平面標定法
[計算機視覺論文速遞] 2018-04-28

TAG:深度學習DeepLearning | 計算機視覺 |