[論文筆記] Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space
論文概述
純屬個人理解,梳理自己思路用,僅供參考(可能會有標點錯誤或語句不通順 +_+)
目前對於單目標跟蹤,相關濾波思想可以是舉足輕重,依賴其匹配效果好,速度快,將其相關思想融入各種模型,產生了很多演算法,這裡借用foolwood的一張圖說明下,如下圖所示。可以看出基於CF思想演算法的家族已經佔據絕大多數跟蹤演算法,包括現在很多深度學習演算法也已經把CF融入模型中,比較著名SiameseFc
就是其一。從自己幾年前接觸跟蹤演算法,一直覺得單目標跟蹤VOT領域非常活躍,開放程度很高,大多數論文開源代碼都是matlab實現(源碼非常多),易於學習,模型相對簡單,cnn層數不多,易於訓練和掌握(節省時間,不要求太高配置,非常適合個人搗鼓),是入門視覺演算法很好的途徑。
這篇是關於meta-learning
方法在跟蹤領域的應用,其實meta-learning
這個概念很早就提出,只是目前將其應用於深度學習和強化學習領域做出了一些效果,或提高性能,或提高訓練效率。目前對meta-learning
的理解,可以簡單理解為learning to learn
,換句話解釋就是要去學習超參,那對超參的定義可以理解為設計演算法時不是由data-driven
的部分,可以是模型結構,可以是訓練參數,也可以是根據情況動態修改模型結構等。總之,meta-learning
就是要學習並替代設計演算法時人的工作。
本文的貢獻點:在跟蹤演算法SiameseFc
基礎上,這裡簡稱matching network
,添加了meta-learner network
,在運行時動態產生部分matching network
的參數。利用meta-learner network
,能夠使matching network
適應目標外形變化,而且對matching network
動態新增的參數,也只需要計算forward-pass
就可以,因此,實時效果好,達到了62fps,整體流程如下圖如所示,matching network
生產的特徵包括原始matching network
的特徵和新增參數產生的特徵。說句題外話,這篇文章作者和之前寫的筆記Visual Tracking by Reinforced Decision Making
作者相同,看覺這幾個韓國人,總喜歡用些新思想去做跟蹤,但是論文里的測試性能都沒有做太高,挺有意思的。
為了理解本文,先詳細介紹下SiameseFc這篇文論的工作(個人感覺這篇論文的分量舉足輕重),然後這些其改進meta-learner network的工作。
SiameseFc
SiameseFc
跟蹤演算法,沒有採用更新model或者維護template,而是使用兩個全卷積cnn組成Simaese network
,提取卷積層特徵做相關,產生heatmap來預測目標位置,如下圖所示。兩個網路中,一個輸入是起始幀的目標模板,另一個輸入是目標附近更大範圍的區域(一般可以設為4倍,相當於搜索區域)。
上圖中可以看出其核心計算公式,如下式所示:
網路的損失函數如下式所示,y[u]表示真實標籤,其定位目標框內為1,框外為-1:
Meta-learning for Tracking
meta-learner network
根據matching network
提供的最近幾幀跟蹤產生的patch(需要維護歷史跟蹤圖塊,借鑒圖像分類中few-shots learning
),然後計算產生能夠適應目標變化的新增參數。其設計的依據目標發生變化時δ也發生變化這個假設,關於δ的計算由下式生成(matching network
最後一層對Wn的導數),利用選出的M個圖塊計算平均梯度,Fw是指matching network
網路的輸出。
依據δ作為meta-learner network
的輸入,meta-learner network
將產生適應目標變化的參數模板Wtarget
,如下式所示:
那麼關於最終結合了兩種網路的預測,對最後一層進行參數疊加可以用下式表示:
這對上述描述的整個流程,可用下圖表示,meta-learner network
網路的輸入是matching network
網路的梯度:
對於meta-learner network
的δ,為了其計算,需要從T個patch裡面選出M個圖塊來計算,那麼篩選的標準通過熵最小化,如下式表示, p表示某個位置上,σ表示sigmoid函數。
跟蹤流程可以查看下圖所示:
meta-learner network的損失函數,針對meta-learner network
進行最優化,matching network
固定不變,如下式所示,
訓練流程,如下圖所示:
性能測試如下所示,可能會有疑問為什麼採用SiameseFc做matching network
網路性能還沒有SiameseFc好呢?這是因為作者隊SiameseFc網路的參數進行了修改,減少了通道數,懷疑是這個原因引起的:
推薦閱讀:
※Caffe2教程--2.圖像載入與預處理
※[論文筆記] I3D
※Paper Notes:Mask R-CNN
※【機器視覺】1. 張正友平面標定法
※[計算機視覺論文速遞] 2018-04-28
TAG:深度學習DeepLearning | 計算機視覺 |