Beyond Correlation Filters:Learning Continuous Convolution Operators for Visual Tracking
背景介紹
Martin大神想必做跟蹤這塊無人不知,無人不曉吧,近幾年一直出比較高質量的東西,這篇C-COT也是VOT2016的冠軍,但是鑒於文章有多處公式複雜,沒有仔細推導(原因是推導不不動~~~~),也不敢說完全理解,只是講了一下自己對這篇文章的看法和一些理解,希望不要誤人子弟,有錯誤的地方希望大傢伙幫忙指正,有任何不同的理解也歡迎溝通交流。
簡介
本篇文章是對相關濾波所做的一個改進,大神在研究之後發現,原始的CFs跟蹤演算法只使用一種解析度的特徵對目標進行跟蹤,這樣會導致一部分的 信息丟失,也給跟蹤器的提升帶來限制。所以,作者提出了一種新的形式,使用連續的卷積濾波器。使用內插值法把學習問題映射到多個連續的解析度域上面。同時在標準數據集上測試了實驗結果,效果很好,在VOT2016上也證明了確實是現有演算法中最好的一個。
核心思想
如圖一所示,簡單明了的表達了本篇文章的核心意思,在每一幀到來的時候,把所需圖片輸入到已經訓練好的網路中,從中間抽取出我們需要的層的特徵,(對應本文的意思就是,不同的卷積層得到的feature map 的解析度大小是不一樣的,高層特徵解析度比較小,低層特徵解析度比較高,這樣能夠和本文使用連續不同的解析度對圖片進行跟蹤結合起來。)然後使用從不同層訓練得到的濾波模版進行運算,得到不同的置信圖,對所有的置信圖進行加權求和得到最終的置信圖,然後和以前的方法一樣,找到置信圖中最大值所在的位置即為我們要跟蹤的目標所在的位置。
在相關工作中介紹的時候,作者有提過這麼一段
這段話是為了證明作者的理論,在最近的研究發現,最後一層的特徵包含有較多的語義信息,能夠很好的適用於做分類(classification),而底層的特徵包含較多的視覺信息,能夠很好的適用於做跟蹤。高層特徵的解析度比較低,底層特徵的解析度比較高。本文方法
本文主要的貢獻是提出一個使用連續空間域的卷積操作的理論框架。我們的方法有兩個主要的優點比著其他的相關濾波器跟蹤演算法。第一,可以自然地融合不同解析度的特徵圖,像融合卷積特徵或者多解析度的HOG特徵、顏色特徵等。可以用在跟蹤、檢測和行為識別方面。第二,連續的規劃能夠精確的進行次像素定位(sub-pixel localization),對於很多特徵點的跟蹤問題來說是很重要的。文中公式實在是太多,一個一個的我都整迷糊了,接下來挑幾個重點的說一下,
公式(2),大牛@和傻牛一起闖天下說很重要,我必須得放上來講解一下了。這個公式就是為了把學習問題放到連續空間域。對訓練樣本使用隱式內插模型。經過公式(2)轉換之後,就把學習問題放到了連續空間域上。
公式(4)就是所使用的優化函數,最小化這個函數,對濾波器進行訓練得到我們的濾波器。
Sf是由公式(3)得到的
Yj代表的是數據標籤。「+」後邊的一項是懲罰項,為了防止過擬合而設置的。
訓練過程中的公式(5)就是由公式(3)得到的,
直接把3.3中的定義帶進公式,轉換到傅里葉域就是這個,相對應的公式(6)也是對最小化損失函數公式(4)所做的轉換,為了是能夠加速訓練
後面公式(7)(8)就是對公式(6)進行進一步的運算、轉換, 推導過程我就不多說了。最後使用共軛梯度演算法迭代解公式(8),得到我們的濾波模版。對標籤y的定義
拓展到高維
作者在文章當中有說明,空間拓展到二維空間,復指數使用二維的,期望輸出也使用二維的高斯函數等等。
跟蹤框架
這部分想要說明的一點就是樣本的選取過程,作者選取樣本的方式和以前使用輪轉矩陣的方式不一樣,這裡使用的是以目標點為中心,在5倍大小的區域內以α為權重,選擇樣本,樣本容量設置為400,損失率設置為0.0075,所有的權重和為1.權重計算公式如下:
實驗效果
表1展示的是對不同層的特徵進行測試的結果,第一列為單獨使用每一層的特徵得到的結果,第二列為任意兩層組合的結果,第三列為三層融合的結果,實驗結果證實了作者的想法,三層融合的時候效果是最好的,但是可以注意到的是,當Layers1和Layers5融合得到的效果比著三層融合的效果並沒有差很多,代碼中作者使用的是【0,3,14】層作為特徵提取層,從中可以明白,未經過卷積網路加工的原始特徵對跟蹤的效果改變並不明顯,第一層的特徵把原始特徵遮蓋掉了。(個人理解,可能有誤差)OTB-2015測試結果
Feature Point Tracking
總結
最後,作者提出兩個未來的研究方向。1、未使用任何的視頻數據去訓練一個特定的深度特徵代表,這個可以作為未來一個提升的方向。2、另一個研究方向就是融合基因運動的深度特徵到我們的框架當中。
推薦閱讀: