Beyond Correlation Filters:Learning Continuous Convolution Operators for Visual Tracking

01-26

老規矩，先放論文和代碼的下載地址：文章和代碼

背景介紹

Martin大神想必做跟蹤這塊無人不知，無人不曉吧，近幾年一直出比較高質量的東西，這篇C-COT也是VOT2016的冠軍，但是鑒於文章有多處公式複雜，沒有仔細推導（原因是推導不不動~~~~），也不敢說完全理解，只是講了一下自己對這篇文章的看法和一些理解，希望不要誤人子弟，有錯誤的地方希望大傢伙幫忙指正，有任何不同的理解也歡迎溝通交流。

簡介

本篇文章是對相關濾波所做的一個改進，大神在研究之後發現，原始的CFs跟蹤演算法只使用一種解析度的特徵對目標進行跟蹤，這樣會導致一部分的信息丟失，也給跟蹤器的提升帶來限制。所以，作者提出了一種新的形式，使用連續的卷積濾波器。使用內插值法把學習問題映射到多個連續的解析度域上面。同時在標準數據集上測試了實驗結果，效果很好，在VOT2016上也證明了確實是現有演算法中最好的一個。

核心思想

如圖一所示，簡單明了的表達了本篇文章的核心意思，在每一幀到來的時候，把所需圖片輸入到已經訓練好的網路中，從中間抽取出我們需要的層的特徵，（對應本文的意思就是，不同的卷積層得到的feature map 的解析度大小是不一樣的，高層特徵解析度比較小，低層特徵解析度比較高，這樣能夠和本文使用連續不同的解析度對圖片進行跟蹤結合起來。）然後使用從不同層訓練得到的濾波模版進行運算，得到不同的置信圖，對所有的置信圖進行加權求和得到最終的置信圖，然後和以前的方法一樣，找到置信圖中最大值所在的位置即為我們要跟蹤的目標所在的位置。

在相關工作中介紹的時候，作者有提過這麼一段

這段話是為了證明作者的理論，在最近的研究發現，最後一層的特徵包含有較多的語義信息，能夠很好的適用於做分類（classification），而底層的特徵包含較多的視覺信息，能夠很好的適用於做跟蹤。高層特徵的解析度比較低，底層特徵的解析度比較高。

本文方法

本文主要的貢獻是提出一個使用連續空間域的卷積操作的理論框架。我們的方法有兩個主要的優點比著其他的相關濾波器跟蹤演算法。第一，可以自然地融合不同解析度的特徵圖，像融合卷積特徵或者多解析度的HOG特徵、顏色特徵等。可以用在跟蹤、檢測和行為識別方面。第二，連續的規劃能夠精確的進行次像素定位（sub-pixel localization），對於很多特徵點的跟蹤問題來說是很重要的。文中公式實在是太多，一個一個的我都整迷糊了，接下來挑幾個重點的說一下，

公式（2），大牛@和傻牛一起闖天下說很重要，我必須得放上來講解一下了。這個公式就是為了把學習問題放到連續空間域。對訓練樣本使用隱式內插模型。經過公式（2）轉換之後，就把學習問題放到了連續空間域上。

公式（4）就是所使用的優化函數，最小化這個函數，對濾波器進行訓練得到我們的濾波器。

Sf是由公式（3）得到的

Yj代表的是數據標籤。「+」後邊的一項是懲罰項，為了防止過擬合而設置的。

訓練過程中的公式（5）就是由公式（3）得到的，

直接把3.3中的定義帶進公式，轉換到傅里葉域就是這個，相對應的公式（6）也是對最小化損失函數公式（4）所做的轉換，為了是能夠加速訓練

後面公式（7）（8）就是對公式（6）進行進一步的運算、轉換，推導過程我就不多說了。最後使用共軛梯度演算法迭代解公式（8），得到我們的濾波模版。

對標籤y的定義

使用高斯函數進行定義。

拓展到高維

作者在文章當中有說明，空間拓展到二維空間，復指數使用二維的，期望輸出也使用二維的高斯函數等等。

跟蹤框架

這部分想要說明的一點就是樣本的選取過程，作者選取樣本的方式和以前使用輪轉矩陣的方式不一樣，這裡使用的是以目標點為中心，在5倍大小的區域內以α為權重，選擇樣本，樣本容量設置為400，損失率設置為0.0075，所有的權重和為1.權重計算公式如下：

同時，作者使用五個尺度對尺度進行一個處理，使得跟蹤器達到更好的效果。使用的網路結構為訓練好的VGG-m-2048。

實驗效果

表1展示的是對不同層的特徵進行測試的結果，第一列為單獨使用每一層的特徵得到的結果，第二列為任意兩層組合的結果，第三列為三層融合的結果，實驗結果證實了作者的想法，三層融合的時候效果是最好的，但是可以注意到的是，當Layers1和Layers5融合得到的效果比著三層融合的效果並沒有差很多，代碼中作者使用的是【0,3,14】層作為特徵提取層，從中可以明白，未經過卷積網路加工的原始特徵對跟蹤的效果改變並不明顯，第一層的特徵把原始特徵遮蓋掉了。（個人理解，可能有誤差）

OTB-2015測試結果

Feature Point Tracking

總結

最後，作者提出兩個未來的研究方向。1、未使用任何的視頻數據去訓練一個特定的深度特徵代表，這個可以作為未來一個提升的方向。2、另一個研究方向就是融合基因運動的深度特徵到我們的框架當中。