VOT2017結果分析及CFWCR經驗分享

隨著深度學習在計算機視覺方面大放異彩,近幾年物體追蹤也得到了飛速的發展。物體追蹤解決的問題是在一段時間內對於同一個物體在複雜的背景下(如遮擋,光照,物體旋轉等),進行持續高速的跟蹤。因此,物體追蹤在監控,安防,自動駕駛,無人機,智能家居等領域都起到關鍵的作用。

1、VOT2017測試集數據

VOT2017與VOT2016相比,VOT2016中某些序列已經被多數tracker準確跟蹤,所以在VOT2017中將VOT2016的10個評測效果差圖像序列替換如圖1,並且保證總體的序列屬性分布不變。與此同時VOT2017相對於VOT2016對所有序列的還對所有序列的ground truth進行了重新標定,精確到像素級別然後重新擬合矩形框。

2、VOT2017評價指標

VOT2017使用EAO(Expected Average Overlap)、Accuracy、Robustness三個主要指標對跟蹤結果進行評估,平均重疊期望EAO是對每個跟蹤器在一個短時圖像序列上的非重置重疊的期望值,是VOT評估跟蹤演算法精度的最重要指標。準確率Accuracy是指跟蹤器在單個測試序列下的平均重疊率(兩矩形框的相交部分面積除以兩矩形框的相併部分的面積)。魯棒性Robustness是指單個測試序列下的跟蹤器失敗次數,當重疊率為0時即可判定為失敗。因為VOT benchmark是針對的短期目標跟蹤,當跟蹤器失敗之後,從失敗位置之後的5幀開始,跟蹤器會被自動重新初始化。VOT2017相比與VOT2016提出了一種新的評估實時性的方式Real-time Experiment,VOT2016使用EFO來評價一個跟蹤器的執行速度,但VOT組委會發現EFO受到硬體平台性能影響。所以今年提出Real-time Experiment,具體做法在執行VOT標準評估時,限定跟蹤器的響應時間,如果跟蹤器跟蹤速度未能達到25fps,則不再等待而是沿用上一幀的跟蹤結果。當跟蹤失敗時仍然會重啟跟蹤器。

3、評估結果

VOT2017結果顯示目前跟蹤演算法的主流方法主要分為三種,一傳統的相關濾波方法,二基於卷積神經網路方法,三深度卷積特徵和傳統的協同濾波相結合的方法。今年VOT的51個tracker中相關濾波方法tracker共18個,主要使用的特徵都是HOG特徵和CN(顏色)特徵,核相關濾波是相關濾波中主要使用的方法。卷積神經網路方法共9個,其中主要分為兩個方向,一種是如GOTURN等的卷積神經網路回歸目標位置的方法,另一種是如MDNet的卷積神經網路檢測的方法。深度特徵和相關濾波結合的方法共9種,基本採用VGG-M網路提取特徵再輸入相關濾波框架內,並且這9種都在VOT2017種表現比較出色,如CFWCR、CFCF、ECO等。還有其他類15種。

4、CFWCR經驗分享

我們的方法基於業界流行的相關濾波的框架。我們使用了單cnn特徵的多尺度追蹤方案。我們發現現有的很多追蹤器融合了cnn特徵和傳統的機器學習特徵,如hog特徵,cn顏色特徵等。在我們的實驗中,我們發現cnn的淺層特徵具有物體輪廓的信息,高層的深度特徵具有物體的語義信息,將cnn的淺層和高層特徵進行融合能使得追蹤器具有很好的性能。於是,我們摒棄了傳統的特徵,只使用了cnn的特徵,這一做法,使得我們的追蹤器無論是在速度上還是精度上都有了不小的提高。

當時我們在做VOT競賽的時候,首先跑了ECO,發現復現不了作者的結果,在16上的EAO大概是0.35,在17上的EAO大概是0.26。在MD大神的代碼的基礎上,雖然還沒復現大神的結果,但是我們有了很好的baseline。我們當時考慮了很多的改進措施:

a、特徵組合方式,CNN和傳統特徵的加權組合,CNN不同層之間的加權組合。

b、對pca作用的思考和實驗

c、模型更新策略實驗

d、非正矩形框追蹤

e、特徵歸一化方式

f、其他cnn模型以及模型集成

g、其他超參數的調試,如搜索區域,前饋圖片尺度,樣本更新策略,不同的resize方法,調整訓練學習率,不同的窗函數閾值,不同的多尺度參數等等。

h、端到端訓練一個cnn替換vgg,有點像CFCF的思路。

世事總是不盡入人意,我們花了一個月做了很多的嘗試,90%都失敗了,不得不說這種非端到端的訓練框架如果對每一部分了解不充分的話,很難調試。即使是在深入讀了論文和閱讀完MD大神的代碼的基礎上,我們仍然走了很多彎路。

思路a的產生是我們考慮到特徵之間可能是有輪廓和語義上的重複性的,在這麼多超參數下,組合這麼多特徵很可能有很多冗餘,這也是MD大神在ECO中提出PCA能取到很好效果的原因。我們發現僅僅用CNN特徵結果就很好了,那麼其他特徵是不是必要的呢?我們在改了特徵之後,相應地改了多尺度等的超參數,發現結果還能提升。後來,我們又嘗試了一些特徵組合方式,發現僅僅用CNN特徵的結果最好。在最後,我們加入了對CNN不同層特徵的得分矩陣進行加權的方法,性能略有提升,不過這個參數容易在某個數據集過擬合。

在有了思路a的實驗結果後,我們只剩下CNN特徵,這樣需要調試的超參數就少了一些。特徵的減少也導致過擬合的現象減輕了,於是,我們思考PCA對於性能的提升是否是必要的。我們發現,去掉PCA之後,EAO還能提高。

思路c的產生在於我們看ECO論文的時候發現,MD大神直接將更新步長定死為5了,有點暴力了,而且可能是針對某個tracking數據集調出來的。我們嘗試了不同的步長和根據得分的大小來決定是否更新的方法,都還沒MD大神直接設置為5好。

思路d的產生在於我們考慮到EAO這個指標是根據重疊比率來評估的,如果框是非正的,可能會和標註的框有更大的重疊度,但是搜索了大量的論文,發現這方面的工作實在是太少,可能需要很大的工作量,遂放棄。

思路e和f和h來自於做cnn項目的一些經驗,不過由於時間關係有限,我們都只是粗略地嘗試了一些就放棄了。

附上我們的代碼: github.com/he010103/CFW

論文鏈接:openaccess.thecvf.com/c,歡迎大神們交流指正!


推薦閱讀:

OpenPose 是如何通過 500 個攝像頭跟蹤身體、讀懂人類情緒的
【博客存檔】TensorFlow之深入理解AlexNet
2017年GAN 計算機視覺相關paper匯總
港中大劉雲輝教授:自動駕駛、醫療手術、人機交互,機器視覺的應用潛力比你想像的要大
我國的車牌識別系統發展到了什麼水平?

TAG:计算机视觉 | 深度学习DeepLearning | 模式识别 |