VOT2017 結果搶先看
昨天(2017年10月28日)上午,ICCV VOT-Workshop已經在威尼斯成功舉辦了,發布了2017年的視覺目標跟蹤挑戰賽(Visual-Object-Tracking Challenge)的結果。今年有38個新的演算法參加了比賽,加上組委會自行提交的13個演算法,總共對比分析了51個跟蹤器在VOT2017數據集上的表現。與VOT2017一起舉辦的是熱紅外目標跟蹤挑戰賽(VOT-TIR2017),比賽仍然採用的是去年的紅外圖像序列,參賽演算法也只有10個,比賽結果沒有單獨發表論文,而是放在VOT report的最後部分一起說了。
一、新的測試集
VOT2017將VOT2016中的10個least challenging圖像序列刪除,在保證總體的序列屬性分布(attribute distribution)不變的情況下添加了10個新的序列,與此同時,還對所有序列的groundtruth進行了重新標定,標定方法是對跟蹤目標進行像素級分割,然後重新擬合矩形框。當新的矩形框與原來的groundtruth出入較大時,則由人工來校正。
今年還首次使用了一個單獨的測試集(sequestered dataset),不對外公開,用來決定最終的冠軍。該測試集包含從VOT過去用過的數據集中選出來的50個序列,加上10個新的序列,總體屬性分布與VOT2017公開測試集一致。
二、評估手段
Accuracy:per-frame overlap
Robustness:per sequence average num of failures【VOT標準評估方法是reset-based,每個跟蹤器在每個序列上運行15次】
EAO:expected average overlap,是對每個跟蹤器在一個短時圖像序列上的no-reset average overlap的期望值,是VOT評價跟蹤器跟蹤效果的主要指標。
AO:average overlap,VOT除了進行標準的reset-based supervised experiment(baseline)以外,還執行一個模仿OTB的unsupervised experiment——僅用第一幀的groundtruth來初始化跟蹤器,然後讓它一直跟下去,最後算平均跟蹤重疊率。文章認為,AO與OTB所使用的Area-Under-Curve是等效的。
Real-time Experiment:這是今年新引入的一種評估方式,VOT過去用EFO來評價一個跟蹤器的執行速度(EFO為跟蹤器實際運行時間與測試平台上執行一次規定的濾波運算所需的時間的比值,被認為是與硬體平台無關的一個度量),但是後來發現EFO仍然受到硬體平台性能較大影響,所以今年搞了個實時實驗,具體做法在執行VOT標準評估時(baseline,supervised experiment),限定跟蹤器的響應時間,如果跟蹤器的未能實時地(25fps,40ms每幀)反饋跟蹤結果,則toolkit將不再等待,而是沿用上一幀的跟蹤結果。當跟蹤失敗時仍然會重啟跟蹤器。個人以為。這個實驗設定比較扯,對於那些實際運行速度較慢的跟蹤器,跟蹤結果將一直不被採納,該實驗不能反映任何跟蹤器性能,而對於那些實時演算法,real-time實驗的結果應該和baseline結果一致,所有也沒有做這個實驗的必要。文中沒有說跟蹤時間的具體時限是多少,40ms是典型值,我猜也許會在不同的run中連續調節時限的值。
三、結果
表格里列出了51個演算法的評估結果,其中比較常見的幾個24.Staple,36.KCF,40.SRDCF,41.MIL,46.Struck,我很奇怪SRDCF的評估結果竟然這麼差,不管是baseline還是unsupervised實驗,結果都比KCF差。SRDCF我是用過並研究過的,我認為這個結果不正常,要麼是組委會沒好好運行SRDCF,要麼就是跟蹤測試集比較偏。附一張OTB50最新榜單,感受一下VOT和OTB的差別有多大……
LSART:大連理工的盧湖川老師的作品,paper: Learning Spatial-Aware Regressions for Visual Tracking . 只在arXiv上看到了pdf,顯示的是2017年6月22日,也就是VOT比賽提交結果截止日期的前後。Abstract:First, we propose a kernelized ridge regression model wherein the kernel value is defined as the weighted sum of similarity scores of all pairs of patches between two samples. ...Second, we propose a fully convolutional neural network with spatially regularized kernels, through which the filter kernel corresponding to each output channel is forced to focus on a specific region of the target.
CFWCR: 北郵Zhiqun He,文章發表在ICCV VOT-Workshop上,Correlation Filters with Weighted Convolution Responses. Abstract: In our work, we normalize each individual feature extracted from different layers of the deep pretrained CNN first, and after that, the weighted convolution responses from each feature block are summed to produce the final confidence score. By this weighted sum operation, the empirical evaluations demonstrate clear improvements by our proposed tracker based on the Efficient Convolution Operators Tracker (ECO). 好像是在ECO基礎上改了feature.
CFCF: 作者是Erhan Gundogdu,之前研究紅外目標跟蹤演算法,對特徵表示有些研究。文章:Good Features to Correlate for Visual Tracking . 文章在arXiv上,顯示的是已經提交給了TIP. Abstract: ...correlation filter based (CFB) trackers confine themselves to use the pre-trained networks which are trained for object classification problem. To this end, in this manuscript the problem of learning deep fully convolutional features for the CFB visual tracking is formulated. 大概做法是在CCOT的基礎上改了feature,它使用了VGG-M-2048的第1層、第5層、第6層特徵,另外還用到了HOG與ColorNames特徵。
ECO: 不用多說,Martin Danelljan大神的作品,是在其前期工作CCOT的基礎上改進的,發表在CVPR2017上。ECOhc演算法是ECO演算法的一個簡化版本,好像是特徵從深度特徵改為HOG+ColorNames。話說Martin大神的主頁上最近好像沒有大的更新,是不是該博士要畢業了在寫大論文。。目標跟蹤相關資源(含模型,CVPR2017論文,代碼,牛人等)持續更新
CSRDCF:這是由VOT組委會中的成員做出來的,發表在CVPR2017,順便說一句,Martin的導師是組委會的主要負責人之一
UCT: 中科院自動化所,發表在ICCV VOT-Workshop上,paper: UCT: Learning Unified Convolutional Networks for Real-time Visual Tracking. Abstract: ...Nonetheless, the chosen CNN features are always pre-trained in different task and individual components in tracking systems are learned separately, ...we propose an end-to-end framework to learn the convolutional features and perform the tracking process simultaneously, namely, a unified convolutional tracker (UCT). ...The standard UCT and UCT-Lite can track generic objects at 41 FPS and 154 FPS without further optimization, respectively.
其它的演算法就不一一介紹了,整個比賽最值得關注的還是baseline實驗,這也是VOT官方曾發表在PAMI上的主要評測手段,EAO是給每個跟蹤器的一個綜合評分,據VOT report介紹,前十名演算法都是基於相關濾波器的,除了CSRDCF,前十名中的其它方法都使用了CNN特徵。
report里還統計了2016年以來發表在頂會和頂刊上的10跟蹤演算法的表現,就是本文標題的背景圖像,以其中最差的結果作為VOT2017 state-of-the-art bound,大概是0.2,也就是說在VOT2017上的EAO指標超過0.2的都可以認為是state-of-the-art。
評選冠軍是從VOT2017的baseline測試中選取前十名,再由官方到前面提到的sequestered dataset上去秘密測試一下,將其中官方人員參與的演算法踢掉,剩下的演算法中EAO最高的,且開源了代碼的就是winner(參賽要求是提供源碼或者可執行程序,但是冠軍演算法必須要提供源碼)。result:(1) The top performer of the VOT2017 sequestered dataset is the CCOT. (2) The winner of the VOT2017 challenge, however, is the CFCF. (3) The top performer of the VOT2017 real-time challenge is CSRDCF++ (CSRDCF的C++實現,不開源). (4) The winner of the VOT2017 realtime challenge is the SiamFC (雙流網路). (5) The top performer and the winner of the VOT-TIR2017 challenge is DSLT.
附上VOT-TIR2017的比賽結果,只有10個演算法參加,數據集也沒更新,只有baseline實驗,沒有速度測試,感覺VOT官方可能要拋棄TIR分賽了。。。DSLT paper:Dense Structural Learning for Infrared Object Tracking at 200+ FPS. Pattern Recognition Letters, 2017.
推薦閱讀:
TAG:計算機視覺 | 模式識別 | 深度學習DeepLearning |