VOT2016有什麼值得關注的?

VOT2016 Challenge 有什麼值得我們去深度探究的論文和值得去研究的亮點和未來的創新點。


首先,VOT2016的結果上來看,跟蹤領域進入一種百家爭鳴的狀態,無論是深度學習的方法還是相關濾波或是基於顏色直方圖統計的方法都可以取得較為優異的結果。最開始看到VOT2016結果的時候,覺得深度學習雖然席捲了整個視覺領域,但是在跟蹤領域來說還是相對保守一些。但對比去年的結果,你會發現深度學習已經成為跟蹤的一個標配了,已經成長了許多了。如果現在讓你猜猜看,VOT15有多少參賽隊伍使用基於卷積神經網路的工作。你很難相信答案是:

Three trackers were based in convolutional neural networks.

MDNet,DeepSRDCF,SO-DLT這三篇,也就是3/62(當然,15年產生的深度學習在跟蹤領域的應用不止這幾篇),今年的結果是8/70。

Eight trackers were based in convolutional neural networks.

[圖片為補充](votchallenge.net 的頁面)

我個人覺得這個方向還沒有被灌溉夠,未來可能需要各個領域投入更多的力量加入進來(跟蹤和其他相關領域的關係很密切)。至少工業界也可以進入這個領域促進一下發展,怎麼讓跟蹤更好的落地可能是很多人比較關心。

其實要說的已經說完了,因為無非就是深度學習在增長。更細的點可能不會有人在知乎上透露出來。尤其是參賽的隊伍中國內的取得優異名次的較少,所以應該不會有太多上來分享的。所以,請關注幾個會議就好了。下面進入嘮叨環節。正式的總結應該可以等去ECCV現場的人帶回的報道。

先從數據集說起,VOT2016的數據集並沒有對2015年的進行更新,只是把groundtruth進行了自動化的標定。注意到非常有意思的一個現象:

It is interesting to note that the average overlap between VOT2015 and VOT2016 ground truth is 0.74.

我不知道別人怎麼想這個數據,我的看法是,這可能是目前跟蹤領域的一個飽和區上界,超出這個上界可以說類似人的性能,但是就像是人臉的資料庫是的,還是由於資料庫的容量,無法做到所有的情況。所以,可以說到達這個界限就可以算是到達人類的short-term的跟蹤性能了(當然robustness肯定是不如人類的,long-term的話人類有很強的redetection的能力),如果有這樣的心理準備再去看看MDNet在OTB上的結果,。。。

再從結果上進行一下分析,在受到上一年的MDNet的震驚之後,今年的結果並沒有那麼爆炸性(組委會強力防止過擬合)。但就像上面所說的一樣,今年是百家爭鳴。今年的前兩名也是去年的前兩名,去年第一的MDNet的作者在今年將MDNet改成TCNN,用樹的結構來對多個卷積跟蹤結果進行融合和更新的維護。
今年的第一名C-COT的作者Martin Danelljan,也是在這幾年一直活躍在跟蹤領域,具有多篇代表作,一直以來都是深入分析KCF及其改進。他的工作比較紮實。

第三名來自於國內的一個隊伍,並沒有留下論文,但是用的方法還是值得學習的,使用分割的方法進行更細緻的跟蹤。(使用分割來做本身並不創新,關鍵是細節部分怎麼處理,如何解決模糊的圖像,如何進行訓練的,是不是類似於heatmap,這些可能需要等作者真正放出文章才能揭曉了?)

其他幾篇如果要是逐一點評就失去了總結的意思,但說實話,VOT2016並沒有為我們帶來太多的驚喜,更多的是像一個一年一度的比武大會。各支隊伍在之前也都早早的曬出了文章,跟蹤領域的發展並沒有到圍繞一個比賽的程度。VOT更多的是不斷給跟蹤領域輸入一些新鮮的血液,主流會議上的文章可能才是大家需要關注的核心。

另一個趨勢是速度(EFO來指示),可以直接掃過排名前15的文章,每當講到跟蹤,總會讓人產生一個比較頭疼的問題,速度太慢了。13年CSK(KCF前身)出現的時候(MOSSE是相關濾波的開篇),wuyi老師就有和我們組的boss提到過這個超快的演算法,後來我們組也嘗試將傳統的方法和他進行結合,例如:我們組VOT2015上的RAJSSC就是對KCF在尺度和旋轉上的擴展。此外,我之前去實習的時候也大多是採用KCF,或者LCT這些方法,速度和精度的平衡對於跟蹤來說是很關鍵的。

通過最近的文章也可以看到,越來越多的深度學習的方法在提升性能的同時也在向高速度的方向發展。從GOTURN的100fps到SiameseFc-A的80fps左右,深度學習的方法也是需要快速才能落地。這方面可以在關注一下Oxford組的工作,雖然沒有在比賽上拿到和好的名次,但Luca Bertinetto是我非常看好的學者,尤其是在KCF作者Jo?o F. Henriques到達到達Oxford之後,他們之間的合作非常密切。作者除了Staple,SiameseFC之外,最近掛在官網上的Learnet(NIPS16)也值得一定的關注,至少這種方法挺超出我的視野的,雖然我並不看好這種方法。這也促進跟蹤領域的同學多涉獵各個領域,可能這也是在Torr組能得到的優勢。題外話,Struck也是出自這個組,之前有關注過chengmingming老師的工作,發現也有大量的優秀工作出自這個組。

總結,深度學習的方法會在這兩年不斷佔領或者成為砥柱,KCF派系的後續發展以及顏色派系的發展可能也能活躍相當長的一段時間。
另外,大家也可以關注一下VOT組委會定的state-of-art的標準,我覺得這點挺好的,不要老爭第一,並不是只有第一的工作才有價值。期待下一個KCF的到來,以及新的benchmark的到來。現在的話,還是好好做實驗,看CVPR2017有什麼創新的工作吧。

另,既然作為軟文,推一下GitHub - foolwood/benchmark_results: visual tracker benchmark results,我會經常更新最新發展的相關訊息。


after VOT2014, i use KCF/SAMF

after VOT2015, i use ASMS

after VOT2016, which one should i use?


long-term tracking的意義在哪?有了更快的識別方法,要它還有用嗎?


現在使用TLD的跟蹤框架實現的比較好的有哪些演算法??求大神指導!


推薦閱讀:

怎麼能夠有效地知道自己對計算機視覺哪個方向感興趣?
除了美帝的學校,哪些國家的哪些學校CS的ML,CV方向的PHD值得去讀?為什麼?
學習了哪些知識,計算機視覺才算入門?
ECCV 2016 有什麼值得關注的亮點?
計算機視覺一般都用什麼語言實現?有什麼好的平台?

TAG:機器學習 | 模式識別 | 計算機視覺 | 人工智慧演算法 |