SiameseRPN閱讀筆記

SiameseRPN閱讀筆記

來自專欄深度學習筆記23 人贊了文章

這是商湯科技在目標跟蹤領域的一篇文章,已經關注很長時間了,最近終於公開了論文,但沒有公開源碼:

http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf?

openaccess.thecvf.com

摘要

論文認為目前存在的跟蹤模型很難在保證實時性的前提下達到最好的最優的性能,因此該論文提出了Siamese-RPN網路,該網路能夠利用大規模的數據集進行端到端的離線訓練。Siamese-RPN網路包含(1)特徵提取(2)區域建議網路兩個部分。同時在推理階段,利用meta-learning思想將跟蹤任務作為 local one-shot detection task(具體細節見下文)。由於該論文利用了目標檢測過程中的RPN網路對跟蹤位置進行了調優,摒棄了常見的基於Siamese-FC模型進行多尺度的訓練部分,因此不但達到了160FPS的速度,同時在VOT2015, VOT2016 and VOT2017實現了好的性能。

動機

自KCF以後,基於相關濾波的目標跟蹤方法是近幾年研究的熱點。而從fasterrcnn、Maskrcnn以來,目標檢測框架基本也就定型。然而目標跟蹤和檢測具有很大的性,既然基於深度學習的目標檢測已經發展的相對成熟,因此作者認為通過合理的設計網路,將檢測的思想遷移至跟蹤上也應該會不錯的性能。

訓練

框架主要分為兩部分(1)用於目標特徵提取的Siamese Network(2)位置回歸的RPN網路。第一部分和SiameseFC完全一樣,因此框架的精髓包含在了第二部分。模板幀在提取特徵之後被一個3*3的卷積核(推測)分成兩個分支,假設有k個anchors,則第一個分支 varphi(x)_{cls} 用於分類(前景和背景) ,輸出維度為4*4*(2k*256),第二分支 varphi(x)_{reg} 用於位置回歸,輸出維度為4*4(4k*256);檢測幀經過(1)後經過3*3*256的卷積核後,輸出20*20*256的兩個分支 varphi(z)_{cls}varphi(z)_{reg} 。最後兩個部分分別進行分組卷積操作:

A^{cls}(w,h,:) 分別代表前景和背景的概率, A^{reg}(w,h,:) 表示與真實目標框的測量距離(dx, dy, dw, dh)。論文選用IOU>0.6的為正樣本,IOU<0.3的為負樣本,在每一個batch(64)中控制正樣本最多為16個。則正樣本排序後選擇前K個預測框作為輸出:

x_{i}^{an},y_{i}^{an},w_{i}^{an},h_{i}^{an} )表示 A^{reg} 上的位置在模板幀上的對應位置。

訓練過程的分類損失為交叉熵損失函數 L_{cls} ,回歸損失函數為 L_{reg} :

關鍵點

在跟蹤階段借鑒meta-learning的思想,將跟蹤任務作為local one-shot detection任務,從而避免了在線更新(在之後的版本中好像加了在線跟新的策略,在不犧牲速度的前提下,提高了性能,這樣才可能適用於long time 序列)。

通俗的來講,就是在訓練完成後,只將第一幀預測的模板(分類和回歸)作為檢測幀的相關核,以致該模型具有較高的速度。

測試過程中的trick

(1)代替使用w * h*k個anchors,作者在實驗的過程中使用半徑為g的g*g*k個anchors。因為相鄰幀之間位移通常較小,這樣可以捨棄一些異常點。

(2)在(1)的基礎上對A^{cls} 加了餘弦窗和尺度(scale)懲罰項。餘弦窗抑制大位移的偏移,懲罰項可以抑制anchor的大小(size)和寬高比(ratio)

p= (w+h)/2

r和 r^{} 分別表示建議的和當前的bounding box高寬比,s和 s^{} 同理表示scale,k為超參數。

經過(1)和(2)之後我們隊 A^{cls} 重新排序,通過NMS後得到目標框的位置。

實驗

數據來源:實驗過程中我們抽取圖像對從ILSVRC和Youtube-BB數據集,間隔小於100幀。

訓練過程中的anchor:與目標檢測中標準RPN過程不同,跟蹤模型中的scale固定(文章未給出大小),ratios作者試了三種[0.5, 1, 2], [0.33, 0.5, 1, 2, 3],[0.25, 0.33, 0.5, 1, 2, 3, 4](A3, A5, A7),通過實驗發現A5最好。

上文當中g的選擇作者也做了實驗,證明g的大小與數據集的大小有關。

OTB2015、VOT2016、VOT2017 論文做了詳細的實驗,可以看文章。

論文貢獻

(1)可以在大規模的跟蹤數據集上進行end-to-end的離線訓練

(2)摒棄了多尺度前向卷積過程

(3)在跟蹤模型中使用one-shot learning 思想

(4)將RPN網路與SiameseFC很好的結合,達到了好的性能。


推薦閱讀:

【生成高清人臉】ProgressiveGAN 筆記
Faster RCNN by Xinlei Chen
SLAM學習資源匯總
如何進行更細緻的圖像到圖像翻譯? | CVPR 2018
faster rcnn 閱讀心得分享

TAG:深度學習DeepLearning | 目標跟蹤 | 計算機視覺 |