ETP:精確時序動作定位
22 人贊了文章
本文首發於極市博客
作者:王弗蘭克
論文地址:[1804.04803] Precise Temporal Action Localization by Evolving Temporal Proposals
背景介紹
時序動作檢測,指的是在一段untrimmed video中找到感興趣動作發生的起止時間,同時知道這個動作的具體類別。目前主流的模型是three-stages,分別是時序動作提名,即先提出一些可能包含動作的時序段,以減少直接採用滑動窗方法帶來的計算量;然後在提出的這些proposal基礎上,進行微調,通常是採用regression的方式;最後,在得到所有可能包含的proposal後,對每一個proposal做分類,得到最終結果。
這個目前的準確率在IOU=0.5的情況下還處於比較低的水平,而主要原因是當前模型提出的proposal質量不高,而在action recognition方面,UCF101數據集上已經取得了98%的準確率。
主要貢獻
提出了three-phase的evolving temporal proposal模型(ETP),引入了non-local pyramid features,該方法實現了目前state-of-the-arts。
模型結構
EPT網路由三個子網路組成,Actionness Network:在frame level上得出每一個frame的包含動作的置信概率,即actionness score;Refinement Network:在前一步基礎上,通過regression來調整proposal,得到更精確的邊界;Localization Network:同樣是refine。具體看各個子網路:
Actionness Network:
這個網路和[3]中提出的TAG方法(如下圖)是一樣的。AN本身是一個分類網路,目的是為了得到frame-level class-specific actionness,也就是當前幀包含動作的概率值。分類網路對網路結構沒有要求,本文採用的是預訓練的ResNet模型。
在得到了每一幀的score後,通過聚類的方法,將離散的score組合,得到proposal,然後用非極大值抑制(NMS)剔除多餘proposal。聚類方法見下圖。
Refinement Network:
與Actionness Network在frame-level上考慮不同,Refinement Network從unit-level上考慮,這樣做的原因是,在refine環節,為了減少邊界本身模糊性的影響,[2]實驗發現在coarse-grained是做回歸比在frame-level上做回歸更有效和穩定。同時考慮context信息,即proposal周邊的units,方式和[3]SSN一致。
與[2]中使用Two-Stream特徵作為unit特徵不同,Refinement Network使用non-local pyramid features作為unit特徵。另外與[2]的差異在於,[2]在提取unit特徵後,直接在unit-level上通過full connected layers做regression,而這裡則是把unit特徵輸入到RNN-based sequence encoder中,然後把經過編碼後的context feature再去做regression,回歸的是proposal的中心坐標和proposal的長度([2]中回歸的是offset)。這裡RNN採用[4]中提出的BiGRU,GRU在這不做說明。
Refinement Network採用的loss函數為:
c代表proposal的中心坐標,s代表proposal的長度。N包含positive和incomplete的proposal。
Localization Network:
在Refinement Network得到新的proposal後,採用[3]中SSN作為backbone,如上圖[3],在最後一層加入non-local block[5],其中non-local block[5]以residual connection[6]形式存在。具體細節請參閱[3],這裡不再敘述。
實驗分析
實驗細節
(1)Actionness Network中採用在Image-Net上預訓練後並且在UCF101上fine-tune的RseNet-34作為base-bone。
(2)Refinement Network中使用2 BiGRU cells,每一個包含512個隱藏單元。
(3)Localization Network中使用在Kinetics上預訓練的Inception-V3作為base-bone。
對比實驗
可以看到,ETP方法在IOU大於0.3之後的準確率高於所有主流方法,而且提升了很多。
文中還做了幾個比較細緻的對比實驗。
(1)Refinement Network的效果。
(2)Unit長度的影響。
(3)Non-local pyramid feature的影響。
(4)多模態的影響。
其中(2)已經在TURN-TAP中被探索過了,unit長度大約在32左右會有最好效果。而(4)幾乎已經是視頻領域共識了,任何主流模型,RGB+Flow都要好於單RGB,這裡不再多說。
值得注意的是,在增加了Refinement Network的情況下,在各個類別上的效果並沒有明顯的提升,甚至在一些類別下降了。Refinement Network中主要是增加了RNN模塊。所以原因可能是來自RNN本身(單純基於RNN的方法一直沒有取得明顯進展),也有可能是Refinement Network和Localization Network都在做refine,Localization Network起決定性的作用。
而Non-local feature則在各個類別上基本都實現了提升,原因可能來自unit與unit之間增加了更多響應,有利於網路學習到它們之間的聯繫。但這樣無疑也增加了很大計算量。
個人見解
論文亮點
個人認為亮點主要來自兩方面:
(1)引入了non-local feature,對比實驗也證明,non-local feature能夠帶來效果上的提升。
(2)一個模型內同時融入了很多主流的tricks,並且實驗效果很驚人,在IOU=0.5的情況下,相比TURN-TAP提升近10%,超過TAG6%,比去年state-of-the-arts的CBR(TURN-TAP同一作者)仍高出近3%。
個人看法:
熟悉這個領域的同學知道,這篇文章集成了很多主流方法的核心,例如Actionness Network其實就是SSN中提出的TAG方法;unit-level上做regression效果比frame-level上要好這一點也在TURN-TAP中首先得到了使用;pyramid特徵來獲得context information也是早就被應用的trick;non-local feature應該也有人嘗試過。所以整個模型其實可以看成是TAG+TURN-TAP+LSTM的組合拳,效果喜人。
存在的問題:
(1)數據本身:
(1.1):一方面動作本身的邊界是模糊的,這就表明主流數據集上的label首先就不是完全可靠的,而用這樣的數據學習出來的模型肯定是有問題的。
(1.2):另一方面,視頻數據通常有兩種:固定攝像頭拍攝(監控視頻異常行為檢測),非固定攝像頭拍攝(電視節目精彩片段提取)。現在數據集沒有針對這兩者做區分可能也是存在問題的。比如固定攝像頭情況下,檢測邊界的難點可能來自動作本身的模糊性;而非固定攝像頭拍攝情況下,數據存在雜訊,比如被標記為跳水的視頻段,可能是由【跳水+觀眾席+跳水】組成的,由於攝像頭本身的移動,沒有一個對準主體對象,中間的背景信息沒有被處理,也被標記了,這樣學習出來的特徵可能也存在問題。
(2)模型本身
如何提取有效的temporal特徵是模型需要考慮的最大問題,這個也是目前主流論文著手解決的問題。通常方法有三種,C3D衍生的3D模型、Two-Stream模型、RNN模型。但這三種方法都沒有取得像2D卷積在圖像上取得的進展。同時temporal特徵的可解釋性低,有時候網路效果很好,但很難說明網路到底學到了什麼。
參考文獻
[1] Jiyang Gao,Zhenheng Yang,and Ram Nevatia. 2017.Cascaded Boundary Regression for Temporal Action Detection. arXiv:1705.01180 (2017).
[2] Jiyang Gao,Zhenheng Yang,Chen Sun,Kan Chen,and Ram Nevatia. 2017.TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals. In International Conference on Computer Vision (ICCV). 3648–3656.
[3] Yue Zhao,Yuanjun Xiong,Limin Wang,Zhirong Wu,Xiaoou Tang,and Dahua Lin. 2017. Temporal Action Detection With Structured Segment Networks. In International Conference on Computer Vision (ICCV).
[4] Mike Schuster and Kuldip K Paliwal. 1997. Bidirectional recurrent neural net- works. IEEE Transactions on Signal Processing 45, 11 (1997), 2673–2681.[5] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. 2017. Non-local Neural Networks. arXiv:1711.07971 (2017).[6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 770–778.本文為極市原創文章,轉載請發私信~
推薦閱讀:
※VGG學習筆記
※CS231n 2017 Lecture 1: Course Introduction 隨堂筆記
※[計算機視覺論文速遞] 2018-04-28
※【mask_rcnn】ResNet及mask_rcnn中使用的ResNet網路結構
※[CVPR2018筆記]Convolutional Neural Networks with Alternately Updated Clique