SCNN-用於時序動作定位的多階段3D卷積網路

03-18

本文為極市原創，由林天威編譯，首發於SCNN-用於時序動作定位的多階段3D卷積網路。

這篇文章主要介紹Zheng Shou在CVPR2016上的工作"Temporal action localization in untrimmed videos via multi-stage cnns"[1]。之後會再介紹他在CVPR2017 上的新工作。

首先來說一下這篇文章要解決的問題。

視頻中的人體行為識別主要包括兩個方向：Action Recognition 以及 Temporal Action Localization, 下面進行簡單的介紹：

Action Recognition的目的為判斷一個已經分割好的短視頻片段的類別。特點是簡化了問題，一般使用的資料庫都先將動作分割好了，一個視頻片斷中包含一段明確的動作，時間較短（幾秒鐘）且有唯一確定的label。所以也可以看作是輸入為視頻，輸出為動作標籤的多分類問題。常用資料庫包括UCF101，HMDB51等。
Temporal Action Localization 則不僅要知道一個動作在視頻中是否發生，還需要知道動作發生在視頻的哪段時間（包括開始和結束時間）。特點是需要處理較長的，未分割的視頻。且視頻通常有較多干擾，目標動作一般只佔視頻的一小部分。常用資料庫包括THUMOS2014/2015, ActivityNet等。

而這篇文章主要解決Temporal Action Localization的問題。SCNN指segment based CNN,即基於視頻片段的CNN網路。文章的代碼見[SCNN github地址](zhengshou/scnn)。

模型介紹

模型框架

如圖所示即為SCNN的整體模型框架。主要包括三個部分：1)多尺度視頻片段的生成；2)多階段SCNN；3)後處理。下面分別進行介紹。

多尺度視頻片段生成

SCNN模型框架的第一步就是生成候選的視頻片段，之後用這些片段作為下一步的輸入。在SCNN中採用了劃窗方法產生視頻片段，包括多個大小的窗口：16,32,64,128,256,512, 劃窗的重疊為75%。在得到視頻片段後，對其進行平均採樣16幀視頻，從而使得輸出的segment的長度均為16。在生成訓練數據時，同時還記錄和segment和ground truth instance之間的最大重疊度（IoU)以及類別（即如果存在多個重疊的ground truth,取重疊度最大的那個）。

多階段SCNN

SCNN 共有3個階段：proposal, classification and localization network。三者均為結構相同的C3D network[2]，只有最後一層全連接層根據任務不同而有不同的長度。三者的輸入均為上一步得到的segment。

Proposal Network: 輸出為兩類，即預測該segment是動作的概率及是背景的概率（action or not）。訓練時將IoU大於0.7的作為正樣本（動作），小於0.3的作為負樣本（背景），對負樣本進行採樣使得正負樣本比例均衡。採用softmax loss進行訓練。
classification Network: 輸出為K+1個類別（包括背景類）的分數, 這個網路被用來初始化localization network, 僅在訓練階段使用，在測試階段不使用。訓練時同樣將IoU大於0.7的作為正樣本（K類動作），小於0.3的作為背景類，對背景類動作進行採樣使得背景類動作的數量和K類動作數量的平均值相近。訓練時同樣採用softmax loss。
Localization Network：輸出為K+1個類別（包括背景類）的分數，這個分數應該算做是該segment是某類動作的置信度分數。在訓練時localization network用訓練好的classification network做初始化，使用與classification network 相同的數據集，但增加了基於IoU分數的overlap Loss.其loss function為：

其中kn為該segment的真實類別，vn為其IoU, Pn為localization network 的輸出分數。α 為超參數。這個loss的作用是根據IoU的分數調整預測結果，使得輸出的分數不僅能對動作的類別進行分類，還能夠估計其與ground truth的重疊程度。有利於後續的NMS。

測試時的計算流程：在測試時，只使用proposal 及 localization network。對於每個segment，先用proposal network計算它是動作的概率，若這個概率高於閾值（0.7)，則作為一個候選segment進入下一個階段用localization network計算置信度分數，低於閾值的segment都會被捨棄。

後處理

後處理是在測試階段進行的。使用的方法是基於 $P_l$(localization network的輸出分數)進行非極大化抑制（NMS）來移除重疊，在SCNN中，NMS的閾值被設置為0.1。下圖就是NMS的一個例子，對於時序上重疊的動作，通過NMS去除分數低的，保留分數高的。

實驗結果

在測評結果時，temporal action localization 問題一般使用的是mAP指標，即各個動作類別的Average Precision(AP)的平均。當一個動作實例與ground truth的重疊度IoU大於閾值，且類別正確時，被視為正確的預測。常用的閾值為0.5,或者同時用多個閾值來進行比較。SCNN分別在MEXaction2以及THUMOS 2014上進行了實驗，其結果如下表所示。

可以看出SCNN均獲得了不錯的效果，是當時state-of-the-art的結果。

個人討論

在SCNN中，劃窗+Proposal Network 構成了演算法的proposal部分，這裡如果不用Proposal network，直接用劃窗結果進行預測的話mAP會下降大概2個百分點（論文實驗中給出），proposal network的主要作用是去除一些背景片段。

實際上，proposal的生成也是temporal action localization問題中的難點，這點與Object Detection中的Proposal 生成（R-CNN中的region proposal）類似。一個好的proposal 演算法能夠大大提高模型的效果。有論文專門討論這個問題，比如Deep Action Proposal [3]等。

此外，SCNN中segment的大小是通過劃窗確定的，很可能不夠準確。目前CVPR2017上出現的幾篇新的論文[4,5]都對這方面有所討論，並採用了不同的方法提高segment proposal的邊界精度。目前在THUMOS數據集上最好的精度大概比SCNN高十個百分點[4].

參考文獻

[1] Shou Z, Wang D, Chang S F. Temporal action localization in untrimmed videos via multi-stage cnns[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1049-1058.

[2] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 4489-4497.

[3] Escorcia V, Heilbron F C, Niebles J C, et al. Daps: Deep action proposals for action understanding[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 768-784.

[4] Xiong Y, Zhao Y, Wang L, et al. A Pursuit of Temporal Accuracy in General Activity Detection[J]. arXiv preprint arXiv:1703.02716, 2017.

[5] Shou Z, Chan J, Zareian A, et al. CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos[J]. arXiv preprint arXiv:1703.01515, 2017.

PS.推薦我司羅韻的知乎live：深入人工智慧應用案例（一）：教育，零售和工業

講述計算機視覺演算法應用到教育，零售和工業的具體案例。感興趣的可以參加~

————————————————————————————————————————

歡迎關注微信公眾號極市平台（微信id:extrememart）獲取更多計算機視覺行業內的資訊及信息。

PS.目前極市擁有上千名視覺演算法開發者，分別來自騰訊，華為，百度，網易，聯想，努比亞等名企，以及北大，清華，北航，中科院，交大等名校，更邀請了李開復老師入駐微信群，歡迎從業者加入極市專業CV開發者微信群（分享乾貨資訊，行業內人交流），請填寫極市演算法開發者調研問卷申請入群~