[行為檢測] CDC-Convolutional-De-Convolutional Networks for Precise Temporal Action Localization

這篇文章是2017年ICCV的一篇文章,大佬在這:@Showthem。下面是這篇文章的主要貢獻點。

  • 第一次將卷積、反卷積操作應用到行為檢測領域,文章同時在空間下採樣,在時間域上上採樣。
  • 利用CDC網路結果可以做到端到端的學習
  • 這篇文章可以做到per-frame action lableling,也就是每一幀都可以做預測。而且取到了現在的state-of-art結果

一、網路結構

這篇文章的網路結構其實是比較簡單的。假設都已經知道了C3D網路,不知道可以移步到:vlg.cs.dartmouth.edu/c3 。這篇文章在C3D網路上做了改進,改進後的網路結構如下圖所示。

網路步驟如下所示。

  • 輸入的視頻段是112x112xL,連續L幀112x112的圖像
  • 經過C3D網路後,時間域上L下採樣到 L/8, 空間上圖像的大小由 112x112下採樣到了4x4
  • CDC6: 時間域上上採樣到 L/4, 空間上繼續下採樣到 1x1
  • CDC7: 時間域上上採樣到 L/2
  • CDC8:時間域上上採樣到 L,而且全連接層用的是 4096xK+1, K是類別數
  • softmax層

二、設計細節

這裡主要闡述作者對於CDC filter的設計,CDC filter要做到時間域上的上採樣和空間域上的下採樣。作者這裡討論了幾種設計方案(主要是針對CDC6)。

2.1 Conv6 & deconv6

顯然,我們首先想到的就是先做空間域上的下採樣,然後再做時間域上的上採樣。如下圖所示。

2.2 CDC6

作者設計的CDC6聯合操作,設計了兩個獨立的卷積核(上圖中的紅色和綠色),同時作用於112x112xL/8的特徵圖上。每個卷積核作用都會生成2個1x1的點,如上conv6,那麼兩個卷積核就生成了4個。相當於在時間域上進行了上採樣過程。

2.3 Loss function

根據上述的網路結構圖可以知道,經過softmax後會輸出 (K+1, 1, 1),也就是說針對每一幀,都會有一個類別的打分輸出。所以作者說做到了每幀標籤。

假設總共有N個training segments,我們取出第n個training sample,那麼經過網路後會得到(K+1, 1, 1),經過CDC8後的輸出為On[t], 然後經過softmax層,針對這個樣本的第t幀,我們能得到它對應的第i個類別的打分是

總的Loss function為:

三、實驗結果

3.1 Per-frame labeling

數據集

作者在THUMOS14上進行了測試,THUMOS』14包含20種行為動作,作者使用了2755個修剪的訓練視頻和1010個未修剪的測試視頻(3007個instance)作為訓練集。作者測試了213個視頻,總計(3358)個instance。

測試尺度

取每一幀的最高預測值所在類,作為結果類。然後取mAP。

測試結果如下所示。

3.2 Temporal action localization(時序行為檢測)

評價尺度

Localization同樣也是用mAP來評估的。預測是正確的,如果預測正確的張數佔ground truth的比例超過IOU threshold。

作者之後測試了不同閾值(IoU threshold)的結果圖。

吐槽/比較

  • 傳統方法不太好:因為他們沒有直接定位到temporal localization問題(時間域行為定位)。
  • iDTF不好:因為沒有學習到 空間-時間 關係
  • RNN不好:unable to explicitly capture motion information beyond temporal dependencies
  • S-CNN:能捕捉到 空間-時間 關係,但是對於邊界的調整能力不好。也就是定位不太準確。

3.3 性能

On a NVIDIA Titan X GPU of 12GB memory, the speed of a CDC network is around 500 Frames Per Second (FPS)

參考文獻

[1] Shou Z, Chan J, Zareian A, et al. CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos[J]. arXiv preprint arXiv:1703.01515, 2017.

[2] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497.


推薦閱讀:

最好用的 AI 開源數據集(涵蓋計算機視覺、NLP、語音等 6 大類)
Batch normalization和Instance normalization的對比?
有哪些好看的CNN模型畫法?
如何比較PixelCNN與DCGAN兩種Image generation方法?
[DL-架構-ResNet系] 007 SENet

TAG:深度学习DeepLearning | 计算机视觉 |