[行為檢測] CDC-Convolutional-De-Convolutional Networks for Precise Temporal Action Localization

01-28

這篇文章是2017年ICCV的一篇文章,大佬在這：@Showthem。下面是這篇文章的主要貢獻點。

第一次將卷積、反卷積操作應用到行為檢測領域，文章同時在空間下採樣，在時間域上上採樣。
利用CDC網路結果可以做到端到端的學習
這篇文章可以做到per-frame action lableling,也就是每一幀都可以做預測。而且取到了現在的state-of-art結果

一、網路結構

這篇文章的網路結構其實是比較簡單的。假設都已經知道了C3D網路，不知道可以移步到：http://vlg.cs.dartmouth.edu/c3d/ 。這篇文章在C3D網路上做了改進，改進後的網路結構如下圖所示。

網路步驟如下所示。

輸入的視頻段是112x112xL，連續L幀112x112的圖像
經過C3D網路後，時間域上L下採樣到 L/8, 空間上圖像的大小由 112x112下採樣到了4x4
CDC6: 時間域上上採樣到 L/4, 空間上繼續下採樣到 1x1
CDC7: 時間域上上採樣到 L/2
CDC8：時間域上上採樣到 L，而且全連接層用的是 4096xK+1, K是類別數
softmax層

二、設計細節

這裡主要闡述作者對於CDC filter的設計，CDC filter要做到時間域上的上採樣和空間域上的下採樣。作者這裡討論了幾種設計方案(主要是針對CDC6)。

2.1 Conv6 & deconv6

顯然，我們首先想到的就是先做空間域上的下採樣，然後再做時間域上的上採樣。如下圖所示。

2.2 CDC6

作者設計的CDC6聯合操作，設計了兩個獨立的卷積核（上圖中的紅色和綠色），同時作用於112x112xL/8的特徵圖上。每個卷積核作用都會生成2個1x1的點，如上conv6，那麼兩個卷積核就生成了4個。相當於在時間域上進行了上採樣過程。

2.3 Loss function

根據上述的網路結構圖可以知道，經過softmax後會輸出 (K+1, 1, 1)，也就是說針對每一幀，都會有一個類別的打分輸出。所以作者說做到了每幀標籤。

假設總共有N個training segments，我們取出第n個training sample，那麼經過網路後會得到(K+1, 1, 1),經過CDC8後的輸出為On[t], 然後經過softmax層，針對這個樣本的第t幀，我們能得到它對應的第i個類別的打分是：

總的Loss function為：

三、實驗結果

3.1 Per-frame labeling

數據集：

作者在THUMOS14上進行了測試，THUMOS』14包含20種行為動作，作者使用了2755個修剪的訓練視頻和1010個未修剪的測試視頻（3007個instance）作為訓練集。作者測試了213個視頻,總計(3358)個instance。

測試尺度：

取每一幀的最高預測值所在類，作為結果類。然後取mAP。

測試結果如下所示。

3.2 Temporal action localization（時序行為檢測）

評價尺度：

Localization同樣也是用mAP來評估的。預測是正確的，如果預測正確的張數佔ground truth的比例超過IOU threshold。

作者之後測試了不同閾值(IoU threshold)的結果圖。

吐槽/比較：

傳統方法不太好：因為他們沒有直接定位到temporal localization問題(時間域行為定位)。
iDTF不好：因為沒有學習到空間-時間關係
RNN不好：unable to explicitly capture motion information beyond temporal dependencies
S-CNN：能捕捉到空間-時間關係，但是對於邊界的調整能力不好。也就是定位不太準確。

3.3 性能

On a NVIDIA Titan X GPU of 12GB memory, the speed of a CDC network is around 500 Frames Per Second (FPS)。

參考文獻

[1] Shou Z, Chan J, Zareian A, et al. CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos[J]. arXiv preprint arXiv:1703.01515, 2017.

[2] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497.