[行為檢測] CDC-Convolutional-De-Convolutional Networks for Precise Temporal Action Localization
這篇文章是2017年ICCV的一篇文章,大佬在這:@Showthem。下面是這篇文章的主要貢獻點。
- 第一次將卷積、反卷積操作應用到行為檢測領域,文章同時在空間下採樣,在時間域上上採樣。
- 利用CDC網路結果可以做到端到端的學習
- 這篇文章可以做到per-frame action lableling,也就是每一幀都可以做預測。而且取到了現在的state-of-art結果
一、網路結構
這篇文章的網路結構其實是比較簡單的。假設都已經知道了C3D網路,不知道可以移步到:http://vlg.cs.dartmouth.edu/c3d/ 。這篇文章在C3D網路上做了改進,改進後的網路結構如下圖所示。
網路步驟如下所示。
- 輸入的視頻段是112x112xL,連續L幀112x112的圖像
- 經過C3D網路後,時間域上L下採樣到 L/8, 空間上圖像的大小由 112x112下採樣到了4x4
- CDC6: 時間域上上採樣到 L/4, 空間上繼續下採樣到 1x1
- CDC7: 時間域上上採樣到 L/2
- CDC8:時間域上上採樣到 L,而且全連接層用的是 4096xK+1, K是類別數
- softmax層
二、設計細節
這裡主要闡述作者對於CDC filter的設計,CDC filter要做到時間域上的上採樣和空間域上的下採樣。作者這裡討論了幾種設計方案(主要是針對CDC6)。
2.1 Conv6 & deconv6
顯然,我們首先想到的就是先做空間域上的下採樣,然後再做時間域上的上採樣。如下圖所示。
2.2 CDC6
作者設計的CDC6聯合操作,設計了兩個獨立的卷積核(上圖中的紅色和綠色),同時作用於112x112xL/8的特徵圖上。每個卷積核作用都會生成2個1x1的點,如上conv6,那麼兩個卷積核就生成了4個。相當於在時間域上進行了上採樣過程。
2.3 Loss function
根據上述的網路結構圖可以知道,經過softmax後會輸出 (K+1, 1, 1),也就是說針對每一幀,都會有一個類別的打分輸出。所以作者說做到了每幀標籤。
假設總共有N個training segments,我們取出第n個training sample,那麼經過網路後會得到(K+1, 1, 1),經過CDC8後的輸出為On[t], 然後經過softmax層,針對這個樣本的第t幀,我們能得到它對應的第i個類別的打分是:
總的Loss function為:
三、實驗結果
3.1 Per-frame labeling
數據集:
作者在THUMOS14上進行了測試,THUMOS』14包含20種行為動作,作者使用了2755個修剪的訓練視頻和1010個未修剪的測試視頻(3007個instance)作為訓練集。作者測試了213個視頻,總計(3358)個instance。
測試尺度:
取每一幀的最高預測值所在類,作為結果類。然後取mAP。測試結果如下所示。
3.2 Temporal action localization(時序行為檢測)
評價尺度:
Localization同樣也是用mAP來評估的。預測是正確的,如果預測正確的張數佔ground truth的比例超過IOU threshold。
作者之後測試了不同閾值(IoU threshold)的結果圖。
吐槽/比較:
- 傳統方法不太好:因為他們沒有直接定位到temporal localization問題(時間域行為定位)。
- iDTF不好:因為沒有學習到 空間-時間 關係
- RNN不好:unable to explicitly capture motion information beyond temporal dependencies
- S-CNN:能捕捉到 空間-時間 關係,但是對於邊界的調整能力不好。也就是定位不太準確。
3.3 性能
On a NVIDIA Titan X GPU of 12GB memory, the speed of a CDC network is around 500 Frames Per Second (FPS)。
參考文獻
[1] Shou Z, Chan J, Zareian A, et al. CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos[J]. arXiv preprint arXiv:1703.01515, 2017.
[2] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497.
推薦閱讀:
※最好用的 AI 開源數據集(涵蓋計算機視覺、NLP、語音等 6 大類)
※Batch normalization和Instance normalization的對比?
※有哪些好看的CNN模型畫法?
※如何比較PixelCNN與DCGAN兩種Image generation方法?
※[DL-架構-ResNet系] 007 SENet
TAG:深度学习DeepLearning | 计算机视觉 |