標籤:

[行為檢測|行為識別]調研綜述

行為檢測

標籤(空格分隔): 計算機視覺 行為檢測 視頻理解


[toc]


1. 背景

視頻理解是目前計算機視覺領域非常熱,也是極具挑戰力的一個方向。視頻理解方向包含眾多的子研究方向,以CVPR組織的ACTIVITYNET為例,2017年總共有5個Task被提出。

  • Task1:未修剪視頻分類(Untrimmed Video Classification)。這個有點類似於圖像的分類,未修剪的視頻中通常含有多個動作,而且視頻很長。有許多動作或許都不是我們所關注的。所以這裡提出的Task就是希望通過對輸入的長視頻進行全局分析,然後軟分類到多個類別。
  • Task2:修剪視頻識別(Trimmed Action Recognition)。這個在計算機視覺領域已經研究多年,給出一段只包含一個動作的修剪視頻,要求給視頻分類。
  • Task3:時序行為提名(Temporal Action Proposal)。這個同樣類似於圖像目標檢測任務中的候選框提取。在一段長視頻中通常含有很多動作,這個任務就是從視頻中找出可能含有動作的視頻段。
  • Task4:時序行為定位(Temporal Action Localization)。相比於上面的時序行為提名而言,時序行為定位於我們常說的目標檢測一致。要求從視頻中找到可能存在行為的視頻段,並且給視頻段分類。
  • Task5:密集行為描述(Dense-Captioning Events)。之所以稱為密集行為描述,主要是因為該任務要求在時序行為定位(檢測)的基礎上進行視頻行為描述。也就是說,該任務需要將一段未修剪的視頻進行時序行為定位得到許多包含行為的視頻段後,對該視頻段進行行為描述。比如:man playing a piano

而該調研報告主要聚焦於行為識別和行為檢測。也就是上述任務描述中的Task2和Task4.

2. 國內外研究現狀

在該方向上,國內有許多機構和學校也是主要的研究者,所以這裡不再區分國內外,直接描述當前的研究現狀。目前為止ActivityNet已經舉辦兩屆,下面是2017年的State-of-art。

3. 行為分類

行為分類(Trimmed Action Recognition)是視頻理解方向很重要的一個問題,至今為止已經研究多年。深度學習出來後,該問題被逐步解決,現在在數據集上已經達到了比較滿意的效果。如第2章所述 。行為分類問題簡單的來說就是:對於給定的分割好的視頻片段,按照其中的人類行為進行分類。比如女孩化妝、男生打球、跑步等等。該任務不需要確定視頻中行為的開始時間和結束時間。

在深度學習出現之前,表現最好的演算法是iDT^{[1][2]},之後的工作基本上都是在iDT方法上進行改進。IDT的思路是利用光流場來獲得視頻序列中的一些軌跡,再沿著軌跡提取HOF,HOG,MBH,trajectory4中特徵,其中HOF基於灰度圖計算,另外幾個均基於dense optical flow(密集光流計算)。最後利用FV(Fisher Vector)方法對特徵進行編碼,再基於編碼訓練結果訓練SVM分類器。深度學習出來後,陸續出來多種方式來嘗試解決這個問題,包含:Two-Stream^{[3][4]}、C3D(Convolution 3 Dimension)^{[6]},還有RNN^{[7]}方向。

3.1 研究難點

行為識別雖然研究多年,但是至今還是處於實驗室數據集測試階段,沒有真正的實用化和產業化。由此可見該任務目前還是沒有非常魯棒的解決方案。下面簡單闡述一下本人對於該問題的看法。

任務特點:行為識別和圖像分類其實很相似,圖像分類是按照圖像中的目標進行軟分類,行為識別也類似。最開始的時候類似於UCF數據集,都是採用的單標籤,也就是一段視頻只對應一個標籤。現在CPVR舉辦的Activitynet(Kinetics 數據集)每段視頻中包含多個標籤。相比於圖像分類,視頻多了一個時序維度,而這個問題恰恰是目前計算機領域令人頭疼的問題。

任務難點

  • 如上所說,行為識別處理的是視頻,所以相對於圖像分類來說多了一個需要處理的時序維度。
  • 行為識別還有一個痛點是視頻段長度不一,而且開放環境下視頻中存在多尺度、多目標、攝像機移動等眾多的問題。這些問題都是導致行為識別還未能實用化的重要原因。

3.2 數據集介紹

目前還比較常用的資料庫主要有3個,UCF101、HMDB51和Kinetics.

3.3 傳統方法

在深度學習之前,iDT(improved Dense Trajectories)方法是最經典的一種方法。雖然目前基於深度學習的方法已經超過iDT,但是iDT的思路依然值得學習,而且與iDT的結果做ensemble後總能獲得一些提升。iDT的思路主要是在《Dense Trajectories and Motion Boundary Descriptors for Action Recognition》和《Action Recognition with Improved Trajectories》兩篇文章中體現。

下面本文簡單的介紹DT(Dense Trajectories)方法。

3.3.1 密集採樣特徵點

如下圖3.1所示,iDT演算法框架主要包含:密集採樣特徵點,特徵軌跡跟蹤和基於軌跡的特徵提取三個部分。

DT方法通過網格劃分的方式在多尺度圖像中分別密集採樣特徵點。

3.3.2 軌跡與軌跡描述子

假設上一步驟中密集採樣到的某個特徵點的坐標為P_t=(x_t,y_t), 再用下面的公式計算該特徵點在下一幀圖像中的位置。

P_{t+1} = (x_{t+1}, y_{t+1}) = (x_t, y_t) + (M * w_t)|x_t,y_t

上式中w_t為密集光流場,是I_tI_(t+1)計算得到的。M代表的是中值濾波器,尺寸為3x3,,所以這個式子是通過計算特徵點領域內的光流中值來得到特徵點的運動方向。

3.3.3 運動描述子

除了軌跡形狀特徵,還需要更有力的特徵來描述光流,DT/iDT中使用了HOF,HOG和MBH三種特徵。下面簡單的闡述一下這幾種特徵。

HOG特徵:HOG特徵計算的是灰度圖像梯度的直方圖。直方圖的bin數目為8。所以HOG特徵的長度為223*8=96.

HOF特徵:HOF計算的是光流的直方圖。直方圖的bin數目取為8+1,前8個bin與HOG都相同。額外的一個用於統計光流幅度小於某個閾值的像素。故HOF的特徵長度為223*9=108.

MBH特徵:MBH計算的是光流圖像梯度的直方圖,也可以理解為在光流圖像上計算的HOG特徵。由於光流圖像包括X方向和Y方向,故分別計算MBHx和MBHy。MBH總的特徵長度為2*96=192.最後進行特徵的歸一化,DT演算法中對HOG,HOF和MBH均使用L2範數進行歸一化。

3.4 TWO STREAM方法

Two-Stream方法是深度學習在該方向的一大主流方向。最早是VGG團隊在NIPS上提出來的[3]。其實在這之前也有人嘗試用深度學習來處理行為識別,例如李飛飛團隊^{[8]},通過疊加視頻多幀輸入到網路中進行學習,但是不幸的是這種方法比手動提取特徵更加糟糕。當Two-Stream CNN出來後才意味著深度學習在行為識別中邁出了重大的一步。

3.4.1 TWO-STREAM CNN

Two-Stream CNN網路顧名思義分為兩個部分,一部分處理RGB圖像,一部分處理光流圖像。最終聯合訓練,並分類。這篇文章主要有以下三個貢獻點。

  • 首先,論文提出了two-stream結構的CNN網路,由空間(RGB)和時間(光流)兩個維度的網路組成
  • 其次,作者提出了利用網路訓練多幀密度光流,以此作為輸入能在有限訓練數據的情況下取得不錯的結果。
  • 最後,採用多任務訓練的方法將兩個行為分類的數據集聯合起來,增加訓練數據,最終在兩個數據集上都取得了更好的效果(作者提到,聯合訓練也可以去除過擬合的可能)。

網路結構:

因為視頻可以分為空間和時間兩個部分。空間部分,每一幀代表的是空間信息,比如目標、場景等等。而時間部分是指幀間的運動,包括攝像機的運動或者目標物體的運動信息。所以網路相應的由兩個部分組成,分別處理時間和空間兩個維度。

每個網路都是由CNN和最後的softmax組成,最後的softmax的fusion主要考慮了兩種方法:平均,在堆疊的softmax上訓練一個SVM。網路的結構圖如下所示。

光流棧(Optical flow Stacking):

光流棧(Optical flow stacking),或者叫做光流的簡單疊加。簡單的來說就是計算每兩幀之間的光流,然後簡單的stacking。

假設考慮做動作的分類(行為識別主要包含兩個方向,一個是動作分類,給出一個視頻截斷,判斷視頻的動作類別,或者稱為offline。 另一個就是動作識別,給出一個自然視頻,沒有進行任何的裁剪,這個時候需要先知道動作的開始時間和結束時間,然後還要知道動作的類別)。 考慮對一小段視頻進行編碼,假設起始幀為T,連續L幀(不包含T幀)。計算兩幀之間的光流,最終可以得到L張光流場,每張光流場是2通道的(因為每個像素點有x和y方向的移動)。

最後,我們將這些光流場輸入,得到相應的特徵圖。

實驗結果:

最終該方法在UCF-101和HMDB-51上取得了與iDT系列最好的一致效果。在UCF-101上準確度為88.0%,在HMDB上準確度為59.4%。

3.4.2 TSN

TSN(Temporal Segments Networks)[5]是在上述基礎的two-Stream CNN上改進的網路。目前基於two-stream的方法基本上是由TSN作為骨幹網路,所以這裡進行簡單的闡述。

3.4.1小節所述的two-stream的方法很大的一個弊端就是不能對長時間的視頻進行建模,只能對連續的幾幀視頻提取temporal context。為了解決這個問題TSN網路提出了一個很有用的方法,先將視頻分成K個部分,然後從每個部分中隨機的選出一個短的片段,然後對這個片段應用上述的two-stream方法,最後對於多個片段上提取到的特徵做一個融合。下圖是網路的結構圖。

3.5 C3D方法

C3D(3-Dimensional Convolution)^{[6]}是除了Two-Stream後的另外一大主流方法,但是目前來看C3D的方法得到的效果普遍比Two-Stream方法低好幾個百分點。但是C3D任然是目前研究的熱點,主要原因是該方法比Two-Stream方法快很多,而且基本上都是端到端的訓練,網路結構更加簡潔。該方法思想非常簡單,圖像是二維,所以使用二維的卷積核。視頻是三維信息,那麼可以使用三維的卷積核。所以C3D的意思是:用三維的卷積核處理視頻。

網路結構

C3D共有8次卷積操作,5次池化操作。其中卷積核的大小均為333,步長為111。池化核為222,但是為了不過早的縮減在時序上的長度,第一層的池化大小和步長為122。最後網路在經過兩次全連接層和softmax層後得到的最終的輸出結果。網路的輸入為316112112,其中3為RGB三通道,16為輸入圖像的幀數,112112是圖像的輸入尺寸。

3.6 RNN方法

因為視頻除了空間維度外,最大的痛點是時間序列問題。如果能很好的處理這個維度,那麼效果是不是會顯著提升呢?而眾所周知,RNN網路在NLP方向取得了傲人的成績,非常適合處理序列。所以除了上述兩大類方法以外,另外還有一大批的研究學者希望使用RNN網路思想來解決這個問題。目前最新的進展是中科院深圳先進院喬宇老師的工作:《RPAN:An End-to-End Recurrent Pose-Attention Network for Action Recognition in Videos》[7]。這篇文章是ICCV2017年的oral文章。但是與傳統的Video-level category訓練RNN不同,這篇文章還提出了Pose-attention的機制。

這篇文章主要有以下幾個貢獻點。

  • 不同於之前的pose-related action recognition,這篇文章是端到端的RNN,而且是spatial-temporal evolutionos of human pose
  • 不同於獨立的學習關節點特徵(human-joint features),這篇文章引入的pose-attention機制通過不同語義相關的關節點(semantically-related human joints)分享attention參數,然後將這些通過human-part pooling層聯合起來
  • 視頻姿態估計,通過文章的方法可以給視頻進行粗糙的姿態標記。(這個方法還挺不錯)。

3.6.1 網路結構

RPAN網路框架可以分為三個大的部分。

  • 特徵生成部分:用Two-Stream的方法生成
  • 姿態注意機制
  • LSTM時序處理網路

下圖是RPAN網路的結構圖。

3.6.2 特徵生成

RPAN網路中採用TSN(Temporal Segments Network)的網路框架生成Convolution Cubes。包含空間和時間上兩個維度。具體內容可以查看3.4.2小節。

3.6.3 姿態注意機制

經過上述Two-Stream網路後生成了K1K2dc的特徵圖。之後作者經過一系列的操作將姿態和上述的特徵圖結合起來得到姿態特徵圖,最後輸入LSTM中。具體的,文章進行了如下幾步操作。

Step1:空間特徵向量文章中定義一個C_t,表示第t個視頻幀在不同空間位置上的特徵向量。空間圖是K1xK2的大小,共dc個通道。所以C_t是K1xk2個dc維的向量。Ct的定義如下。

C_t = {C_t(1),......,C_t(K_1 * K_2)}

Step2:人體部位定義

因為要涉及到姿態檢測,所以文章中先定義了一個關節點,總共13個。然後由這些13個關節點,定義了5個身體的部位。定義如下圖所示。

3.6.4 LOSS FUNCTION

文章中定義了一個聯合訓練的Loss Function,將行為損失和姿態損失聯合起來。

3.7 總結

行為識別目前還是視頻理解方向的熱點,而且至今為止也沒有得到很好的解決。由於視頻中目標複雜,場景複雜,所以單純的Two-Stream和C3D方法表現得都不太如意。RPAN中引入了姿態監督的機制,或許能提高視頻分類的效果。

4 行為檢測

行為檢測也是目前視頻理解方向的研究主要熱點,因為該任務更加貼近生活,在監控安防中有潛在的巨大價值。但是相比於行為分類,行為檢測難度更高,不僅需要定位視頻中可能存在行為動作的視頻段,還需要將其分類。而定位存在行為動作的視頻段是一個更加艱巨的任務。

因為行為檢測任務有點類似於目標檢測任務,都是需要先定位目標,然後識別目標。所以目前很多行為檢測方法都是借鑒於目標檢測,主要思想基本上是Temporal Proposal提取,然後進行分類與回歸操作。這類方法包含,利用Faster R-CNN框架^{[9][10]}思路,利用SSD框架思路^{[11]},還有基於TAG網路^{[12]}等等。還有一類方法是基於C3D做幀分類(Frame Label),然後預測存在行為的視頻段並分類,例如2017年ICCV的CDC網路^{[13]}

4.1 研究難點

上面簡單闡述了行為檢測的難點,這裡總結一下主要有以下三點。

  • 時序信息。與行為識別/分類一樣,視頻理解的通用難點就是時序信息的處理。所以針對這一點目前的主要方法基本上都是使用RNN讀入CNN提取的特徵,或者直接使用C3D一樣的時序卷積。
  • 邊界不明確。不同於行為識別的是,行為檢測要求做精確的動作區間檢測,而生活中一個動作的產生往往邊界不是十分確定的,所以這也是導致目前行為檢測mAP偏低的原因。
  • 時間跨度大。在生活中,一個行為動作往往跨度非常大,短的動作幾秒左右,比如揮手。長的動作有的持續數十分鐘,比如攀岩、騎行等等。這使得我們在提取Proposal的時候變得異常的艱難。

4.2 數據集介紹

行為檢測方向常用的數據集主要是THUMOS 2014和ActivityNet。THUMOS 2014來自於THUMOS Challenge 2014,。它的訓練集為UCF101數據集,驗證集和測試集分別包括1010和1574個未分割的視頻片段。在行為檢測任務中只有20類動作的未分割視頻是有時序行為片段標註的,包括200個驗證集(3007個行為片段)和213個測試集視頻(包含3358個行為片段)。

MEXaction2:MEXaction2數據集中包含兩類動作:騎馬和鬥牛。該數據集由三個部分組成:YouTube視頻,UCF101中的騎馬視頻以及INA視頻。其中YouTube視頻片段和UCF101中的騎馬視頻是分割好的短視頻片段,被用於訓練集。而INA視頻為多段長的未分割的視頻,時長共計77小時,且被分為訓練,驗證和測試集三部分。訓練集中共有1336個行為片段,驗證集中有310個行為片段,測試集中有329個行為片斷。且MEXaction2數據集的特點是其中的未分割視頻長度都非常長,被標註的行為片段僅占視頻總長的很低比例。

ActivityNet: 目前最大的資料庫,同樣包含分類和檢測兩個任務。這個數據集僅提供視頻的youtube鏈接,而不能直接下載視頻,所以還需要用python中的youtube下載工具來自動下載。該數據集包含200個動作類別,20000(訓練+驗證+測試集)左右的視頻,視頻時長共計約700小時。由於這個數據集實在太大了,我的實驗條件下很難完成對其的實驗,所以我之前主要還是在THUMOS14和MEXaction2上進行實驗。

4.3 CDC網路

CDC網路^{[13]}是在C3D網路基礎上,借鑒了FCN的思想。在C3D網路的後面增加了時間維度的上採樣操作,做到了幀預測(frame level labeling)。以下是文章主要貢獻點。

  • 第一次將卷積、反卷積操作應用到行為檢測領域,CDC同時在空間下採樣,在時間域上上採樣。
  • 利用CDC網路結構可以做到端到端的學習。
  • 通過反卷積操作可以做到幀預測(Per-frame action labeling)。

4.3.1 網路結構

CDC網路在C3D的基礎上用反卷積,將時序升維。做到了幀預測。以下是CDC網路的結構圖。

網路步驟如下所示。

  • 輸入的視頻段是112x112xL,連續L幀112x112的圖像
  • 經過C3D網路後,時間域上L下採樣到 L/8, 空間上圖像的大小由 112x112下採樣到了4x4
  • CDC6: 時間域上上採樣到 L/4, 空間上繼續下採樣到 1x1
  • CDC7: 時間域上上採樣到 L/2
  • CDC8:時間域上上採樣到 L,而且全連接層用的是 4096xK+1, K是類別數
  • softmax層

4.3.2 CDC FILTER

文章的還有一大貢獻點是反卷積的設計,因為經過C3D網路輸出後,存在時間和空間兩個維度,文章中的CDC6完成了時序上採樣,空間下採樣的同時操作。

如下圖所示,一般的都是先進行空間的下採樣,然後進行時序上採樣。但是CDC中設計了兩個獨立的卷積核(下圖中的紅色和綠色)。同時作用於112x112xL/8的特徵圖上。每個卷積核作用都會生成2個1x1的點,如上conv6,那麼兩個卷積核就生成了4個。相當於在時間域上進行了上採樣過程。

4.3.3 LOSS FUNCTION

根據上述的網路結構圖可以知道,經過softmax後會輸出 (K+1, 1, 1),也就是說針對每一幀,都會有一個類別的打分輸出。所以作者說做到了每幀標籤。

假設總共有N個training segments,我們取出第n個training sample,那麼經過網路後會得到(K+1, 1, 1),經過CDC8後的輸出為On[t], 然後經過softmax層,針對這個樣本的第t幀,我們能得到它對應的第i個類別的打分如下。

P_N^{(i)}[t] = frac {e^{O_n^{(i)}[t]}}{sum_{j=1}^{K+1}e^{O_n^{(j)}[t]}}

最終總的Loss Function如下。

L = frac {1}{N} sum_{n=1}^{N}sum_{t=1}^{L}(-log(P_n^{(z_n)}[t]))

4.4 R-C3D網路

R-C3D(Region 3-Dimensional Convolution)網路[10]是基於Faster R-CNN和C3D網路思想。對於任意的輸入視頻L,先進行Proposal,然後用3D-pooling,最後進行分類和回歸操作。文章主要貢獻點有以下3個。

  • 可以針對任意長度視頻、任意長度行為進行端到端的檢測
  • 速度很快(是目前網路的5倍),通過共享Progposal generation 和Classification網路的C3D參數
  • 作者測試了3個不同的數據集,效果都很好,顯示了通用性。

4.4.1 網路結構

R-C3D網路可以分為4個部分。

  • 特徵提取網路:對於輸入任意長度的視頻進行特徵提取
  • Temporal Proposal Subnet: 用來提取可能存在行為的時序片段(Proposal Segments)
  • Activity Classification Subnet: 行為分類子網路
  • Loss Function

下圖是整個網路結構圖。

4.4.2 特徵提取網路

骨幹網路作者選擇了C3D網路,經過C3D網路的5層卷積後,可以得到512 x L/8 x H/16 x W/16大小的特徵圖。這裡不同於C3D網路的是,R-C3D允許任意長度的視頻L作為輸入。

Temporal Proposal Subnet

這一部分是時序候選框提取網路,類似於Faster R-CNN中的RPN,用來提取一系列可能存在目標的候選框。這裡是提取一系列可能存在行為的候選時序。

Step1:候選時序生成

輸入視頻經過上述C3D網路後得到了512 x L/8 x H/16 x W/16大小的特徵圖。然後作者假設anchor均勻分布在L/8的時間域上,也就是有L/8個anchors,每個anchors生成K個不同scale的候選時序。

Step2: 3D Pooling

得到的 512xL/8xH/16xW/16的特徵圖後,為了獲得每個時序點(anchor)上每段候選時序的中心位置偏移和時序的長度,作者將空間上H/16 x W/16的特徵圖經過一個3x3x3的卷積核和一個3D pooling層下採樣到 1x1。最後輸出 512xL/8x1x1.

Step3: Training類似於Faster R-CNN,這裡也需要判定得到的候選時序是正樣本還是負樣本。文章中的判定如下。正樣本:IoU > 0.7,候選時序幀和ground truth的重疊數負樣本: IOU < 0.3為了平衡正負樣本,正/負樣本比例為1:1.

4.4.3 ACTIVITY CLASSIFICATION SUBNET

行為分類子網路有如下幾個功能:

  • 從TPS(Temporal Proposal subnet)中選擇出Proposal segment
  • 對於上述的proposal,用3D RoI 提取固定大小特徵
  • 以上述特徵為基礎,將選擇的Proposal做類別判斷和時序邊框回歸

Step1: NMS

針對上述Temporal Proposal Subnet提取出的segment,採用NMS(Non-maximum Suppression)非極大值抑制生成優質的proposal。NMS 閾值為0.7.

Step2:3D RoI

RoI (Region of interest,興趣區域).這裡,個人感覺作者的圖有點問題,提取興趣區域的特徵圖的輸入應該是C3D的輸出,也就是512xL/8xH/16xW/16,可能作者遺忘了一個輸入的箭頭。假設C3D輸出的是 512xL/8x7x7大小的特徵圖,假設其中有一個proposal的長度(時序長度)為lp,那麼這個proposal的大小為512xlpx7x7,這裡借鑒SPPnet中的池化層,利用一個動態大小的池化核,ls x hs x ws。最終得到 512x1x4x4大小的特徵圖

Step3: 全連接層

經過池化後,再輸出到全連接層。最後接一個邊框回歸(start-end time )和類別分類(Activity Scores)。

Step4: Traning

在訓練的時候同樣需要定義行為的類別,如何給一個proposal定label?同樣採用IoU。

  • IoU > 0.5,那麼定義這個proposal與ground truth相同
  • IoU 與所有的ground truth都小於0.5,那麼定義為background

這裡,訓練的時候正/負樣本比例為1:3。

4.4.4 LOSS FUNCTION

文章將分類和回歸聯合,而且聯合兩個子網路。分類採用softmax,回歸採用smooth L1。

  • 其中的N都代表batch size
  • lamda 為1

5 參考文獻

[1] Wang H, Schmid C. Action recognition with improved trajectories[C]//Computer Vision (ICCV), 2013 IEEE International Conference on. IEEE, 2013: 3551-3558.

[2] Wang H, Kl?ser A, Schmid C, et al. Dense trajectories and motion boundary descriptors for action recognition[J]. International journal of computer vision, 2013, 103(1): 60-79.

[3] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in neural information processing systems. 2014: 568-576.[4] Feichtenhofer C, Pinz A, Zisserman A P. Convolutional two-stream network fusion for video action recognition[J]. 2016.

[5] Wang L, Xiong Y, Wang Z, et al. Temporal segment networks: Towards good practices for deep action recognition[C]//European Conference on Computer Vision. Springer, Cham, 2016: 20-36.

[6] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Computer Vision (ICCV), 2015 IEEE International Conference on. IEEE, 2015: 4489-4497.

[7] Du W, Wang Y, Qiao Y. Rpan: An end-to-end recurrent pose-attention network for action recognition in videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3725-3734.

[8] Karpathy A, Toderici G, Shetty S, et al. Large-scale video classification with convolutional neural networks[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2014: 1725-1732.

[9] Dai X, Singh B, Zhang G, et al. Temporal Context Network for Activity Localization in Videos[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017: 5727-5736.

[10] Xu H, Das A, Saenko K. R-c3d: Region convolutional 3d network for temporal activity detection[C]//The IEEE International Conference on Computer Vision (ICCV). 2017, 6: 8.

[11] Lin T, Zhao X, Shou Z. Single shot temporal action detection[C]//Proceedings of the 2017 ACM on Multimedia Conference. ACM, 2017: 988-996.

[12] Zhao Y, Xiong Y, Wang L, et al. Temporal action detection with structured segment networks[C]//The IEEE International Conference on Computer Vision (ICCV). 2017, 8.

[13] Shou Z, Chan J, Zareian A, et al. CDC: convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 1417-1426.


<個人網頁blog已經上線,一大波乾貨即將來襲:faiculty.com/>

版權聲明:公開學習資源,只供線上學習,不可轉載,如需轉載請聯繫本人 .

QQ交流群:451429116

推薦閱讀:

機器學習基石筆記14:正則化(Regularization)
機器學習之邏輯回歸分類
【翻譯】Brian2高級指導_外部代碼交互
【翻譯】Brian2高級指導_Brian如何工作
DeepLearning.AI 學習筆記(一)

TAG:機器學習 |