[論文概覽] AAAI 2018 行為識別論文概覽

05-20

來自專欄計算機視覺

<個人網頁blog已經上線，一大波乾貨即將來襲：https://faiculty.com/>

QQ交流群：451429116

Action Detection

[1] ++Action Recognition from Skeleton Data via Analogical Generalization over QualitativeRepresentationsKezhen Chen*, Kenneth Forbus++

思路：從骨架圖中學習人的行為

[2] ++Action Recognition with Coarse-to-Fine Deep Feature Integration and Asynchronous FusionWeiyao Lin*, Yang Mi, Jianxin Wu, Ke Lu, Hongkai Xiong++

提高精度的方法：
- 生成更加具有針對性的動作特徵，來更好的代表某個動作
- 減少不同信息流的非同步性
思路：
- 由粗到細的網路提取共享的深層特徵，然後逐步融合獲得更好的表徵特徵
- 非同步融合網路，在不同時間融合來自不同流的信息
結果：
- 無IDT的。UCF101上是94.3%，HMDB51是69.0%
- 有IDT的。UCF101上是95.2%，HMDB51上是72.6%

[3] ++Cooperative Training of Deep Aggregation Networks for RGB-D Action RecognitionPichao Wang*, Wanqing Li, Jun Wan, Philip Ogunbona, Xinwang Liu++

網路結構：該篇文章針對的是RGB-D圖像，所以並沒有細看~

思路：
- 在RGB-D的視覺特徵和深度特徵上訓練c-ConvNet卷積網路
- 通過聯合ranking loss和softmax loss能增強深度可分離特徵的學習，也就是可以學到更加具有區分性的深度特徵
實驗結果
- ChaLearn LAP IsoGD: 44.8%
- NTU RGB+D Dataset：89.08%
- SYSU 3D HOI dataset: 98.33%

[4] ++Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based FeatureExtraction for Human Action RecognitionYang Du, Chunfeng Yuan*, Weiming Hu, Hao Yang++

簡介：這篇文章是中科院自動化所提出來的，一種針對行為識別的特徵生成的方法。傳統的手寫特徵要求規則苛刻，而深度學習提取特徵的方法需要大量的標記數據。文章提出的 Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map(NOASSOM)是一種折中的考慮。
思路：論文的主要貢獻點
- 添加一個非線性正交圖層使得NOASSOM能處理非線性的數據，而且通過核技巧可以避免定義具體非線性正交圖。
- 修改ASSOM的損失函數，使得每個輸入樣本都被用來單獨的訓練模型
- 提出一個層次化的NOASSOM，能提取更具代表性（區分性，獨特性）的特徵
實驗結果：
- HMDB-51上： NOASSOM+iDT，69.3%
- UCF-101上： NOASSOM+iDT，93.8%
- KTH上：NOASSOM+FV，98.2%

[5] ++SAP: Self-Adaptive Proposal Model for Temporal Action Detection based on ReinforcementLearningJinjia Huang, Nannan Li, Ge Li*, Ronggang Wang, Wenmin Wang++

簡介：北京大學深圳研究生院，行為檢測文章。作者認為從人類認知來看，行為檢測應該是分為兩個部分，第一部分是粗定位，第二部分是精修。所以作者提出SAP，自適應的行為檢測方法。
網路結構

思路：先遍歷整個視頻，發現一些行為記錄（label），來學習一個代理。利用強化學習，特別是Deep Q-Learning 演算法來學習代理的決策策略。
實驗結果：
- THUMOS『14上，27.7%
開源代碼：https://github.com/hjjpku/Action_Detection_DQN

[6] ++Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action RecognitionSijie YAN*, Yuanjun XIONG, Dahua LIN, xiaoou Tang++

簡介：港中文湯曉鷗實驗室，從論文題目可以知道，這篇文章設計一種基於骨架圖做行為識別的空間時間卷積網路。傳統的方法是通過手工製作或者遍歷規則來建模骨架，這樣得到的結果不僅代表性有限，而且泛化能力比較差。作者提出的ST-GCN能自動從數據中學習時間和空間的模型。
網路結構

思路：
- 在視頻上先對每一幀做姿態估計（Kinetics 數據集上文章用的是OpenPose），然後可以構建出一個空間上的骨架時序圖。
- 然後應用ST-GCN網路提取高層特徵
- 最後用softmax分類器進行分類
實驗結果：
- Kinetics dataset: 30.7%
- NTU-RGB+D : 在cross-subject(X-Sub)和cross-View(X-View)上表現是81.5%，88.3%
開源代碼：https://github.com/yysijie/st-gcn

[7] ++Spatio-Temporal Graph Convolution for Skeleton Based Action RecognitionChaolong Li*, Zhen Cui, Wenming Zheng, Chunyan Xu, Jian Yang++

[8] ++T-C3D: Temporal Convolutional 3D Network for Real-time Action RecognitionLIU KUN, Wu Liu*, Chuang Gan, Mingkui Tan, Huadong Ma++

[9] ++Unsupervised Deep Learning of Mid-Level Video Representation for Action RecognitionJingyi Hou*, Xinxiao Wu, Jin Chen, Jiebo Luo, yunde Jia++

[10] ++Unsupervised Representation Learning with Long-Term Dynamics for Skeleton Based Action RecognitionNenggan Zheng, Jun Wen, Risheng Liu*, liangqu Long, Jianhua Dai, Zhefeng Gong++

[11] ++Multimodal Keyless Attention Fusion for Video ClassificationXiang Long*, Chuang Gan, Gerard De melo, Xiao Liu, Yandong Li, Fu Li, Shilei Wen++

簡介：清華大學論文，根據題目，Multimodal Keyless 可以知道，這篇文章採用了多模態的方式。而且走的是RNN（LSTM）的路線。
思路：Multimodal Representation意思是多模式表示，在行為識別任務上，文章採用了視覺特徵（Visual Features，包含RGB特徵和 flow features）；聲學特徵（Acoustic Feature）；前面兩個特徵都是針對時序，但是時序太長並不適合直接喂到LSTM，所以作者採用了分割的方法（Segment-Level Features），將得到的等長的Segment喂到LSTM。
網路結構

實驗結果：
- 特點：該文章實驗在多個數據集上，文章稱魯棒性比較好。
- UCF101上，最高94.8%
- ActivityNet上，最高78.5%
- Kinetics上，Top-1:77.0%，Top-5：93.2%
- YouTube-8M GAP@20,60K Valid：80.9%，Test：82.2%

Action Localization

[12] ++Exploring Temporal Preservation Networks for Precise Temporal Action LocalizationKe Yang*, Peng Qiao, Dongsheng Li, Shaohe Lv, Yong Dou++

簡介：這篇文章是楊科大佬的文章。Temporal Preservation Network，TPC，時序保留網路。
思路：這篇文章是在CDC網路的基礎進行改進的，CDC最後是採用了時間上上採樣，空間下採樣的方法做到了 per-frame action predictions，而且取得了可信的行為定位的結果。但是在CDC filter之前時間上的下採樣存在一定時序信息的丟失。作者提出的TPC網路，採用時序保留卷積操作，這樣能夠在不進行時序池化操作的情況下獲得同樣大小的感受野而不縮短時序長度。
TPC 時序保留卷積：

實驗結果：THUMOS14上，28.2%