ECCV18基於人體骨架的行為識別(SR-TSL)
5 人贊了文章
聲明:為了更清楚的說明模型,我們又重新畫了比較直觀的示意圖,所以一下示意圖可能與論文裡面的不太一樣,但是模型是相同的。
論文鏈接:http://openaccess.thecvf.com/content_ECCV_2018/papers/Chenyang_Si_Skeleton-Based_Action_Recognition_ECCV_2018_paper.pdf
歡迎大家cite這些工作,如果有疑問,歡迎騷擾O(∩_∩)O chenyang.si@cripac.ia.ac.cn
@InProceedings{Si_2018_ECCV,
author = {Si, Chenyang and Jing, Ya and Wang, Wei and Wang, Liang and Tan, Tieniu},
title = {Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning},
booktitle = {The European Conference on Computer Vision (ECCV)},
month = {September},
year = {2018}
}
1、Motivation
近幾年基於skeleton的行為識別已經有很多工作,這些工作在公開資料庫上的精度都有很好的提升,但是仍然有一些問題沒有解決:1、人的運動是由各個part協調完成的,如行走不僅需要腿的運動,還需要手臂的運動維持身體平衡,但是大部分的工作將人體的關鍵點直接concatenate, 然後輸入到LSTM裡面處理,這樣是很難學習到人體結構的空間特徵的。2、現有的方法利用LSTM網路直接對整個skeleton序列進行時序建模,然後利用最後一時刻的hidden state作為時序的表示,這樣對於短時序是有效的,但是對於長時序序列,最後一時刻的狀態很難表示整個序列的時序特徵,也不能包含詳細的時序動態特徵。
在論文里,我們提出了a novel model with spatial reasoning and temporal stack learning 去解決這兩個問題。
2、網路模型
這是我們模型的pipeline。首先在空間上,我們提出了一個spatial reasoning network(SRN),該網路可以獲取人體的high-level的空間結構特徵。下圖為spatial reasoning網路:
首先將每個part轉換成individual spatial feature, 然後利用一個residual graph neural network(RGNN)去建模part之間的結構關係,最後將RGNN的各個節點的表示融合作為這一幀中人體的high-level的空間結構特徵。
在時序上,我們提出了一個temporal stack learning network(TSLN)去建模序列的detailed temporal dynamics。
經過空間推理網路後,我們得到了一個特徵序列。在時序空間上,我們提出了時序堆疊學習網路,首先我們將長時序列劃分成多個連續的短時clip,每個clip通過LSTM進行時序建模,不同clip之間的LSTM是參數共享的。每個短時序clip的最後一個隱含層的狀態最為這個clip的表示,然後將該clip以及之前的所有clip的表示進行累加,列所包含的所有詳細的動態特徵。為了更好地保持表示從開始到該clip的為止的長時序序clip之間的時序關係 ,我們將這個詳細的動態特徵去初始化下一個clip的LSTM。
為了進一步學習詳細的時序特徵,我們又提出了一個Clip-based Incremental Loss去優化網路。
3、實驗結果
一下是在NTU RGB+D dataset和SYSU 3D Human-Object Interaction dataset上的實驗結果
推薦閱讀:
※在lintcode刷AI題:貓狗分類器
※人臉識別哪家強?四種API對比
※ICH網站獲取ICH M9 草案
※如何用flask部署pytorch模型
※[論文筆記] Appearance-and-Relation Networks for Video Classification