基於視覺的視頻分類入門

05-19

基於視覺的視頻分類入門

來自專欄 Video Classification and Captioning

基於視覺的視頻分類入門

Introduction to Visual-based video classification

PDF版下載鏈接：鏈接：https://pan.baidu.com/s/1nfrRnoafJsUF0TMC9TzX_g 密碼：j8yi

互聯網上圖像和視頻的規模日益龐大，據統計Youtube網站每分鐘就有數百小時的視頻產生，這使得急切需要研究視頻相關演算法幫助人們更加容易地找到感興趣內容的視頻。這些視頻分類演算法能實現自動分析視頻所包含的語義信息、理解其內容，對視頻進行自動標註、分類和描述，達到與人媲美的準確率。大規模視頻分類是繼圖像分類問題解決後下一個急需解決的關鍵問題。

視頻分類的主要目標是理解視頻中包含的內容，確定視頻對應的幾個關鍵主題。視頻分類（Video Classification）演算法將基於視頻的語義內容如人類行為和複雜事件等，將視頻片段自動分類至單個或多個類別[1]。視頻分類不僅僅是要理解視頻中的每一幀圖像，更重要的是要識別出能夠描述視頻的少數幾個最佳關鍵主題。視頻分類的研究內容主要包括多標籤的通用視頻分類和人類行為識別等。與之密切相關的是，視頻描述生成（Video Captioning）試圖基於視頻分類的標籤，形成完整的自然語句，為視頻生成包含最多動態信息的描述說明。

雖然融合多種特徵如文本-圖像融合、聲音-視頻融合對提高視頻分類的性能有所幫助，但是本文主要關注研究融合視頻本身的空間和時間特徵，也稱為基於視覺的視頻分類。

一、 傳統視頻分類方法研究

在深度學習方法廣泛應用之前，大多數的視頻分類方法採用基於人工設計的特徵和典型的機器學習方法研究行為識別和事件檢測。

傳統的視頻分類研究專註於採用對局部時空區域的運動信息和表觀（Appearance）信息編碼的方式獲取視頻描述符，然後利用詞袋模型（Bag of Words）等方式生成視頻編碼，最後利用視頻編碼來訓練分類器（如SVM），區分視頻類別。視頻的描述符依賴人工設計的特徵，如使用運動信息獲取局部時空特徵的梯度直方圖（Histogram of Oriented Gradients，HOG），使用不同類型的軌跡的光流直方圖（Histogram of Optical Flow, HOF）和運動邊界直方圖（Motion Boundary Histogram，MBH）。通過詞袋模型或Fisher向量方法，這些特徵可以生成視頻編碼。

當前，基於軌跡的方法（尤其是DT和IDT）是最高水平的人工設計特徵演算法的基礎[2]。許多研究者正在嘗試改進IDT，如通過增加字典的大小和融合多種編碼方法，通過開發子採樣方法生成DT特徵的字典，在許多人體行為數據集上取得了不錯的性能。

然而，隨著深度神經網路的興起，特別是CNN、LSTM、GRU等在視頻分類中的成功應用，其分類性能逐漸超越了基於DT和IDT的傳統方法，使得這些傳統方法逐漸淡出了人們的視野。

二、 深度網路方法研究

深度網路為解決大規模視頻分類問題提供了新的思路和方法。近年來得益於深度學習研究的巨大進展，特別是卷積神經網路（Convolutional Neural Networks, CNN）作為一種理解圖像內容的有效模型，在圖像識別、分割、檢測和檢索等方面取得了最高水平的研究成果。卷積神經網路CNN在靜態圖像識別問題中取得了空前的成功，其中包括MNIST、CIFAR和ImageNet大規模視覺識別挑戰問題。CNN採用卷積與池化操作，可以自動學習圖像中包含的複雜特徵，在視覺對象識別任務中表現出很好的性能。基於CNN這些研究成果，國內外開始研究將CNN等深度網路應用到視頻和行為分類任務中。

與圖像識別相比，視頻分類任務中視頻比靜態圖像可以提供更多的信息，包括隨時間演化的複雜運動信息等。視頻（即使是短視頻）中包含成百上千幀圖像，但並不是所有圖像都有用，處理這些幀圖像需要大量的計算。最簡單的方法是將這些視頻幀視為一張張靜態圖像，應用CNN識別每一幀，然後對預測結果進行平均處理來作為該視頻的最終結果。然而，這個方法使用了不完整的視頻信息，因此使得分類器可能容易發生混亂。

（1） 監督學習方法

i. 基於圖像的視頻分類：將視頻片段視為視頻幀的集合，每個視頻幀的特徵通過ImageNet數據集上預先訓練的最高水平的深度模型（如AlexNet，VGGNet，GoogLeNet，ResNet）進行獲取。最終，幀層特徵匯聚為視頻層特徵，作為標準分類器（如SVM）識別的輸入。

ii. 端到端的CNN網路：關注於利用CNN模型學習視頻隱含的時空模式，如3D CNN，Two-stream CNN，TSN模型等。

iii. 雙流（Two-stream）法中的時間CNN只能獲取很短時間窗口內的運動信息，難以處理長時間多種行為組成的複雜事件和行為。因此，引入RNN來建模長期時間動態過程，常用的模型有LSTM，GRU-RNN等。LSTM避免了梯度消失的問題，在許多圖像和視頻摘要、語音分析任務中非常有效。

iv. 視頻中包含了很多幀，處理所有的視頻幀計算代價很大，也會降低識別那些與類別相關的視頻幀的性能。因此，引入視覺注意力機制來識別那些與目標語義直接相關的最有判別力的時空特徵

（2） 非監督學習方法

採用非監督學習的方法，整合空間和時間上下文信息，是發現和描述視頻結構的一種很有前途的方法。

三、 視頻分類數據集

圖像數據集基準對圖像分類問題解決起到了非常重要的推動作用。從最早的小規模的帶標註的數據集Caltech101/256, MSRC, PASCAL，當更大的數據集如ImageNet和SUN發布後，圖像理解的視覺演算法研究進展很快。特別是ImageNet及其大規模視覺識別挑戰賽（ImageNet

Large Scale Visual Recognition Challenge, ILSVRC）極大地促進了深度特徵學習技術的發展，陸續出現了AlexNet、VGGNet、Inception、ResNet等網路架構，最終使得識別錯誤率低於人眼，說明CNN已經基本解決了ImageNet數據集上的圖片分類問題。

近年來為推動視頻分類的研究，也陸續發布了相關的視頻數據集。小型標註良好的數據集如KTH，Hollywood2，Weizmann；中型的數據集如UCF101，Thumos』14和HMDB51，這些數據集超過了50類行為類別；大型數據集如Sports-1M，YFCC-100M，FCVID數據集，ActivityNet數據集，YouTube-8M等。

其中比較有代表性的有YouTube-8M（2016）、ActivityNet（2015）、Sports-1M（2014）、UCF-101（2012）、HMDB51（2011）等。

YouTube-8M的提出標誌著視頻分類朝大規模通用多標籤視頻分類的方向發展。

當前的研究結果表明：

HMDB51數據集上，DOVF+MIFS方法最高水平的準確度為75%，在該數據集上還有較大的性能提升空間[3];
UCF101數據集上，TLE方法達到最高水平的準確率為95.6%[4]。

四、 當前主要研究方向

· 大規模多標籤視頻分類與標註（large-scale multi-label video classification / annotation）

· 視頻的時間/序列模型和池化方法（temporal /sequence modeling and pooling approaches for video）

· 時間注意力模型機制（temporal attention modeling mechanisms）

· 視頻描述學習，如分類性能vs.視頻描述符大小（video representation learning e.g., classification performance vs. video descriptor size）

· 多模型（聲音-視覺）建模和融合方法（multi-modal (audio-visual) modeling and fusion approaches）

· 從雜訊/不完整的人工標註標籤中學習（learning from noisy / incomplete ground-truth labels）

· 多重實例學習multiple-instance learning (training frame-/segment-level models from video labels)

· 遷移學習，領域適應和泛化（transfer learning, domain adaptation, generalization）

· 衡量：性能 vs.訓練數據和計算量（scale: performance vs. training data & compute quantity）

五、 相關會議和期刊

1. ICCV：International Conference on Computer Vision

2. IJCAI：International Joint Conference on Artificial Intelligence

3. AAAI：American Association for Artificial Intelligence

4. CVPR：Conference on Computer Vision and Pattern Recognition

5. ICML：International Conference on Machine Learning

6. ICLR：International Conference on Learning Representations

7. IJCV：International Journal of Computer Vision

8. ECCV：European Conference on Computer Vision

六、小結

當前視頻分類的主流方法主要是深度學習方法。這些方法主要源於圖像和語音領域中流行的深度模型。視頻數據的複雜特性，包括大量的空間、時間和音頻信息，使得現有深度模型不足以處理視頻相關任務。這使得強烈需要新的模型來有效獲取視頻的空間和音頻信息，最重要的是建模空間的動態過程。除此之外，訓練CNN/LSTM模型需要大量帶標籤的數據，這些數據通常昂貴，並且獲取耗時，因此，充分利用未標註的數據和豐富的上下文信息建立更好的視頻描述模型是一個很有希望的研究方向。

七、 附錄-術語表

Video classification：視頻分類

Video captioning：視頻描述生成

Clip：片段

Volume：域

Frame：幀

spatial-temporal：時空

sequence：序列

appearance：表觀

video representations：視頻描述

feature representation：特徵描述

descriptor：描述符

frame-level：幀層

video-level：視頻層

segmentation:分割

hand-crafted feature：人工設計的特徵

state-of-the-art：最高水平

off-the-shelf：現有

Untrimmed Video Classification：videos can

contain more than one activity 暫未找到合適的中譯文

Trimmed Activity Classification：a trimmed video

clip that contains a single activity instance暫未找到合適的中譯文

圖像表示：Image Representation

運動檢測與跟蹤：Motion Detection and Tracking

邊緣：edge

圖像分割：Image segmentation

紋理特徵提取：feature extraction

局部特徵：local features

人工標註：Ground-truth

自動標註：Automatic Annotation

運動檢測與跟蹤：Motion Detection and Tracking

[1] Wu Z, Yao T, Fu Y, et al. Deep Learning for Video Classification and Captioning. arXiv:1609.06782, 2016.

[2] Wang H, Schmid C. Action recognition with improved trajectories[C]. ICCV, 2013,

[3] Lan Z, Zhu Y, Hauptmann A G. Deep Local Video Feature for Action Recognition. arXiv:1701.07368, 2017.

[4] Diba A, Sharma V, Gool L V. Deep Temporal Linear Encoding Networks. arXiv:1611.06678, 2016.