[論文筆記] Appearance-and-Relation Networks for Video Classification

[論文筆記] Appearance-and-Relation Networks for Video Classification

6 人贊了文章

論文概述

純屬個人理解,梳理自己思路用,僅供參考(可能會有標點錯誤或語句不通順 +_+)

本文針對視頻理解領域中時空特徵表示建模,提出了end-to-end的ARTNet方法,來對appearance和relation兩種特徵建模,同時提高計算效率,optical flow有點慢。構造SMART模塊提取時空特徵,該模塊分為兩個分支,分別對應appearance分支和relation分支,appearance分支對每幀圖片提取特徵(可以看作two-stream中RGB流)。relation分支利用multiplicative interactions對多幀提取特徵。網路整體結構如下圖所示:

Multiplicative interaction

  • 文章對3D卷積得到的feature分析為認為是加性的,不能夠充分對相鄰幀的relation建模(時間特徵),公式如下,所以提出multiplicative interactions的方式來構建temporal特徵,總體上來說本文和C3D、two-stream、rnn等一樣都是對spatialtemporal特徵進行表示。

  • 在對multiplicative interactions的理解上,想起了大學專業課對雜訊分析的知識,分析雜訊時有加性雜訊和乘性雜訊的區別。簡單粗糙的理解,加性就是無關獨立的,乘性就是相關不獨立的,所以可以認為multiplicative interactions的操作和乘性雜訊相似。既然相對幀間x和y兩個圖塊的關係建模,那自然選擇乘性方法,可以聯想下協方差和相關之類的操作都能為relation建模。文中通過如下公式,Zk表示對應的feature map

  • 既然建模了,發現Wijk這個參數太大,太難求,那麼就分解它,可以類比獨立成分分析ICA(ISA是其升級版),也可以類比無向圖模型(玻爾茲曼機等,用因子圖分解),總之就是給定個隱變數f,假設在給定f時,可將Wijk分解為Wif、Wjf、Wkf三個相對對立的矩陣,可以有效降低參數,如下公式所示,f表示權重模板個數。可能有疑問為什麼可拆分,當然這只是一種假設,因為一個數可以進行因子分解的方式有無窮種(個人理解),所以這只是一種,而且其可導,就能用bp訓練,理論會收斂。那麼三個Wif、Wjf、Wkf都可以對應成卷積操作和池化操作(池化也可以看作是卷積)。

  • 考慮到3D卷積等於做加操作,因此對上面公式重新設計了,如下式所示,其中x和y平方項對輸出影響不大。Zk也可以看做是對應的能量譜(叫"能量",但不是真正物理中的"能量",只是強調是一個整體,能量間可以相互轉化的意思,例如物體能量可以分為動能和內能並且可以依賴條件轉換的。大白話說就是能量模型就是天然的relation模型,想想概率圖模型表示相互關係,就用能量模型來求解。其實這個跟蹤裡面流行的相關濾波操作也很像,如KCF、SiamseFc等演算法),總之就是能得到相關性的heatmap。這種sum of square操作,就是物理中常見的能量表示,關於energy model文中主要是類比gabor小波的操作提取時空特徵。

SMART blocks

針對上式,設計了Relation Branch,其利用3D conv提取加性時空特徵,然後設計square layer等於對加操作後做平方操作,得到乘性特徵,cross-channel pooling等於對子空間做sum操作,論文中講子空間設為2(所謂的ISA中的subspace,就是對應channel的feature map,讓其相鄰的feature map做加和),pooling的權重是固定的0.5,和ISA設置差不多(看過ISA有助於理解本文),如下圖所示。

有了relation特徵,還需要對appearance提取特徵,設計了Appearance Branch,和傳統的CNN構建方法相似,然後將兩個branch合併,形成SMART Block。其中Z的通道數是U的一半,而U和F通道數相同。

實驗結果

在UCF101和HMDB51上的結果如下圖所示:

Multiplicative Interactions的理解可以參考hinton的CSC2535 2013 Lecture 8a

推薦閱讀:

TAG:深度學習DeepLearning | 計算機視覺 |