[論文翻譯]Learnable pooling——視頻分類

[論文翻譯]Learnable pooling——視頻分類

來自專欄計算機視覺·周刊3 人贊了文章

Learnable pooling with Context Gating for video classification

arXiv:1706.06905v2 [cs.CV] 5 Mar 2018

註:新手渣翻,僅供參考!

論文相關信息

author: Antoine Miech, Ivan Laptev and Josef

github.com/antoine77340

kaggle.com/c/youtube8m

摘要

當前用於視頻分析的方法通常使用預先訓練的卷積神經網路(CNN)來提取幀級別的特徵。然後,這些特徵隨時間聚合,例如,通過簡單的時間平均或更複雜的循環神經網路,例如長短期記憶網路(LSTM)或GRU神經網路。

在本文中,我們修改了現有的視頻表示方法,並研究了時間聚合的替代方法。我們首先探索基於聚類的聚合層,並提出一種聚合音頻和視覺特徵的雙流架構。然後,我們引入了一個可學習的非線性單元,起名為Context Gating,旨在模擬網路激活之間的相互依賴性。我們的實驗結果顯示了對視頻分類任務的優勢,特別是,我們在大規模數據集(Youtube-8M v2)上評估我們的方法,並且優於Youtube 8M大規模視頻理解挑戰賽 中的所有其他方法。

關鍵字:機器學習,計算機視覺,神經網路,視頻分析

1.簡介

理解和識別視頻內容是眾多應用的主要挑戰,包括監控,個人協助,智能家居,自動駕駛,素材搜索和體育視頻分析。在本文中,我們解決了網上用戶上傳視頻的多標籤視頻分類問題。對這些數據進行分析是有一定的難度。互聯網視頻在內容和質量方面具有很大差異(見圖1)。此外,用戶生成的標籤通常不完整,含糊不清並且可能包含錯誤。

圖1:來自Youtube-8M V2數據集的兩個示例視頻以及標定標籤和預測標籤,其中綠色的預測是來自標定的標籤。

用於視頻分析的當前方法通常通過從連續幀提取的特徵來表示視頻,隨後是隨時間的特徵聚合。用於特徵提取的示例方法包括在靜態圖像上使用預訓練的深度卷積神經網路(CNN)[1],[2],[3],[4]。運動和外觀的表示可以從預先訓練過的視頻幀和短視頻剪輯的CNN中獲得[5],[6],以及手工製作的視頻特徵[7],[8],[9]。其他更高級的模型採用分層時空卷積架構[5],[10],[11],[12],[13],[14]來同時提取和聚集視頻特徵。

時間特徵聚合的常用方法包括簡單平均或最大池化以及更複雜的池化技術,如VLAD [15]或更新的循環模型(LSTM [16]和GRU [17])。然而,這些技術可能不是最理想的。 實際上,對於長序列,諸如平均或最大池化的簡單技術可能不夠準確。循環模型經常用於可變長度序列的時間聚合[18],[19]並且通常優於更簡單的聚合方法,但是,它們的訓練仍然很麻煩。正如我們在第5節中所示,訓練循環模型需要相對大量的數據。 此外,在GPU訓練期間,循環模型對於處理長視頻序列可能不是最優的。目前還不清楚順序聚合的模型是否適合視頻表示。實際上,我們使用時間順序和隨機排序的視頻幀訓練循環模型的實驗顯示了類似的實驗結果。

另一個研究方向是利用基於聚類方法的傳統無序聚合技術,例如Bag-of-visual-words (BOW詞袋模型)[20],[21],Vector of Locally aggregated Descriptors (VLAD)[15]或Fisher Vectors(FV)[22]。最近已經表明,將VLAD集成為神經網路中的可微分模塊可以顯著改善位置檢索任務的聚合表示[23]。這促使我們集成和增強這種基於聚類的聚合技術,為了更好進行視頻表示和分類。

在這篇文章中,我們做出以下貢獻

(i)我們引入了一種新的最先進的架構,聚合視頻和音頻特徵,用於視頻分類,

(ii)我們引入了Context Gating層,這是一個有效的非線性單元,用於形成網路激活層之間的相互依賴關係

(iii)我們通過實驗證明了基於聚類的聚合技術優於LSTM和GRU方法的視頻分類任務。

結論

我們在包含大約8M視頻和4716個唯一標籤的大型多模態Youtube-8M V2數據集上評估我們的方法。我們使用隨數據集[19]提供的預先提取的視覺和音頻特徵,並演示使用Context Gating以及可學習池化的組合,所獲得的改進。在Youtube-8M大規模視頻理解挑戰中,我們的方法在超過650個團隊中獲得了最佳的表現。與常見的循環模型相比,我們的模型訓練更快,並且需要更少的訓練數據。圖1(見上方)說明了我們方法的一些定性結果。

2.相關工作

這些工作與先前方法有關,包括視頻特徵提取,特徵聚合和門。

  • 2.1特徵提取

成功的視頻表示[7],[8],[9]是基於圖像的局部直方圖和沿密集軌跡提取的運動梯度方向[9],[24]。最近的方法使用空間[6],[25],[26],[27]或時空[5], [10], [11], [12], [13], [14] 卷積提取從單個幀或幀塊計算的深度卷積神經網路激活。卷積神經網路也可以分別應用於外觀信道和預先計算的運動場信道,從而產生所謂的雙流表示[6],[11],[14],[26],[28]。由於我們的作品受到Youtube-8M大規模視頻理解挑戰賽的推動[19],我們假設在本文的剩餘部分特徵是已經被提供的(更多細節在第5節中)。主要是關注給定特徵的時間聚合。

  • 2.2特徵聚合

視頻特徵通常從單幀或短視頻剪輯中提取。剩下的問題是:如何在整個視頻長視頻中聚合視頻特徵?實現這一目標的一種方法是採用循環神經網路,例如長短期記憶(LSTM)[16]或GRU[17],在提取的幀級的特徵之上捕捉時間視頻結構為單一表示[18],[29],[30],[31],[32]。分層時空卷積體系結構[5],[10],[11],[12],[13],[14]也可以被視為同時提取和聚合時間特徵的一種方法。其他方法僅捕獲視頻中特徵的分布,而不是明確地對其時間順序建模。這種方法最簡單的形式是視頻特徵的平均池化或最大池化[33]。其他常用的方法包括BOW[20],[21],VLAD[15]或FV[22]。這些技術在視頻中的應用包括[7],[8],[9],[34],[35]。通常,這些方法[31],[36]是基於codebook演算法的非監督學習。然而,codebook也可以以監督的方式學習[34],[37],[38],或者整個編碼模塊可以包含在卷積神經網路架構中,並以端到端的方式進行訓練[23]。這種類型的端到端可訓練無序聚合最近已應用於[26]中的視頻幀。在這裡,我們通過聚合視覺和音頻輸入來擴展這項工作,並研究多個無序聚合。

  • 2.3門

門控機制允許給定輸入特徵X和門向量之間的相乘,其值在0和1之間的。它們通常用於循環神經網路模型,如LSTM [16]和GRU [17],但到目前為止尚未與其他非時間聚合策略結合使用,如FV,VLAD或BoW。我們的工作旨在填補這一空白,並設計一種視頻分類架構,將非時間聚合與門控機制相結合。這種選擇的動機之一是最近的門控線性單元(GLU)[39],它已經證明了在自然語言處理任務上有顯著效果。

我們在[40]中最初報道的門控機制也與Squeeze-and-Excitation結構有關[41],它提出了用於圖像分類任務的門控塊,並且在ILSVRC 2017圖像分類挑戰中表現出優異的性能。

3.網路架構

我們的視頻分類架構如圖2所示,包含三個主要模塊。首先,從視頻和音頻信號中提取輸入特徵。接下來,池化模塊將提取的特徵聚合成整個視頻的壓縮表示(例如,1024維)。此池模塊具有雙流架構,分別處理視覺和音頻功能。然後,Context Gating層(第3.1節)增強了聚合表示。最後,分類模塊將得到的表示作為輸入,並輸出預定義標籤集的分數。分類模塊採用[19]中描述的Mixture-of-Experts [42]分類器,並接著另一個Context Gating層。

圖2:視頻分類網路架構

  • 3.1 Context Gating

Context Gating(以下簡稱CG)層的表達式為:

Y = sigma(WX+b)circ X (1)

其中, Xin R^n 是輸入特徵向量, sigma 是逐個元素的sigmoid激活函數, circ 是逐個元素相乘。 Win R^{n	imes n}bin R^n 是可訓練的參數。向量 sigma(WX+b) in [0,1]代表應用於輸入特徵X的個體維度的一組學習門。

這種轉變背後的動機是雙重的。首先,我們希望在輸入表示的激活之間引入非線性相互作用。其次,我們希望通過自動門控機制重新校準的輸入的不同激活值。CG層的靈感來源於最近的語言模型Gated Linear Unit (GLU)[39],它考慮了一個更加複雜的類: sigma(W_1 X + b_1)circ (W_2 X + b_2) ,其中,包含兩組可學習的參數W1,b1和W2,b2。對比GLU[39],CG層減少了可學習參數數量,並且直接re-weight輸入向量X,因此很適合X有特殊意義的情形,比如一類標籤的分數。如圖2所示,我們使用CG層在特徵池化和分類的模塊後。首先,我們在分類模塊之前使用CG來轉化特徵向量,然後,我們用CG層在分類層後,用來捕獲輸出標籤空間的先前結構。細節會在後面詳述。

  • 3.2 殘差連接

在[1]中介紹了殘差連接。 它們展示了更快更好的深度卷積神經網路訓練,以及更好的各種任務性能。 殘差連接可以表示為:

Y = f(WX+b)+X (2)

其中,X是輸入特徵,W和b是線性映射(或卷積)的可學習參數, f 是非線性的。殘差連接的一個優點是在訓練期間梯度直接傳播到X的可能性,避免了消失梯度問題。為了表明這一點,殘差連接的梯度可以寫成:


abla Y= 
abla (f(WX+b))+
abla X (3)

可以注意到梯度 
abla Y 是之前層 
abla (f(WX+b))
abla X 的梯度和。梯度消失的問題可以由 
abla X 項解決,這使得梯度可以直接從Y到X反向傳播。使用Context Gating觀察到類似的效果,它具有以下梯度方程:


abla Y=
abla (sigma(WX+b))circ X + sigma(WX+b)circ 
abla X (4)

在這種情況下, 
abla X 項通過 sigma(WX+b) 激活加權。因此,對於 sigma(WX+b) 接近1的維度,梯度直接從Y傳播到X。相反,對於接近0的值,梯度傳播消失。此屬性很有價值,因為它允許堆疊多個非線性層並避免消失梯度問題。

  • 3.3 CG的動機

我們的目標是預測視頻的人工生成標籤。 這樣的標籤通常僅表示與視頻的內容最相關的對象和事件的子集。 為了模仿這種行為並抑制不相關的標籤,我們引入了Context Gating模塊來重塑特徵和輸出標籤。

捕獲特徵之間的依賴關係。CG可以幫助創建視覺激活之間的依賴關係。 以滑雪視頻為例,展示滑雪人,雪和樹木。 雖然樹木特徵的網路激活可能很高,但在滑雪的背景下樹木可能不那麼重要,人們更傾向於評論雪和滑雪而不是森林。CG會降低樹的視覺激活,當與Ski和Snow的視覺激活共同發生時,如圖3所示。

圖3:CG在滑雪場面下降低樹的視覺激活

捕獲輸出空間的先前結構。當應用於網路的分類層時,CG還可以在輸出類別得分之間創建依賴關係。 這使得可以在輸出概率空間上學習先驗結構,這可以用於對標籤注釋中的偏差進行建模。

4.可學習池化方法

在我們上面描述的視頻分類架構中,我們研究了幾種類型的可學習池模型,我們將在下面介紹它們。先前成功的方法[18],[19]採用諸如LSTM或GRU的循環神經網路來編碼順序特徵。我們選擇專註於非循環聚合技術。這是由幾個因素促成的:首先,循環模型對長時間序列的計算要求很高,因為不可能並行化順序計算。此外,尚不清楚是否需要將聚合問題視為序列建模問題。正如我們在實驗中所展示的那樣,如果我們以隨機順序對幀進行混洗,則幾乎沒有性能變化,因為幾乎所有相關信號都依賴於靜態視覺線索。我們實際需要做的就是找到一種方法來有效地記住所有相關的視覺線索。我們將首先回顧NetVLAD [23]聚合模塊,然後解釋我們如何利用相同的想法來模仿Fisher Vector和Bag-of-visual-Words聚合方案。

  • 4.1 NetVLAD聚合

已經提出NetVLAD [23]架構用於位置識別以再現VLAD編碼[15],但是以可微分的方式,其中調整聚類通過反向傳播而不是使用k均值聚類。然後將其擴展到視頻中的動作識別[26]。NetVLAD背後的主要思想是將 x_i hard assignment寫入聚類k作為soft assignment:

a_k (x_i)=frac{e^{w_k	op x_i + b_k}}{sum_{j=1}^{K}{e^{w_j 	op x_i + b_j}}} (5)

w和b是可學習的參數。換言之,soft assignment中, a_k (x_i) 到聚類k的尺度(範圍0-1)取決於 x_i 與聚類k的接近程度。而在hard assignment中,如果與 x_i最近的聚類是k,那麼 a_k (x_i) 會等於1,相反是0。文章後面部分, a_k(x_i) 將定義為soft assignment。如果我們寫第j個可學習聚類 c_j,jin [1,K] ,那麼NetVLAD可以寫成:

VLAD(j,k) =sum_{i=1}^{N}{a_k(x_i)(x_i(j)-c_k(j))} (6)

計算了來自聚類k中的殘差 x_i - c_k 的加權和。

  • 4.2 超越NetVLAD聚合

通過利用相同的聚類soft assignment思想,我們可以模仿傳統的Bag-of-visual words [20],[21]和Fisher Vectors [22]進行類似的操作。

對於BOW,我們使用soft assignment到視覺詞群[23],[43],以獲得一個可微分的表示。可微分的BOW表示可以寫成:

BOW(k) = sum_{i=1}^{N}{a_k (x_i)} (7)

請注意,如果我們用其hard assignment等效替換soft assignment值,則BOW的確切公式要重新生成。該公式與神經BoF公式[44]密切相關,但計算soft assignment的方式不同。詳細地,[44]對描述符和聚類中心之間的計算的L2距離執行softmax操作,而我們使用由公式(5)給出的soft assignment,其中參數w是可學習的,沒有明確關係到計算到聚類中心的L2距離。它還涉及[45],它使用循環神經網路來執行聚合。BOW聚合優於NetVLAD的優點在於,在給定固定數量的聚類的情況下,它將特徵描述符列表聚合成更緊湊的表示。缺點是需要明顯更多的聚類來獲得聚合描述符的豐富表示。

受Fisher Vector [22]編碼的啟發,我們還嘗試修改NetVLAD架構,以便學習聚類內的二階特徵統計。我們將這種表示表示為NetFV,因為它旨在模仿標準的FV編碼[22]。重用先前建立的soft assignment表示法,我們可以將NetFV表示寫為:

FV1(j,k)=sum_{i=1}^{N}{a_k(x_i)(frac{x_i(j)-c_k(j)}{sigma_k(j)})} (8)

FV2(j,k) = sum_{i=1}^{N}{a_k(x_i)((frac{x_i(j)-c_k(j)}{sigma_k(j)})}^2 -1) (9)

其中,FV1獲取一階統計量,FV2獲取二階統計量; c_k,kin[1,K] 是可學習聚類; sigma_k,kin[1,K] 是聚類的對角協方差。為了定義 sigma_k,kin[1,K] 為正,我們首先用單位均值和小方差的高斯雜訊隨機初始化它們的值,然後在訓練期間取值的平方,使它們保持正值。以與NetVLAD相同的方式, c_ksigma_k 是獨立從soft assignment a_k 的參數中學習的。這個公式與[38],[46]不同,因為我們並沒有完全複製原始的FV。 事實上參數 a_k(x_i) , c_ksigma_k 彼此分離。與[38],[46]相反,這些參數與高斯混合模型無關,而是以不同的方式進行訓練。

最後,我們還研究了原始NetVLAD架構的簡化,該架構對實際描述符做了平均而不是殘差,如[47]首次提出的那樣。我們將此變體為NetRVLAD(無殘差VLAD)。這種簡化需要較少的參數和計算操作(在兩種情況下都約為一半)。NetRVLAD描述符可以寫為:

RVLAD(j,k) = sum_{i=1}^{N}{a_k(x_i)x_i(j)} (10)

有關這些不同聚合模型的Tensorflow [48]實現,請訪問:https://github.com/antoine77340

5.實驗

本節評估視頻聚合的替代架構,並在Youtube-8M [19]數據集上顯示結果。

  • 5.1 Youtube-8M數據集

Youtube-8M數據集[19]由大約800萬個視頻組成。由於數據集的大規模,視覺和音頻特徵是預先提取的並隨數據集一起提供。每個視頻都標有一個或多個標籤,指的是視頻的主要主題。圖5示出了帶有注釋的視頻的示例。原始數據集分為訓練,驗證和測試子集,分別為70%,20%和10%的視頻。在這項工作中,我們保留了大約20K視頻用於驗證,原始訓練集和剩餘的驗證集用於訓練。這種選擇是為了獲得更大的訓練集並減少驗證時間。我們注意到,我們的驗證集上的性能與Kaggle平台上評估的測試性能相當(高出0.2%-0.3%)。由於我們無法訪問測試標籤,因此我們這一節報告的大多數結果來自驗證集得出的結論。我們使用Youtube-8M Kaggle競賽中使用的前20的Global Average Precision(GAP)指標進行評估(有關指標的更多詳細信息,請訪問:https://www.kaggle.com/c/youtube8m#evaluation 。

  • 5.2 實現細節

在Youtube 8M競賽數據集[19]中,視頻和音頻的特徵採集自每一秒。在Youtube 8M競賽數據集[19]中,為輸入視頻的每一秒提供視頻和音頻功能。視覺特徵包括來自在Imagenet上訓練的公共可用的Inception網路的最後一個完全連接層的ReLU激活。音頻特徵是從訓練用於音頻分類的CNN架構中提取的[49]。然後應用PCA和白化將視覺特徵的尺寸減小到1024,將音頻特徵的尺寸減小到128。 有關特徵提取的更多詳細信息,請參見[19]。

我們所有的模型都使用Adam演算法[50]進行訓練,並使用來自大約100個視頻的數據進行小批量訓練。學習速率最初設置為0.0002,然後以每4M樣本0.8的因子呈指數下降。我們在每個非線性層之前使用梯度裁剪和批量歸一化[51]。

對於基於聚類的池化模型,即BoW,NetVLAD,NetRVLAD和NetFV,我們隨機抽取N個特徵,並從每個視頻中替換。在訓練和測試時,所有視頻的N都是固定的。與原始版本的NetVLAD [23]相反,我們沒有使用k-means初始化預先訓練碼本,因為我們沒有注意到這樣做有任何改進。為了訓練循環模型,即LSTM和GRU,我們按時間順序處理特徵。我們還對LSTM和GRU的幀的隨機採樣進行了實驗,其結果表現出驚人的類似的效果。

我們所有的模型都經過交叉熵損失訓練。我們的實現使用TensorFlow框架[48]。每次訓練都在一個NVIDIA TITAN X(12Gb)GPU上進行。

  • 5.3 模型評估

表1:各方案性能對比

我們評估表1中各個模型的性能。為了實現公平比較,所有池化過的表示都具有1024維度的相同大小。基於聚類的池化方法的「門控」版本包括CG層在第3.1節中描述。在我們的實驗中,將CG層與GRU和LSTM一起使用會降低性能。

從表1中我們可以觀察到,與平均池化baseline相比,所有學習的聚合方案提供的性能顯著提高。有趣的是,基於非時間特性的特徵池化的NetVLAD和NetFV表示優於時間模型(GRU和LSTM)。最後,我們可以注意到Context Gating為所有基於聚類的池化方法提供的性能的持續增長。

  • 5.4 Context Gating對比

表2:CG層存在對比研究。表中MoE後沒GLU層因為不會輸出概率

表2展示了一項CG消融研究,該研究評估了CG對128個聚類的NetVLAD聚合的影響。在特徵池化和分類模塊中添加CG層可顯著提高GAP。我們觀察到具有256個聚類的NetVLAD的結果也類似。我們還嘗試在池化後用GLU [39]替換CG。為了使對比公平,我們在MoE之後也添加了一個CG層。儘管不如GLU複雜,我們觀察到CG也表現得更好。我們注意到CG提供的0.8%的提升,與表1中非門控模型(NetVLAD)的提升是一樣的。

  • 5.5 視頻音頻融合

表3:評估音頻 - 視頻融合方法( Concat)。

除了第3節中描述的音頻和視頻流的後期融合(Late Concat)之外,我們還嘗試將原始音頻和視頻功能簡單地連接到單個向量中,以一種「單一流的方式」接在池化和分類模塊後(Early Concat)。表3中的結果說明了兩種融合方案對不同池化方法的影響。後期融合的雙流視頻-音頻架構提高了基於聚類的池化方法(NetVLAD和NetFV)的性能。另一方面,早期融合方案似乎對GRU和LSTM聚合更有效。我們還嘗試用其外部產品替換音頻 - 視頻特徵的串聯融合。我們發現這與之前的串聯相比效果不佳,主要是由於結果輸出具有高維度。為了緩解這個問題,我們嘗試使用多模態緊湊雙線性池化方法[52]來減少輸出維數,但發現得到的模型不擬合數據。

  • 5.6 一般化

圖4:不同模型在不同數據集下的表現

Youtube-8M數據集的一個有價值的特徵是大規模的注釋數據(近千萬個視頻)。更常見的帶注釋的視頻數據集通常具有幾個較低的數量級,範圍從10k到100k樣本。通過手邊的大規模數據集,我們評估了訓練數據量對不同模型性能的影響。為此,我們嘗試了不同模型的訓練:門控NetVLAD,NetVLAD,LSTM和平均池化模型,他們都基於Youtube 8M數據集的多個隨機採樣子集。我們已經嘗試了70K,150K,380K和1150K樣品的子集。對於每個子集大小,我們使用三組非重疊訓練子集訓練模型並測量性能的變化。圖4顯示了改變訓練集大小時每個模型的GAP性能。誤差帶表示在三個不同訓練子集上訓練模型時觀察到的差異。我們觀察到不同模型和訓練集規模的GAP差異較小並且一致。儘管LSTM模型與NetVLAD(約160M)和Gated NetVLAD(約180M)相比具有更少的參數(大約40M),但是當從較少數量的樣本訓練時,NetVLAD和Gated NetVLAD模型表現出比LSTM更好的泛化。當具有足夠數量的樣本(至少100k樣本)時,CG模塊仍然有助於更好地泛化基本的基於NetVLAD的架構。我們沒有顯示數據集較小的結果,因為所有模型的結果都大幅下降。這主要是因為該任務是一個多標籤預測問題,具有大約5000個標籤。由於這些標籤具有長尾分布,因此將數據集大小減小到少於30k樣本將使許多標籤甚至沒有訓練示例。因此,性能下降無法確定是由於聚合技術還是缺乏針對稀有類別的訓練樣本。

  • 5.7 模型融合

我們探索不同模型的互補性,並通過整合來考慮它們的組合。我們整體由幾個經過獨立訓練的模型組成。集合平均化了所選模型的標籤預測分數。我們觀察到在組合不同模型時增加集合的效果。為了選擇模型,我們遵循一種簡單的貪心方法:我們從性能最佳的模型開始,通過最大化驗證集上的GAP來選擇下一個模型。我們在Youtube 8M挑戰賽中使用的最終模型包含25個子模型。其實七個模型集合足以在84.688人的比賽中上獲得GAP的第一名。這七個模型對應於:門控NetVLAD(256個集群),門控NetFV(128個集群),門控BoW(4096個集群),BoW(8000個集群),門控NetRVLAD(256個集群),GRU(2層,隱藏層大小:1200)和LSTM(2層,隱藏層大小:1024)。我們可以在以下網址獲得重現此集合的代碼:github.com/antoine77340 。為了獲得最終25個集合的更多樣化模型,我們還添加了所有非門控模型,改變了集群的數量或改變了池化表示的大小。

表4:

表4顯示了來自Youtube-8M kaggle挑戰賽的655支隊伍中其他排名靠前的隊伍的模型融合規模。除了展示比賽中的最佳成績外,我們還設計了一套較小的模型,比其他模型更有效率。完整排名可在以下網址找到:Google Cloud & YouTube-8M Video Understanding Challenge 。

6.總結

我們已經解決了大規模視頻標記的問題,並探索了用於音頻和視覺特徵的時間聚合的經典池化方法(BoW,VLAD,FV)的可訓練的變體模型。在這種情況下,我們觀察到NetVLAD,NetFV和BoW的表現優於更常見的時態模型,如LSTM和GRU。我們還引入了Context Gating機制,並展示了其對BoW,VLAD和FV的可訓練版本的好處。我們最終融合的模型已經被證明可以進一步提高性能,使我們能夠贏得Youtube 8M大規模視頻識別挑戰。我們的TensorFlow工具箱LOUPE可從[57]下載,包括Context Gating的實現以及本工作中使用的可學習池化模塊。

圖5:我們最好的單一模型(Gated NetVLAD)的定性結果。 其中Youtube 8M數據集中的標定標籤(綠色)和Gated NetVLAD模型的top6預測。

參考文獻

[1] K. He, X. Zhang, S. Ren, and J. Sun, 「Deep Residual Learning for Image Recognition,」 in CVPR, 2016.

[2] A. Krizhevsky, I. Sutskever, and G. E. Hinton, 「Imagenet classification with deep convolutional neural networks,」 in NIPS, 2012.

[3] K. Simonyan and A. Zisserman, 「Very deep convolutional networks for large-scale image recognition,」 in ICLR, 2015.

[4] C. Szegedy, S. Ioffe, and V. Vanhoucke, 「Inception-v4, inceptionresnet and the impact of residual connections on learning,」 arXiv:1602.07261v1, 2016.

[5] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri, 「Learning spatiotemporal features with 3d convolutional networks,」 in ICCV, 2015.

[6] C. Feichtenhofer, A. Pinz, and A. Zisserman, 「Convolutional two-stream network fusion for video action recognition,」 in CVPR, 2016.

[7] I. Laptev, M. Marszalek, C. Schmid, and B. Rozenfeld, 「Learning realistic human actions from movies,」 in CVPR, 2008.

[8] C. Schuldt, I. Laptev, and B. Caputo, 「Recognizing human actions: a ¨ local svm approach,」 in ICPR, 2004.

[9] H. Wang and C. Schmid, 「Action Recognition with Improved Trajectories,」 in ICCV, 2013.

[10] M. Baccouche, F. Mamalet, C. Wolf, C. Garcia, and A. Baskurt, 「Sequential deep learning for human action recognition,」 Human Behavior Understanding, pp. 29–39, 2011.

[11] J. Carreira and A. Zisserman, 「Quo vadis, action recognition? a new model and the kinetics dataset,」 in CVPR, 2017.

[12] C. Feichtenhofer, A. Pinz, and R. P. Wildes, 「Spatiotemporal multiplier networks for video action recognition,」 in CVPR, 2017.

[13] S. Ji, W. Xu, M. Yang, and K. Yu, 「3D Convolutional Neural Networks for Human Action Recognition,」 in PAMI, 2013.

[14] G. Varol, I. Laptev, and C. Schmid, 「Long-term Temporal Convolutions for Action Recognition,」 PAMI, 2017.

[15] H. Jegou, M. Douze, C. Schmid, and P. Perez, 「Aggregating local descriptors into a compact image representation,」 in CVPR, 2010.

[16] S. Hochreiter and J. Schmidhuber, 「Long short-term memory.」 in Neural Computing, 1997.

[17] K. Cho, B. van Merrienboer, D. Bahdanau, and Y. Bengio, 「On the Properties of Neural Machine Translation: Encoder-Decoder Approaches,」

arXiv preprint arXiv:1409.1259, 2014.

[18] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell, 「Long-term recurrent convolutional networks for visual recognition and description,」 arXiv preprint arXiv:1411.4389, 2014.

[19] S. Abu-El-Haija, N. Kothari, J. Lee, P. Natsev, G. Toderici, B. Varadarajan, and S. Vijayanarasimhan, 「Youtube-8m: A large-scale video classification benchmark,」 arXiv preprint arXiv:1609.08675, 2016.

[20] G. Csurka, C. Dance, L. Fan, J. Willamowski, and C. Bray, 「Visual categorization with bags of keypoints,」 in ECCV Workshop, 2004.

[21] J. Sivic and A. Zisserman, 「Video google: A text retrieval approach to object matching in videos,」 in ICCV, 2003.

[22] F. Perronnin and C. Dance, 「Fisher kernels on visual vocabularies for image categorization,」 in CVPR, 2007.

[23] R. Arandjelovic, P. Gronat, A. Torii, T. Pajdla, and J. Sivic, 「NetVLAD: CNN architecture for weakly supervised place recognition,」 in CVPR, 2016.

[24] C. R. de Souza, A. Gaidon, E. Vig, and A. M. Lopez, 「Sympathy for ′ the details: Dense trajectories and hybrid classification architectures for action recognition,」 in ECCV, 2016.

[25] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei, 「Large-scale video classification with convolutional neural networks,」 in CVPR, 2014, pp. 1725–1732.

[26] R. Girdhar, D. Ramanan, A. Gupta, J. Sivic, and B. Russell, 「Actionvlad: Learning spatio-temporal aggregation for action classification,」 in CVPR, 2017.

[27] L. Wang, Y. Qiao, and X. Tang, 「Action recognition with trajectorypooled deep-convolutional descriptors,」 in CVPR, 2015, pp. 4305–4314.

[28] K. Simonyan and A. Zisserman, 「Two-stream convolutional networks for action recognition in videos,」 in ICLR, 2014, pp. 568–576.

[29] F. Basura, E. Gavves, J. M. Oramas, A. Ghodrati, and T. Tuytelaars, 「Modeling video evolution for action recognition,」 in CVPR, 2015.

[30] M. Ibrahim, S. Muralidharan, Z. Deng, A. Vahdat, and M. Greg, 「A Hierarchical Deep Temporal Model for Group Activity Recognition,」 in CVPR, 2016.

[31] G. Lev, G. Sadeh, B. Klein, and L. Wolf, 「Rnn fisher vectors for action recognition and image annotation,」 in ECCV, 2016.

[32] J. Yue-Hei Ng, M. Hausknecht, S. Vijayanarasimhan, O. Vinyals, R. Monga, and G. Toderici, 「Beyond short snippets: Deep networks for video classification,」 in CVPR, 2015.

[33] L. Wang, Y. Xiong, Y. Qiao, D. Lin, X. Tang, and L. Van Gool, 「Temporal segment networks: Towards good practices for deep action recognition,」in ECCV, 2016.

[34] X. Peng, L. Wang, Y. Qiao, and Q. Peng, 「Boosting VLAD with Supervised Dictionary Learning and High-Order Statistics,」 in ECCV, 2014.

[35] Z. Xu, Y. Yang, and A. G. Hauptmann, 「A Discriminative CNN Video Representation for Event Detection,」 in CVPR, 2015.

[36] F. Perronnin and D. Larlus, 「Fisher Vectors Meet Neural Networks: A Hybrid Classification Architecture,」 in CVPR, 2015.

[37] X. Peng, C. Zou, Y. Qiao, and Q. Peng, 「Action recognition with stacked fisher vectors,」 in ECCV, 2014.

[38] V. Sydorov, M. Sakurada, and C. H. Lampert, 「Deep fisher kernels and end to end learning of the Fisher kernel GMM parameters,」 in CVPR, 2014.

[39] Y. N. Dauphin, F. Angela, M. Auli, and D. Grangier, 「Language modeling with gated convolutional networks,」 in arXiv preprint arXiv:1612.08083, 2016.

[40] A. Miech, I. Laptev, and J. Sivic, 「Learnable pooling with context gating for video classification,」 arXiv preprint arXiv:1706.06905, 2017.

[41] J. Hu, L. Shen, and G. Sun, 「Squeeze-and-excitation networks,」 arXiv preprint arXiv:1709.01507, 2017.

[42] M. I. Jordan, 「Hierarchical mixtures of experts and the em algorithm,」 Neural Computation, 1994.

[43] J. Philbin, O. Chum, M. Isard, J. Sivic, and A. Zisserman, 「Lost in quantization: Improving particular object retrieval in large scale image databases,」 in CVPR, 2008.

[44] N. Passalis and A. Tefas, 「Learning neural bag-of-features for large scale image retrieval,」 IEEE Trans. Cybernetics, 2017.

[45] A. Richard and J. Gall, 「A bag-of-words equivalent recurrent neural network for action recognition,」 in BMVC, 2015.

[46] K. Simonyan, A. Vedaldi, and A. Zisserman, 「Deep fisher networks for large-scale image classification,」 in NIPS, 2013.

[47] M. Douze, J. Revaud, C. Schmid, and H. Jegou, 「Stable hyper-pooling ′ and query expansion for event detection,」 in ICCV, 2013.

[48] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mane, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Viegas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu, and X. Zheng, 「Tensorflow: Large-scale machine learning on heterogeneous distributed systems,」 arXiv preprint arXiv:1603.04467, 2015.

[49] S. Hershey, S. Chaudhuri, D. P. W. Ellis, J. F. Gemmeke, A. Jansen, C. Moore, M. Plakal, D. Platt, R. A. Saurous, B. Seybold, M. Slaney, R. Weiss, and K. Wilson, 「CNN architectures for large-scale audio classification,」 in International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017.

[50] D. P. Kingma and J. Ba, 「Adam: A method for stochastic optimization,」 in ICLR, 2015.

[51] S. Ioffe and C. Szegedy, 「Batch normalization: Accelerating deep network training by reducing internal covariate,」 arXiv preprint arXiv:1502.03167, 2015.

[52] Y. Gao, O. Beijbom, N. Zhang, and T. Darrell, 「Compact bilinear pooling,」 in CVPR, 2016.

[53] H.-D. Wang, T. Zhang, and J. Wu, 「The monkeytyping solution to the youtube-8m video understanding challenge,」 arXiv preprint arXiv:1706.05150, 2017.

[54] F. Li, C. Gan, X. Liu, Y. Bian, X. Long, Y. Li, Z. Li, J. Zhou, and S. Wen, 「Temporal modeling approaches for large-scale youtube-8m video understanding,」 arXiv preprint arXiv:1707.04555, 2017.

[55] S. Chen, X. Wang, Y. Tang, X. Chen, Z. Wu, and Y.-G. Jiang, 「Aggregating frame-level features for large-scale video classification,」 arXiv preprint arXiv:1707.00803, 2017.

[56] M. Skalic, M. Pekalski, and X. E. Pan, 「Deep learning methods for efficient large scale video labeling,」 arXiv preprint arXiv:1706.04572, 2017.

[57] A. Miech, 「LOUPE tensorflow toolbox for learnable pooling module,」 github.com/antoine77340, 2017.

單詞小記

extract v.提取

aggregation n.聚合,聚合體

outperform v.優於,勝過

surveillance n.監督,監視

discriminative a.區別的

compact n.壓縮,小粉盒;合同

calibrate v.校正,調整

concatenation n.串聯,連結


推薦閱讀:

遊戲人工智慧 讀書筆記(十)利用AI玩遊戲
AI行業動態|2018第十六周(04.14-04.20)|晶元自救、各種比賽、Apollo 2.5…
【願景學成】24小時科技熱點新聞的匯總(2018/05/18)
AI思維
電話響起,人工?AI?智能語音機器人真的來了

TAG:計算機視覺 | 深度學習DeepLearning | AI技術 |