CVPR 2018 | 密歇根大學&谷歌提出TAL-Net：將Faster R-CNN泛化至視頻動作定位中

05-22

來自專欄機器之心

選自arXiv，作者：Yu-Wei Chao等，機器之心編譯。

近日，密歇根大學和谷歌研究院的一項研究提出了時序動作定位網路 TAL-Net，該網路將之前常用於圖像目標檢測的 Faster R-CNN 網路應用於視頻時序動作定位中。在 THUMOS14 檢測基準上，TAL-Net 在動作提名（action proposal）和定位上都取得了目前最好的性能，並且在 ActivityNet 數據集上取得了具有競爭力的性能。目前，該論文已被 CVPR 2018 大會接收。

對人類動作的視覺理解是構建輔助人工智慧系統所需的核心能力。在傳統的研究中，這個問題通常在動作分類的範疇內被研究 [46, 37, 30]，其目標是對一個按照時序剪輯的視頻片段進行強制選擇（forced-choice）分類，分類為若干動作類型中的一類。儘管人們在此領域的研究取得了累累碩果，但這種分類的設定是不現實的，因為現實世界中的視頻通常是沒有剪輯過的，而且我們感興趣的行為通常也內嵌在與其不相關的活動背景中。最近的研究關注點已經逐漸向未剪輯視頻中的時序動作定位轉移 [24, 32, 47]，其任務不僅僅是識別動作的類別，還需要檢測每個動作實例的開始和結束時間。時序動作定位的改進可以推動大量重要課題的發展，從提取體育運動視頻中的精彩片段這樣的即時應用，到更高級的任務，如自動視頻字幕。

時序動作定位，和目標檢測一樣，都屬於視覺檢測問題的範疇。然而，目標檢測旨在生成物體在二維圖像中的空間邊界框，時序動作定位則是要在一維的幀序列中生成時序片段。因此，許多動作定位的方法從目標檢測技術的進展中得到啟發。一個成功的例子是：基於區域的檢測器的使用 [18, 17, 33]。這些方法首先從完整的圖像中生成一個與類別無關的候選區域的集合，然後遍歷這些候選區域，對其進行目標分類。要想檢測動作，我們可以遵循這一範式，先從整個視頻中生成候選片段，然後對每個候選片段進行分類。

在基於區域的檢測器中，Faster R-CNN [33] 由於其在公開的對比基準上極具競爭力的檢測精度，被廣泛應用於目標檢測。Faster R-CNN 的核心思想是利用深度神經網路（DNN）的巨大容量推動候選區域生成和目標檢測這兩個過程。考慮到它在圖像目標檢測方面的成功，將 Faster R-CNN 用到視頻時序動作定位也引起了研究者極大的興趣。然而，這種領域的轉變也帶來了一系列挑戰。本論文作者回顧了 Faster R-CNN 在動作定位領域存在的問題，並重新設計了網路架構，來具體地解決問題。研究者重點關注以下幾個方面：

1. 如何處理動作持續時間的巨大差異？與圖像中物體的大小相比，動作的時間範圍差別很大——從零點幾秒到幾分鐘不等。但是，Faster R-CNN 根據共享的特徵表示對不同規模的候選片段（即 anchor）進行評估，由於特徵的時間範圍（即感受野）和 anchor 跨度在對齊時存在偏差，因此 Faster R-CNN 可能無法捕獲相關的信息。研究者提出使用 multi-tower 網路和擴張時序卷積（dilated temporal convolution）來執行此類對齊工作。

2. 如何利用時序上下文（temporal context）？動作實例之前和之後的時刻包含用於定位和分類的關鍵信息（可能比目標檢測中的空間上下文更重要）。直接簡單地將 Faster R-CNN 應用於時序動作定位可能無法利用時序上下文。研究者提出通過擴展生成候選片段和動作分類的感受野來顯性地對時序上下文進行編碼。

3. 如何最好地融合多流特徵？當前最優的動作分類結果主要是通過融合 RGB 和基於光流的特徵得到的。然而，探索將這樣的特徵融合應用到 Faster R-CNN 上的研究還十分有限。研究者提出了一個晚融合（late fusion，在分類結果上融合）方案，並且通過實驗證明了它相對於常見的早融合（early fusion，在特徵上融合）的優勢。

本研究的貢獻有兩方面：（1）介紹了時序動作定位網路（TAL-Net），一種基於 Faster R-CNN 的視頻動作定位新方法；（2）在 THUMOS』14 檢測基準 [22] 中，本研究提出的模型在動作提名（action proposal）和定位上都取得了目前最好的性能，並且在 ActivityNet 數據集 [5] 上取得了具有競爭力的性能。

圖 1：用於圖像目標檢測的 Faster R-CNN 架構 [33]（左圖）和用於視頻時序動作定位的 Faster R-CNN 架構 [15, 9, 16, 51]（右圖）的對比。時序動作定位可以被看作是目標檢測任務的一維版本。

Faster R-CNN

Faster R-CNN 最初的提出是為了解決目標檢測問題 [33]，在給定一個輸入圖像時，Faster R-CNN 的目標是輸出一組檢測邊界框，每一個邊界框都帶有一個目標類別標籤。整個流程包括兩個階段：生成候選區域和分類。首先，輸入圖像經過二維卷積處理生成一個二維特徵圖。另一個二維卷積（即候選區域網路，Region Proposal Network）用於生成一組稀疏的類別無關的候選區域，這是通過對一組大小不同的、以特徵圖上的每個像素點為中心的錨點框進行分類來實現的。這些候選區域的邊界也通過回歸進行調整。之後，對於每個候選區域，區域內的特徵首先被池化為一個固定大小的特徵圖（即 RoI 池化）。接著，DNN 分類器使用池化之後的特徵計算目標類別的概率，同時為每個目標類別的檢測邊界進行回歸。圖 1（左）展示了完整的流程。該框架通常通過交替進行第一階段和第二階段的訓練來完成訓練工作 [33]。

Faster R-CNN 很自然地被拓展到時序動作定位領域 [15, 9, 51]。回想一下，目標檢測的目的是檢測二維空間區域。而在時序動作定位中，目標則是檢測一維的時序片段，每個片段都以一個開始時間和一個結束時間來表示。時序動作定位因此可以被看作是目標檢測的一維版本。圖 1（右）展示了一個典型的 Faster RCNN 時序動作定位流程。與目標檢測類似，它包含兩個階段。首先，給定一組幀序列，我們通常通過二維或者三維卷積網路提取出一個一維特徵圖。之後，將該特徵圖傳輸給一維卷積網路（指候選片段網路，Segment Proposal Network），在每個時間點上對一組大小不同的 anchor 片段進行分類，並且對邊界進行回歸。這將返回一組稀疏的類別無關的候選片段。接著，對於每個候選片段，我們計算動作類別的概率，並進一步對片段邊界進行回歸（修正）。在這一步，首先使用一維的 RoI 池化層（也稱「SoI 池化」），接著使用 DNN 分類器來實現。

TAL-Net

TAL-Net 遵循了 Faster R-CNN 的檢測模式，並用於時序動作定位（圖 1 右），但有三種新的架構變化。

圖 2：左圖：在時序動作定位中，不同規模的 anchor 共享感受野的局限性。右圖：本研究提出的的候選片段網路的 multi-tower 架構。每個 anchor 大小都有一個具備對齊後的感受野的相關網路。

圖 3：使用擴張時序卷積控制感受野的大小 s。

圖 4：在生成候選片段中納入上下文特徵。

圖 5：不納入上下文特徵的候選片段分類（上圖）[17, 33]，納入上下文特徵後的候選片段分類（下圖）。

圖 6：雙流 Faster RCNN 框架的晚融合方案。

表 5：在 THUMOS14 上的動作定位 mAP（%）。

論文：Rethinking the Faster R-CNN Architecture for Temporal Action Localization

論文鏈接：https://arxiv.org/abs/1804.07667

摘要：我們提出了 TAL-Net，一種用於視頻時序動作定位的改進方法，它受到了 Faster R-CNN 目標檢測框架的啟發。TAL-Net 解決了現有方法存在的三個關鍵問題：（1）我們使用一個可適應動作持續時間劇烈變化的 multi-scale 架構來提高感受野的對齊程度；（2）通過適當擴展感受野，我們更好地利用動作的時序上下文，用於生成候選片段和動作分類；（3）我們顯性地考慮了多流特徵融合，並證明了動作晚融合的重要性。我們在 THUMOS14 檢測基準上取得了動作提名和定位目前最好的性能，並且在 ActivityNet 數據集上取得了很有競爭力的性能。