微軟亞研院與北大共同提出用於物體檢測的可學習區域特徵提取模塊

微軟亞研院與北大共同提出用於物體檢測的可學習區域特徵提取模塊

來自專欄機器之心58 人贊了文章

作者:Jiayuan Gu、Han Hu、Liwei Wang、Yichen Wei、Jifeng Dai。

儘管現代的物體檢測系統中的多數步驟是可學習的,但對於區域特徵的提取,以 RoI Pooling 為例,仍保留不少手工設計的痕迹。近日,來自微軟亞洲研究院和北京大學的研究者們提出了統一現有區域特徵提取方法的視角,並據此設計了一種新的可端到端學習的區域特徵提取方法。新的方法在 COCO 檢測任務上的表現普遍超過 RoI Pooling 及其變種,並且啟發研究者們進一步探索完全可學習的物體檢測系統。該論文已被 ECCV2018 接收。

論文:Learning Region Features for Object Detection

論文地址:arxiv.org/abs/1803.0706

1. 簡介

深度學習時代的一大特點是,許多人工設計的特徵、演算法組件和設計選擇都被數據驅動和可學習的對應物所取代。物體檢測的演變就是一個很好的例子。最近,先進的基於區域的物體檢測方法 [4, 5, 10–12, 14, 19, 27] 由五個步驟組成,分別是圖像特徵生成、候選區域 (proposal) 生成、區域特徵提取、區域識別和重複檢測去除。大多數的步驟,包括圖像特徵提取 [10]、候選區域生成 [6, 27, 30] 和重複檢測去除 [15, 16],在近年來都變得可學習。區域特徵提取很大程度上依舊是人工設計的。目前的常用方法,RoI pooling [10] 和它的變種 [12, 14],將候選區域規則地劃分為若干統計區 (bin),通過啟發式規則 (平均、最大或是雙線性插值 [5, 12] 等) 對統計區中的圖像特徵進行計算,並將各個統計區中的特徵連接在一起作為候選區域的特徵。這個過程符合直觀也很有成效,但更多地像一種經驗法則。沒有清晰直觀的證據表明這就是最優的。

研究者們在本文中研究了完全可學習的區域特徵提取,用於提升物體檢測的整體性能和加深對這一步驟的理解。主要的兩個貢獻如下:首先,他們提出了區域特徵提取的一般化視角。統計區(或者更寬泛地說,子區域)的特徵被表達為全圖上不同位置圖像特徵的加權和。大多數之前的方法被證明是上述表達通過指定權重的特例。基於一般化的視角,第二個貢獻是一個根據關注區域 (RoI) 和圖像特徵來表達權重的可學習模塊。用以加權的權重受兩方面因素影響:關注區域與圖像位置的幾何關係,和圖像特徵本身。受到 [16, 32] 啟發,研究者們用注意力模型 (attention model) 建模第一個因素。同時,受到 [5] 啟發,他們在輸入的圖像特徵上簡單地加上一個卷積層 (convolution layer) 來挖掘第二個因素。所提出的方法去除了之前 RoI pooling 中大部分啟發式的設計,向完全可學習的物體檢測邁進一步。另外,由於樸素的實現計算代價大,研究者們同時提出了一種略微影響精度但高效的稀疏採樣的實現方式。對於所習得的權重的定性和定量的分析表明了從數據而非人工地學習空間分布相關的權重是可行而且有效的。

2. 區域特徵提取的一般化視角

圖像特徵生成這一步驟會輸出空間大小為 H×W (由於神經網路 [27] 的下採樣, 通常是原圖的 16×縮放) 和通道數為 C_f 的特徵圖 x。候選區域生成這一步驟會輸出一定數量的關注區域 (RoI), 每個 RoI 用四個坐標的邊界框 b 表示。通常,區域特徵提取的步驟會從圖像特徵 x 和關注區域 b 生成區域特徵 y(b),如

一般地,y(b) 的維度為 K×C_f。通道數保持和圖像特徵 x 一樣為 C_f,而 K 表示區域中空間子區域 (spatial part) 的個數。上述概念可以被泛化。一個子區域 (part) 未必有規則的形狀。子區域的特徵 y_k (b) 無需從圖像特徵 x 上固定的空間位置得來。甚至,子區域的並集未必是關注區域本身。在一般化的表達式中,子區域的特徵被視為圖像特徵 x 在採樣區域 Ω_b (support region) 上的加權和,如

其中,Ω_b 是採樣區域,它可以是 RoI 本身,也可以包含更多語境 (context) 信息,甚至是全圖。p 枚舉了 Ω_b 內的所有空間位置。w_k (b,p,x) 是對應於位置 p 處的圖像特徵 x(p) 的加權權重。⊙ 表示逐元素乘法 (element-wise multiplication)。這裡的權重假定是歸一化的,即 ∑_(p∈Ω_b) w_k (b,p,x)=1。

研究者證明各種關注區域池化方法 [5, 10, 12, 14] 都是上述觀點的特例。在這些方法中,採樣區域Ω_b 和權重 w_k (?) 的具體形式各異,並且大多是人為定義的。

(1) Regular RoI Pooling

普通的區域池化 (Regular RoI Pooling) [10] 的採樣區域 Ω_b 是 RoI 本身。它被規則地劃分為網格 (比如 7×7)。每個子區域的特徵 y_k (b) 是所有圖像特徵 x(p) 的最大或平均值,其中 p 位於第 k 個統計區內部。

以 averaging pooling 為例,公式 (2) 中的權重是

其中,R_bk 是第 k 個統計區內部所有位置的集合。

Regular RoI Pooling 存在一個缺陷:由於神經網路的空間下採樣,它無法區分非常近的若干關注區域。

(2) Aligned RoI Pooling

對齊的區域池化 (Aligned RoI Pooling) [12] 通過對每個 R_bk 中的採樣點進行雙線性插值,彌補了普通的區域池化中的量化缺陷。簡單地說,假定每個統計區只採樣一個點,比如統計區的中心 (u_bk,v_bk)。設位置 p=(u_p,v_p),公式 (2) 中的權重可以表示為

其中,g(a,b)=max(0,1-|a-b|) 表示一個維度上線性插值的權重。注意公式 (4) 中的權重只有在採樣點 (u_bk,v_bk) 周圍最近的四個坐標才非零。

(3) Deformable RoI pooling

可形變的區域池化 (Deformable RoI pooling) [5] 通過對每一個統計區學習一個偏移 (δu_bk,δv_bk),並作用於統計區中心,泛化了對齊的區域池化。公式 (4) 中的權重可以擴展為

偏移是通過一個作用於圖像特徵 x 的可學習的子模塊產生的。特別地,這個子模塊從對齊的區域池化提取的特徵出發,通過額外的全連接層 (fully connected layer) 回歸偏移。

權重和偏移是依賴於圖像特徵而且可以端到端學習的,物體的形變被更好地根據圖像內容進行建模。另外,由於位移原則上可以任意大,所以採樣區域 Ω_b 不再局限於關注區域內部,而是能夠覆蓋全圖。

3. 數據驅動的區域特徵學習

普通的和對齊的區域池化是完全由人工設計的。可變形的區域池化引入了可學習的模塊,但它的形式仍然限制在規則的網格。在本文中,研究者試圖用最少的人工設計學習公式 (2) 中的權重 w_k (b,p,x)。

直觀地,研究者考慮兩個會影響權重的因素。首先,位置 p 和 關注區域框 b 的幾何關係是至關重要的。例如,在關注區域框 b 中的位置應該比離得較遠的位置貢獻更大。第二,圖像特徵 x 應該適應性地被使用。這一點是受到可變形關注區域池化 [5] 的啟發。

所以,權重被建模成與兩項的和的冪指數相關

公式 (4.1) 中的第一項 G_k (b,p) 刻畫了幾何關係

計算幾何關係一共分為三個步驟。第一,類似 [16, 32],目標框與圖像位置被映射到高維空間。這種映射是通過用不同波長的正餘弦函數作用與標量 z 而得

第二,映射向量 E^im (p) 和 E^box (b) 是分別通過可學習的權值矩陣 W^im 和 W_k^box 線性變換而得。最後,兩個變換後的向量的內積被作為幾何關係的權重。

公式 (8) 本質上是一個注意力模型 [16, 32],注意力模型是建模遠距離的或者性質各異的元素間依賴關係的利器,比如不同語言中的單詞 [32],位置/大小/比例不同的關注區域 [16] 等。在研究者關注的問題上,注意力模型自然地建立起 4 維的矩形框坐標和 2 維的圖像位置之間的關係。大量的實驗表明關注區域和圖像位置間的幾何關係能夠被注意力模型很好地建模。

公式 (7) 中的第二項 A_k (x,p) 適應性地使用圖像特徵。它在圖像特徵上作用一層卷積,

其中 W_k^app 代表可學習的卷積核的權值。

整個區域特徵提取模塊的結構如圖 1 所示。在訓練中,圖像特徵 x 和模塊參數 (W_k^box, W^im, 和 W_k^app) 都是同時更新的。

圖 1 所提出的區域特徵提取模塊中關於公式 (2) 和 公式 (7) 的圖示

4. 複雜度分析和高效實現

一種樸素的實現方式需要遍歷 Ω_b 中所有位置。一種高效的實現方式可以對 Ω_b 中的位置稀疏採樣。直觀上,關注區域內的採樣點應該更密,而其外應該較稀疏。因此,Ω_b 被劃分為兩個集合 Ω_b=Ω_b^In∪Ω_b^Out,分別包含了關注區域內外的位置。Ω_b^Out 代表了關注區域的語境(上下文)信息。它可以是空集也可以覆蓋全圖。通過指定在 Ω_b^In 和 Ω_b^Out 中的最大採樣數 (通常,兩者都設為 196),複雜度可以被控制。給定關注區域 b,Ω_b^In 中的位置分別以 stride_x^b 和 stride_y^b 的步長,沿 x 和 y 兩個方向採樣。實驗表明稀疏採樣的準確度與樸素的密集採樣相差無幾。

5. 實驗

所有的實驗都在 COCO 檢測數據集上進行 [21]。研究者遵循 COCO 2017 的數據集劃分:訓練集的 115k 張圖像用於訓練; 驗證集中的 5k 張圖片進行驗證; 並在測試集的 20k 張圖像上進行測試。

研究者使用最先進的 R-CNN [27] 和 FPN [19] 物體探測器。ResNet-50 和 ResNet-101 [13] 被用作圖像特徵提取器的骨幹 (backbone)。默認情況下,使用基於 ResNet-50 的 Faster R-CNN 進行對比實驗。交並比 (IoU) 閾值為 0.5 的標準非極大值抑制 (NMS) 被用於去除重複檢測。

(1) 採樣區域的影響

研究者觀察到兩點。首先,研究者的方法勝過了其他兩種池化方法。其次,研究者的方法的效果在使用更大的採樣區域時穩步提高,表明了利用語境信息是有幫助的。然而,與使用 1× 關注區域相比,使用較大的採樣區域 (例如 2× 關注區域) 分別給普通和對齊的區域池化帶來了較小的提升而沒有提升。

表 2 不同採樣區域的三種區域特徵提取方法比較。在 COCO 驗證集上報告準確性 mAP。* 目前尚不清楚如何利用整個圖像進行普通和對齊的目標區域池化方法,因此相應的準確數字被省略。

(2) 稀疏採樣的影響

由於稀疏採樣實現,計算開銷可以顯著降低。默認情況下,對 Ω_b^In 和 Ω_b^Out 指定最多 196 個採樣位置。實際中,面積較大的關注區域對於Ω_b^Out 將具有較少的採樣位置,而面積較小的關注區域對於 Ω_b^In 將具有比最大採樣數更少的採樣位置。對於 Ω_b^In 和 Ω_b^Out,實際的平均採樣位置數分別在 114 和 86 左右,如表 3 所示。相應的計算開銷是 4.16G FLOPS,粗略地等於兩個全連接層的檢測頭的計算量 (大約 3.9G FLOP)。

對於之後的實驗,研究者的稀疏採樣實現對於 Ω_b^In 和 Ω_b^Out 都最多選取 196 個位置。

表 3 不同採樣位置數下的檢測準確度和計算量。均採樣個數 |Ω_b^Out |_avg 和 |Ω_b^In |_avg 是在 COCO 的驗證集上以 ResNet-50 RPN 生成的 300 個候選區域為樣本計算而得的。

(3) 幾何關係和圖像特徵使用方法的影響

公式 (7) 中幾何關係和圖像特徵使用對於所提出的區域特徵提取模塊的影響。在 COCO 的驗證集上彙報結果

(4) 不同檢測網路的比較

表 5 不同檢測網路上不同方法的比較。在 COCO 的測試集上彙報結果

6. 討論

公式 (7) 中學習而得的權重 w_k (*) 被可視化在圖 2(a) 中。支持區域 Ω 是全圖。訓練伊始,權重 w_k (*) 很大程度上是隨機的。在訓練之後,不同部分的權重被習得以關注關注區域上的不同位置,並主要集中在前景物體上。

為了理解公式 (7) 中幾何關係與圖像特徵使用的作用,圖 2 (b) 可視化了分別忽略其中一項後所得的權重。幾何關係對應的權重似乎主要集中在關注區域,而圖像特徵部分對應的權重則集中在所有的物體實例上. 關於可視化,所有權重均由所有圖像位置上的最大值歸一化,並用原始圖像進行半色調處理。

圖 2 (a) 給定兩個 RoI (紅色框),初始 (左) 和最終 (右) 公式 (7) 中的權重 w_k (*)。中心的圖片展示了所有 K=49 個子區域對應的權重圖的最大值。其周圍 4 個小的圖片顯示了 4 個子區域分別對應的權重圖

圖 2 (b) 示例:幾何關係對應的權重 (第一行),圖像特徵對應的權重 ({第二行) 和兩者結合的權重 (第三行)

推薦閱讀:

AI人工智慧火了,你可怎麼辦?
摩根大通啟用AI機器人 金融服務業的裁員潮還遠嗎?
晶元風波後,李開復仍堅信中國AI將領先世界,MJ和LeCun怎麼看?
未來 | 人工智慧在金融業還會有怎樣的突破?
極限元智能外呼機器人,打破外呼困局重構營銷新模式

TAG:特徵提取 | 計算機視覺 | 人工智慧 |