[目標檢測] RON-Reverse Connection with Objectness Prior Networks for Object Detection

01-25

faiculty: 機器學習、計算機視覺、語音識別演算法學習筆記微信公眾號、知乎專欄、簡書，請搜索： faiculty本專欄主要為學習記錄，可能綜合了網上各類文章或博客，如有侵權請聯繫本人進行刪除。 QQ：769412850.非常期待各位同學投稿，一起學習。

當前最好的基於深度網路的目標檢測框架可以分為兩個主要方法流派：基於區域的方法（region-based）和不基於區域（region-free）的方法。兩種方法各有優勢和劣勢。

由清華大學計算機系智能技術與系統國家重點實驗室、清華國家信息實驗室、清華大學計算機科學與技術系、英特爾中國研究院、清華大學電子工程系的研究人員共同參與的關於高效視覺目標檢測的研究已經被 CVPR 2017 接收。論文題目是《RON: Reverse Connection with Objectness Prior Networks for Object Detection》。作者是孔濤、孫富春、Anbang Yao、劉華平、Ming Lu 和陳玉榮。該研究結合了兩個主要方法流派的優點，提出了一個有效、高效的通用對象檢測框架 RON。

一、網路結構

RON主要關注於兩個目標檢測領域的基本問題：

多尺度目標定位：研究設計了反向連接（reverse connection），使網路能夠檢測多層 CNN 中的對象
負樣本挖掘：提出了目標先驗（objectness prior）來引導目標對象搜索；利用多任務損失函數優化整個網路，這樣網路就能直接預測最終檢測結果。

在測試中，RON 達到了先進的目標檢測性能。採用VGG-16網路在MS COCO數據集上預訓練模型，在PASCAL VOC數據集上fine-tune，輸入圖片resize到384×384時，在VOC 2007數據集上m-AP達到了81.3%，在VOC 2012數據集上m-AP達到了80.7%。在測試階段使用1.5G GPU顯存，圖片處理速度為15FPS，相同條件下比Faster R-CNN快3倍。

1.1 網路準備

使用VGG-16網路在ImageNet數據集上預訓練作為測試用例參考模型。VGG-16有13個卷積層和3個全連接層，RON將全連接層FC6（第14層）和FC7（第15層）換成卷積層，並且用步長為2的2×2卷積核來將FC7層的解析度降為一半。

1.2 反向連接

將細粒度的信息和高度抽象的信息結合可以有助於多尺度目標檢測。受剩餘連接（residual connection）啟發，在傳統CNN結構上提出了反向連接（reverse connection），這使得前向特徵能具有更多的語義信息。反向連接示意圖如下：

首先，一個反卷積層被應用於反向融合圖n+1（reverse fusion map），在上圖中標註為rf-map n+1，並且一個卷積層與主幹層n相連，以保證sum輸入具有相同的維度。接著，兩個相應的圖逐元素相加得到rf-map n，以此類推。RON網路結構中，針對不同的規模，共有4個這樣的反向連接結構。

由於反向連接是可學習的，前面層的語義信息能夠明顯增強，這一特性使得RON比SSD在多尺度目標檢測上更加有效。

1.3 參考框

1.4 目標先驗

對於上面介紹的參考框來說，只有一小部分的參考框真正包含物體，因此物體和非物體的數量極不平衡。基於區域的方法通過區域提取網路（region proposal networks）來克服這個問題，而RON添加了目標先驗（objectness prior）來指導目標的搜索，沒有生成新的區域。具體來說，在Softmax後添加一個3×3×2的卷積核來指示在每個參考框中是否存在物體。由於在每個位置有10個默認框（2個尺度和5個比例），故目標先驗圖的通道數為10。

下圖展示了從一幅具體的圖中生成的多尺度目標先驗圖，為了可視化，將10個通道的目標先驗圖進行了平均。

對於上圖，（a）和（b）圖體現出了沙發的位置，（c）特徵圖突出了棕色的狗，（d）圖顯示出白色狗的位置。可以看出，目標先驗圖可以明確指示待檢測目標的存在，因此搜索範圍可以大大降低，不同尺度的目標會在對應的特徵圖中體現出來。

1.5 檢測和邊框回歸

將inception module應用於反向連接過程生成的特徵圖：在特徵圖上添加兩個inception blocks，並分類最終的inception outputs。目標檢測和邊框回歸模型如下圖所示，上面為邊框回歸，下面為目標分類。

1.6 目標先驗和檢測結合

對於網路訓練：首先給每個參考框一個二值標籤，用於指示是否包含物體，若包含物體，則需要再分配一個具體類別標籤。對每一個真實框（ground truth box），找到和它重疊面積最大的候選區域。對每個候選區域，找到和它重疊面積大於0.5的真實框。這種匹配策略保證了每一個真實框都至少有一個候選框和它對應。對於重疊面積小於0.3的，分配負樣本label。

每一個參考框有兩個label，一個是不是目標的label，另一個類別label。在訓練的時候，網路會根據目標先驗動態更新類別label。在前向傳播時，網路首先產生目標先驗，並進行類別檢測。但是當反向傳播時，網路首先會產生目標先驗，然後對於檢測，只會在objectness得分大於某個閾值的區域內進行目標檢測。額外的計算僅僅在於為反向傳播選擇訓練樣本。當選擇合適的閾值時，樣本的數量減少了，這樣反向傳播的時間就縮短了。

下圖所示為將目標先驗和檢測進行映射。

二、訓練和測試

2.1 Loss Function

2.2 數據增強

使用如下策略：

(1)水平翻轉。
(2)從原圖中按照{0.4, 0.5, 0.6, 0.7, 0.8, 0.9}的比例從原圖中扣局部圖，保證每個局部圖中包含目標的中心。這些方法對於大目標可以很好地增加數量，但是對於小目標效果不好。所以針對小目標，增加一個小尺度進行訓練。某個尺度下的大目標在較小的尺度下，就會變成小目標。這個訓練策略可以避免對特定目標的尺寸過擬合。

2.3 參數設置

訓練部分

測試部分

三、實驗部分

3.1 VOC實驗

3.2 Ablation Study

作者做了兩個實驗來驗證他們提出的兩個方法的有效性。

第一個實驗室驗證多尺度特徵是有效的，結果如下：

3.3 Objectness Prior vs. RPN

四、參考文獻

[1] Kong T, Sun F, Yao A, et al. Ron: Reverse connection with objectness prior networks for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2017, 1: 2.

[2] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.

[3] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.