乾貨 | 深度學習時代的目標檢測演算法

目前目標檢測領域的深度學習方法主要分為兩類:two stage 的目標檢測演算法;one stage 的目標檢測演算法。前者是先由演算法生成一系列作為樣本的候選框,再通過卷積神經網路進行樣本分類;後者則不用產生候選框,直接將目標邊框定位的問題轉化為回歸問題處理。正是由於兩種方法的差異,在性能上也有不同,前者在檢測準確率和定位精度上佔優,後者在演算法速度上佔優。

目標檢測演算法脈絡

1. two stage 的方法

在早期深度學習技術發展進程中,主要都是圍繞分類問題展開研究,這是因為神經網路特有的結構輸出將概率統計和分類問題結合,提供一種直觀易行的思路。國內外研究人員雖然也在致力於將其他如目標檢測領域和深度學習結合,但都沒有取得成效,這種情況直到 R-CNN 演算法出現才得以解決。

1.1 R-CNN

2014 年加州大學伯克利分校的 Ross B. Girshick 提出 R-CNN 演算法,其在效果上超越同期的 Yann Lecun 提出的端到端方法 OverFeat 演算法,其演算法結構也成為後續 two stage 的經典結構。R-CNN 演算法利用選擇性搜索(Selective Search)演算法評測相鄰圖像子塊的特徵相似度,通過對合併後的相似圖像區域打分,選擇出感興趣區域的候選框作為樣本輸入到卷積神經網路結構內部,由網路學習候選框和標定框組成的正負樣本特徵,形成對應的特徵向量,再由支持向量機設計分類器對特徵向量分類,最後對候選框以及標定框完成邊框回歸操作達到目標檢測的定位目的。雖然 R-CNN 演算法相較於傳統目標檢測演算法取得了 50%的性能提升,但其也有缺陷存在:訓練網路的正負樣本候選區域由傳統演算法生成,使得演算法速度受到限制;卷積神經網路需要分別對每一個生成的候選區域進行一次特徵提取,實際存在大量的重複運算,制約了演算法性能。

圖1.1 R-CNN

1.2 SPP-Net

圖1.2 spatial pyramid pooling layer

針對卷積神經網路重複運算問題,2015 年微軟研究院的何愷明等提出一種 SPP-Net 演算法,通過在卷積層和全連接層之間加入空間金字塔池化結構(Spatial Pyramid Pooling)代替 R-CNN 演算法在輸入卷積神經網路前對各個候選區域進行剪裁、縮放操作使其圖像子塊尺寸一致的做法。利用空間金字塔池化結構有效避免了 R-CNN 演算法對圖像區域剪裁、縮放操作導致的圖像物體剪裁不全以及形狀扭曲等問題,更重要的是解決了卷積神經網路對圖像重複特徵提取的問題,大大提高了產生候選框的速度,且節省了計算成本。但是和 R-CNN 演算法一樣訓練數據的圖像尺寸大小不一致,導致候選框的 ROI 感受野大,不能利用 BP 高效更新權重。

1.3 Fast R-CNN

針對 SPP-Net 演算法的問題,2015 年微軟研究院的 Ross B. Girshick 又提出一種改進的 Fast R-CNN 演算法,借鑒 SPP-Net 演算法結構,設計一種 ROI pooling 的池化層結構,有效解決 R-CNN 演算法必須將圖像區域剪裁、縮放到相同尺寸大小的操作。提出多任務損失函數思想,將分類損失和邊框回歸損失結合統一訓練學習,並輸出對應分類和邊框坐標,不再需要額外的硬碟空間來存儲中間層的特徵,梯度能夠通過 RoI Pooling 層直接傳播。但是其仍然沒有擺脫選擇性搜索演算法生成正負樣本候選框的問題。

圖1.3 Fast R-CNN

1.4 Faster R-CNN

為了解決 Fast R-CNN 演算法缺陷,使得演算法實現 two stage 的全網路結構,2015 年微軟研究院的任少慶、何愷明以及 Ross B Girshick 等人又提出了 Faster R-CNN 演算法。設計輔助生成樣本的 RPN(Region Proposal Networks)網路,將演算法結構分為兩個部分,先由 RPN 網路判斷候選框是否為目標,再經分類定位的多任務損失判斷目標類型,整個網路流程都能共享卷積神經網路提取的的特徵信息,節約計算成本,且解決 Fast R-CNN 演算法生成正負樣本候選框速度慢的問題,同時避免候選框提取過多導致演算法準確率下降。但是由於 RPN 網路可在固定尺寸的卷積特徵圖中生成多尺寸的候選框,導致出現可變目標尺寸和固定感受野不一致的現象。

圖1.4 Faster R-CNN

1.5 MR-CNN

2015 年巴黎科技大學提出 MR-CNN 演算法,結合樣本區域本身的特徵,利用樣本區域周圍採樣的特徵和圖像分割的特徵來提高識別率,可將檢測問題分解為分類和定位問題。

圖1.5 MR-CNN

分類問題由 Multi-Region CNN Model 和 Semantic Segmentation-Aware CNN Model 組成。前者的候選框由 Selective Search 得到,對於每一個樣本區域,取 10 個區域分別提取特徵後拼接,這樣可以強制網路捕捉物體的不同方面,同時可以增強網路對於定位不準確的敏感性,其中 adaptive max pooling 即 ROI max pooling;後者使用 FCN 進行目標分割,將最後一層的 feature map 和前者產生的 feature map 拼接,作為最後的 feature map。

為了精確定位,採用三種樣本邊框修正方法,分別為 Bbox regression、Iterative localization 以及 Bounding box voting。Bbox regression:在 Multi-Region CNN Model 中整幅圖經過網路的最後一層卷積層後,接一個 Bbox regression layer,與 RPN 不同,此處的 regression layer 是兩層 FC 以及一層 prediction layer,為了防止 Selective Search 得到的框過於貼近物體而導致無法很好的框定物體,將候選框擴大為原來的 1.3 倍再做。Iterative localization:初始的框是 Selective Search 得到的框,然後用已有的分類模型對框做出估值,低於給定閾值的框被篩掉,剩下的框用 Bbox regression 的方法調整大小,并迭代篩選。Bounding box voting:首先對經過 Iterative localization 處理後的框應用 NMS, IOU = 0.3,得到檢測結果,然後對於每一個框,用每一個和其同一類的而且 IOU >0.5 的框加權坐標,得到最後的目標樣本框。

1.6 HyperNet

2016 年清華大學提出 HyperNet 演算法,其利用網路多個層級提取的特徵,且從較前層獲取的精細特徵可以減少對於小物體檢測的缺陷。將提取到的不同層級 feature map 通過最大池化降維或逆卷積擴增操作使得所有 feature map 尺寸一致,並利用 LRN 正則化堆疊,形成 Hyper Feature maps,其具有多層次抽象、合適解析度以及計算時效性的優點。接著通過 region proposal generation module 結構進行預測和定位,僅保留置信度最高的 N 個樣本框進行判斷。

圖1.6 HyperNet

1.7 CRAFT

圖1.7 CRAFT

R-CNN 系列演算法的第一階段是生成目標 proposals,第二階段是對目標 proposals 進行分類,2016 年中科院自動化所提出的 CRAFT 演算法分別對 Faster R-CNN 中的這兩個階段進行了一定的改進。對於生成目標 proposals 階段,在 RPN 的後面加了一個二值的 Fast R-CNN 分類器來對 RPN 生成的 proposals 進行進一步的篩選,留下一些高質量的 proposals;對於第二階段的目標 proposals 分類,在原來的分類器後又級聯了 N 個類別(不包含背景類)的二值分類器以進行更精細的目標檢測。

1.8 R-FCN

圖1.8 R-FCN

隨著全卷積網路的出現,2016 年微軟研究院的 Jifeng Dai 等提出 R-FCN 演算法。相較於 Faster R-CNN 演算法只能計算 ROI pooling 層之前的卷積網路特徵參數,R-FCN 演算法提出一種位置敏感分布的卷積網路代替 ROI pooling 層之後的全連接網路,解決了 Faster R-CNN 由於 ROI Pooling 層後面的結構需要對每一個樣本區域跑一次而耗時比較大的問題,使得特徵共享在整個網路內得以實現,解決物體分類要求有平移不變性和物體檢測要求有平移變化的矛盾,但是沒有考慮到 region proposal 的全局信息和語義信息。

1.9 MS-CNN

針對 Faster R-CNN 演算法的遺留問題,2016 年加州大學聖地亞哥分校的 Z Cai提出了 MS-CNN 演算法,通過利用 Faster R-CNN 演算法結構的多個不同層級輸出的特徵結果來檢測目標,將不同層級的檢測器互補形成多尺度的強檢測器,應用淺層特徵檢測小尺寸目標,應用深層特徵檢測大尺寸目標。並且利用去卷積層代替圖像上採樣來增加圖像解析度,減少內存佔用,提高運行速度。

圖1.9 MS-CNN的特徵網路

1.10 PVANet

針對的就是演算法的運算速度提升問題,2016 年底 Intel 圖像技術團隊提出了一個輕量級的網路,取得了 state-of-the-art 的效果。PVANet 主要分為特徵抽取網路和檢測網路,基於多層少通道的基本原則,在網路淺層採用 C.ReLU 結構,在網路深層採用 Inception 模塊,其中前者是將 K×K 卷積結構表示 1×1 - K×K - 1×1 的卷積層的堆疊,後者設計原則是由於為了檢測圖像中的大目標,需要足夠大的感受野,可通過堆疊 3×3 的卷積核實現,但是為了捕獲小目標,則需要小一點的感受野,可通過 1×1 的卷積核實現,且可以避免大卷積核造成的參數冗餘問題。

PVANet 應用多尺度特徵級聯最大化目標檢測任務的多尺度性質,權重衰減策略採用一定迭代次數內 loss 不再下降,則將學習速率降低常數倍的方式,通過 batch normalization 和 residual 連接實現高效的訓練。

圖1.10 PVANet

1.11 FPN

2017 年 Facebook 的 Tsung-Yi Lin 等提出了 FPN 演算法,利用不同層的特徵圖進行不同尺寸的目標預測。原來多數的目標檢測演算法都是只採用深層特徵做預測,低層的特徵語義信息比較少,但是目標位置準確;高層的特徵語義信息比較豐富,但是目標位置比較粗略。另外雖然也有些演算法採用多尺度特徵融合的方式,但是一般是採用融合後的特徵做預測,而 FPN 演算法不一樣的地方在於預測是在不同特徵層獨立進行的,利用深層特徵通過上採樣和低層特徵做融合。

FPN 演算法主網路是 ResNet,結構主要是一個自底向上的線路橫向連接一個自頂向下的線路。自底向上其實就是網路的前向過程,在前向過程中,feature map 的大小在經過某些層後會改變,而在經過其他一些層的時候不會改變,FPN 演算法將不改變 feature map 大小的層歸為一個 stage,因此每次抽取的特徵都是每個 stage 的最後一個層輸出,這樣就能構成特徵金字塔。自頂向下的過程採用上採樣進行,而橫向連接則是將上採樣的結果和自底向上生成的相同大小的 feature map 並一一對應進行融合,在融合之後還會再採用 3×3 的卷積核對每個融合結果進行卷積,目的是消除上採樣的混疊效應。

圖1.11 FPN

1.12 Mask R-CNN

為了解決 R-CNN 演算法為代表的 two stage 的方法問題,2017 年 Facebook 的何愷明等提出了 Mask R-CNN 演算法,取得了很好的識別效果。Mask R-CNN 演算法將 ROI_Pooling 層替換成了 ROI_Align,並且在邊框識別的基礎上添加分支 FCN 層(mask 層),用於語義 Mask 識別,通過 RPN 網路生成目標候選框,再對每個目標候選框分類判斷和邊框回歸,同時利用全卷積網路對每個目標候選框預測分割掩膜。加入的掩膜預測結構解決了特徵圖像和原始圖像上的 ROI 不對準問題,避免對 ROI 邊界做任何量化,而用雙線性插值到對準特徵,再用池化操作融合。掩膜編碼了輸入圖像的空間布局,用全卷積網路預測每個目標候選框的掩膜能完整的保留空間結構信息,實現目標像素級分割定位。

圖1.12 Mask R-CNN

1.13 A-Fast-RCNN

A-Fast-RCNN 演算法是 2017 年卡內基梅隆大學提出的,其將對抗學習引入到目標檢測問題中,通過對抗網路生成一下遮擋和變形的訓練樣本來訓練檢測網路,從而使得網路能夠對遮擋和變形問題更加的魯棒。使用對抗網路生成有遮擋和有形變的兩種特徵,兩種網路分別為 ASDN 和 ASTN。

ASDN 利用 Fast R-CNN 中 ROI 池化層之後的每個目標 proposal 卷積特徵作為對抗網路的輸入,給定一個目標的特徵,ASDN 嘗試生成特徵某些部分被 dropout 的掩碼,導致檢測器無法識別該物體。在前向傳播過程中,首先使用 ASDN 在 ROI 池化層之後生成特徵掩碼,然後使用重要性採樣法生成二值掩碼,使用該掩碼將特徵對應部位值清零,修改後的特徵繼續前向傳播計算損失,這個過程生成了困難的特徵,用於訓練檢測器。

ASTN 主要關注特徵旋轉,定位網路包含三層全連接層,前兩層是 ImageNet 預訓練的 FC6 和 FC7,訓練過程與 ASDN 類似,ASTN 對特徵進行形變,將特徵圖劃分為 4 個 block,每個 block 估計四個方向的旋轉,增加了任務的複雜度。兩種對抗網路可以相結合,使得檢測器更魯棒,ROI 池化層提取的特徵首先傳入 ASDN 丟棄一些激活,之後使用 ASTN 對特徵進行形變。

圖1.13 A-Fast-RCNN

1.14 CoupleNet

針對 R-FCN 演算法沒有考慮到 region proposal 的全局信息和語義信息的問題,2017 年中科院自動化所提出 CoupleNet 演算法,其在原來 R-FCN 的基礎上引入了 proposal 的全局和語義信息,通過結合局部、全局以及語義的信息,提高了檢測的精度。

圖1.14 CoupleNet

CoupleNet 結構利用三支並行網路實現檢測,上面的支路網路使用原本的 R-FCN 結構的位置敏感分布圖提取目標的局部信息;中間的支路網路用於提取目標的全局信息,對於一個 region proposal,依次通過 K×K 的 ROI Pooling,K×K 的 conv 以及 1×1 的 conv;下面的支路網路用於提取目標的語義信息,對於一個 region proposal,首先選擇以這個 proposal 為中心,面積是原來 2 倍的 proposal,同樣依次通過 K×K 的 ROI Pooling,K×K 的 conv 以及 1×1 的 conv。最後先各自通過 1×1 的 conv 調整激活值的尺寸,然後把 Local FCN 和 Global FCN 結果對應位置元素相加,再通過一個 softmax 實現分類。

1.15 MegDet

基於 CNN 的物體檢測研究一直在不斷進步,從 R-CNN 到 Fast/Faster R-CNN,再 Mask R-CNN,主要的改進點都在於新的網路架構、新的範式、或者新的損失函數設計,然而 mini-batch 大小,這個訓練中的關鍵因素並沒有得到完善的研究。由於輸入圖片尺寸的增長,圖像檢測所需顯存量也會同比例增長,這也使得已有的深度學習框架無法訓練大 mini-batch 的圖像檢測模型,而小 mini-batch 的物體檢測演算法又常常會引入不穩定的梯度、BN 層統計不準確、正負樣本比例失調以及超長訓練時間的問題。因此,2017 年 12 月 Face++提出一種大 mini-batch 的目標檢測演算法 MegDet。

圖1.15 多 GPU 的 Batch Normalization

MegDet 演算法可以使用遠大於以往的 mini-batch 大小訓練網路(比如從 16 增大到 256),這樣同時也可以高效地利用多塊 GPU 聯合訓練(在論文的實驗中最多使用了 128 塊 GPU),大大縮短訓練時間。同時解決了 BN 統計不準確的問題,也提出了一種學習率選擇策略以及跨 GPU 的 Batch Normalization 方法,兩者共同使用就得以大幅度減少大 mini-batch 物體檢測器的訓練時間(比如從 33 小時減少到僅僅 4 個小時),同時還可以達到更高的準確率。

1.16 Light-Head R-CNN

2017 年 12 月 Face++提出了一種為了使 two stage 的檢測演算法 Light-Head R-CNN,主要探討了 R-CNN 如何在物體檢測中平衡精確度和速度。Light-Head R-CNN 提出了一種更好的 two-stage detector 設計結構,使用一個大內核可分卷積和少量通道生成稀疏的特徵圖。該設計的計算量使隨後的 ROI 子網路計算量大幅降低,檢測系統所需內存減少。將一個廉價的全連接層附加到池化層上,充分利用分類和回歸的特徵表示。因其輕量級頭部結構,該檢測器能夠實現速度和準確率之間的最優權衡,不管使用的是大主幹網路還是小主幹網路。

基於 ResNet101 網路達到了新的 state-of-the-art 的結果 40.6,超過了 Mask R-CNN 和 RetinaNet。同時如果是用一個更小的網路,比如類似 Xception 的小模型,達到了 100+FPS,30.7mmap,效率上超過了 SSD 和 YOLO。

圖1.16 Light-Head R-CNN

2. one stage 的方法

以 R-CNN 演算法為代表的 two stage 的方法由於 RPN 結構的存在,雖然檢測精度越來越高,但是其速度卻遇到瓶頸,比較難於滿足部分場景實時性的需求。因此出現一種基於回歸方法的 one stage 的目標檢測演算法,不同於 two stage 的方法的分步訓練共享檢測結果,one stage 的方法能實現完整單次訓練共享特徵,且在保證一定準確率的前提下,速度得到極大提升。

2.1 OverFeat

2013 年 Yann Lecun 在紐約大學的團隊提出了著名的 OverFeat 演算法,其利用滑動窗口和規則塊生成候選框,再利用多尺度滑動窗口增加檢測結果,解決圖像目標形狀複雜、尺寸不一問題,最後利用卷積神經網路和回歸模型分類、定位目標。該演算法首次將分類、定位以及檢測三個計算機視覺任務放在一起解決,獲得同年 ILSVRC 2013 任務 3(分類+定位)的冠軍,但其很快就被同期的 R-CNN 演算法取代。

圖2.1 用於檢測的高效卷積

2.2 YOLO

2015 年華盛頓大學的 Joseph Redmon 等提出的 YOLO 演算法繼承了 OverFeat 演算法這種基於回歸的 one stage 方法,速度能達到每秒 45 幀,由於其速度優勢迅速成為端到端方法的領先者。YOLO 演算法是基於圖像的全局信息進行預測的,整體結構簡單,通過將輸入圖像重整到 448×448 像素固定尺寸大小,並劃分圖像為 7×7 網格區域,通過卷積神經網路提取特徵訓練,直接預測每個網格內的邊框坐標和每個類別置信度,訓練時採用 P-Relu 激活函數。但是存在定位不準以及召回率不如基於區域提名方法的問題,且對距離很近的物體和很小的物體檢測效果不好,泛化能力相對較弱。

圖2.2 YOLO

2.3 YOLOv2 & YOLO9000

經過 Joseph Redmon 等的改進,YOLOv2 和 YOLO9000 演算法在 2017 年 CVPR 上被提出,並獲得最佳論文提名,重點解決召回率和定位精度方面的誤差。採用 Darknet-19 作為特徵提取網路,增加了批量歸一化(Batch Normalization)的預處理,並使用 224×224 和 448×448 兩階段訓練 ImageNet 預訓練模型後 fine-tuning。相比於原來的 YOLO 是利用全連接層直接預測 bounding box 的坐標,YOLOv2 借鑒了 Faster R-CNN 的思想,引入 anchor 機制,利用 K-Means 聚類的方式在訓練集中聚類計算出更好的 anchor 模板,在卷積層使用 anchorboxes 操作,增加候選框的預測,同時採用較強約束的定位方法,大大提高演算法召回率。結合圖像細粒度特徵,將淺層特徵與深層特徵相連,有助於對小尺寸目標的檢測。

圖2.3 YOLOv2在VOC2007上的速度和精度

2.4 G-CNN

由於巨大的 proposal 數量使得後續檢測效率降低,2016 年馬里蘭大學的 M Najibi 等提出一種起始於網格迭代的 G-CNN 演算法。通過初始化對圖像劃分回歸後得到更加接近物體的候選框,再利用回歸框作為原始窗口進行回歸調整,解決了以往的基於區域提名方法通過海量潛在候選框直接進行目標搜索,抑制負樣本的缺陷。

在訓練階段,首先在圖像中獲取疊加的多尺度的規則網格(實際網格相互疊加),然後通過 ground truth 與每一個網格的 IOU 進行每一個網格 ground truth 的分配,並完成訓練過程,使得網格在回歸過程中漸漸接近 ground truth。在檢測階段,對於每一個樣本框針對每一類獲得置信分數,用最可能類別的回歸器來更新樣本框的位置。

圖2.4 G-CNN

2.5 SSD

針對 YOLO 類演算法的定位精度問題,2016 年 12 月北卡大學教堂山分校的 Wei Liu 等提出 SSD 演算法,將 YOLO 的回歸思想和 Faster R-CNN 的 anchor box 機制結合。通過在不同卷積層的特徵圖上預測物體區域,輸出離散化的多尺度、多比例的 default boxes 坐標,同時利用小卷積核預測一系列候選框的邊框坐標補償和每個類別的置信度。在整幅圖像上各個位置用多尺度區域的局部特徵圖邊框回歸,保持 YOLO 演算法快速特性的同時,也保證了邊框定位效果和 Faster R-CNN 類似。但因其利用多層次特徵分類,導致其對於小目標檢測困難,最後一個卷積層的感受野範圍很大,使得小目標特徵不明顯。

圖2.5 SSD和YOLO網路結構對比

2.6 R-SSD

2017 年首爾大學提出了 R-SSD 演算法,解決了 SSD 演算法中不同層 feature map 都是獨立作為分類網路的輸入,容易出現相同物體被不同大小的框同時檢測出來的情況,還有對小尺寸物體的檢測效果比較差的情況。R-SSD 演算法一方面利用分類網路增加不同層之間的 feature map 聯繫,減少重複框的出現;另一方面增加 feature pyramid 中 feature map 的個數,使其可以檢測更多的小尺寸物體。特徵融合方式採用同時利用 pooling 和 deconvolution 進行特徵融合,這種特徵融合方式使得融合後每一層的 feature map 個數都相同,因此可以共用部分參數,具體來講就是 default boxes 的參數共享。

圖2.6 三種特徵融合方式

2.7 DSSD

為了解決 SSD 演算法檢測小目標困難的問題,2017 年北卡大學教堂山分校的 Cheng-Yang Fu 等提出 DSSD 演算法,將 SSD 演算法基礎網路從 VGG-16 更改為 ResNet-101,增強網路特徵提取能力,其次參考 FPN 演算法思路利用去卷積結構將圖像深層特徵從高維空間傳遞出來,與淺層信息融合,聯繫不同層級之間的圖像語義關係,設計預測模塊結構,通過不同層級特徵之間融合特徵輸出預測物體類別信息。

DSSD 演算法中有兩個特殊的結構:Prediction 模塊;Deconvolution 模塊。前者利用提升每個子任務的表現來提高準確性,並且防止梯度直接流入 ResNet 主網路。後者則增加了三個 Batch Normalization 層和三個 3×3 卷積層,其中卷積層起到了緩衝的作用,防止梯度對主網路影響太劇烈,保證網路的穩定性。

圖2.7 SSD和DSSD網路結構對比

2.8 DSOD

2017 年復旦大學提出 DSOD 演算法,其並不是在 mAP 上和其他檢測演算法做比較,看誰的演算法更有效或者速度更快,而是從另一個角度切入說明 fine-tune 和直接訓練檢測模型的差異其實是可以減小的,也就是說訓練一個檢測模型可以不需要大量的數據和預訓練好的模型。這是由於預訓練模型的限制導致:遷移模型結構靈活性差,難以改變網路結構;分類任務預訓練模型和檢測任務訓練會有學習偏差;雖然微調會減少不同目標類別分布的差異性,但深度圖等特殊圖像遷移效果差異較大。

SSD 演算法是在六個尺度的特徵圖上進行檢測,將這六個檢測結果綜合起來,DSOD 演算法則則根據 DenseNet 的設計原理,將相鄰的檢測結果一半一半的結合起來。DSOD 演算法是基於 SSD 演算法基礎上做的修改,採用的特徵提取網路是 DenseNet。採用 Dense Block 結構,能避免梯度消失的情況。同時利用 Dense Prediction 結構,也能大大減少模型的參數量,特徵包含更多信息。設計 stem 結構能減少輸入圖片信息的丟失,stem 結構由 3×3 卷積和 2×2 的 max pool 層組成,其還可以提高演算法檢測的 mAP。

圖2.8 DSOD預測層

2.9 RON

2017 年清華大學提出了 RON 演算法,結合 two stage 名的方法和 one stage 方法的優勢,更加關注多尺度對象定位和負空間樣本挖掘問題。

  • 多尺度對象定位——各種尺度的物體可能出現在圖像的任何位置,因此應考慮成千上萬個具有不同位置/尺度/方位的區域。多尺度表徵將顯著改善各種尺度的物體檢測,但是這些方法總是在網路的一層檢測到各種尺度的對象;

  • 負空間挖掘——對象和非對象樣本之間的比例嚴重不平衡。因此,對象檢測器應該具有有效的負挖掘策略。

  • RON 演算法通過設計方向連接結構,利用多尺度表徵顯著改善各種多尺度物體檢測,同時為了減少對象搜索空間,在卷積特徵圖創建 objectness prior 引導目標對象搜索,訓練時將檢測器進行聯合優化。並通過多任務損失函數聯合優化了反向連接、objectness prior 和對象檢測,因此可直接預測各種特徵圖所有位置的最終檢測結果。

    圖2.9 RON

    3. 總結

    隨著深度學習技術在圖像各領域的研究深入,出現越來越多的新理論、新方法。two stage 的方法和基於回歸思想的 one stage 方法兩者相互借鑒,不斷融合,取得了很好的效果,也為我們展示了一些未來發展趨勢:

  • 參考上下文特徵的多特徵融合;

  • 多尺度的對象定位;

  • 結合循環神經網路(RNN)的圖像語義分析。

  • 部分目標檢測演算法精度和速度對比

    —————AI 科技評論招人了 —————

    —————給愛學習的你的福利 —————

    三大模塊,五大應用,手把手快速入門NLP

    海外博士講師,豐富項目經驗

    演算法+實踐,搭配典型行業應用

    隨到隨學,專業社群,講師在線答疑


    推薦閱讀:

    朱莉切乳帶火乳腺癌檢測 女性如何自檢乳腺癌?
    古董物理檢測哪裡最權威
    學習無損探傷-面對新的挑戰
    ccc認證檢測辦理流程
    需不需要做基因檢測,看完這篇文章你就知道了!

    TAG:學習 | 演算法 | 目標 | 目標檢測 | 乾貨 | 時代 | 檢測 | 深度學習 | 深度 | 算法 |