從結構、原理到實現，Faster R-CNN全解析（原創）

04-13

論文鏈接 Faster R-CNN Towards Real-Time Object：

https://arxiv.org/pdf/1506.01497.pdf

tensorflow源碼鏈接：

https://github.com/smallcorgi/Faster-RCNN_TF

Faster R-CNN是目標檢測界的大神Ross Girshick 2015年提出的一個很經典的檢測結構，它將傳統的Selective Search提取目標的方法替換成網路訓練來實現，使得全流程的檢測、分類速度大幅提升。

圖1是Faster R-CNN的基本結構，由以下4個部分構成：

1、特徵提取部分：用一串卷積+pooling從原圖中提取出feature map；

2、RPN部分：這部分是Faster R-CNN全新提出的結構，作用是通過網路訓練的方式從feature map中獲取目標的大致位置；

3、Proposal Layer部分：利用RPN獲得的大致位置，繼續訓練，獲得更精確的位置；

4、ROI Pooling部分：利用前面獲取到的精確位置，從feature map中摳出要用於分類的目標，並pooling成固定長度的數據；

圖1：Faster R-CNN結構（點擊放大）

一、特徵提取部分

特徵提取部分就是圖1中輸入圖片和feature map間的那一串卷積+pooling，這部分和普通的CNN網路中特徵提取結構沒有區別，可以用VGG、ResNet、Inception等各種常見的結構實現(只使用全連接層之前的部分)，這部分不再詳述。

二、RPN部分

目標識別有兩個過程：首先你要知道目標在哪裡，要從圖片中找出要識別的前景，然後才是拿前景去分類。在Faster R-CNN提出之前常用的提取前景(本文稱為提取proposal)的方法是Selective Search，簡稱SS法，通過比較相鄰區域的相似度來把相似的區域合併到一起，反覆這個過程，最終就得到目標區域，這種方法相當耗時以至於提取proposal的過程比分類的過程還要慢，完全達不到實時的目的；到了Faster R-CNN時，作者就想出把提取proposal的過程也通過網路訓練來完成，部分網路還可以和分類過程共用，新的方法稱為Reginal Proposal Network(RPN)，速度大大提升。

圖2粉色框內就是RPN，它做兩件事：1、把feature map分割成多個小區域，識別出哪些小區域是前景，哪些是背景，簡稱RPN Classification，對應粉色框中上半分支；2、獲取前景區域的大致坐標，簡稱RPN bounding box regression，對應下半分支；

圖2：RPN和Proposal Layer結構

1、RPN Classification

RPN Classification的過程就是個二分類的過程。先要在feature map上均勻的劃分出KxHxW個區域（稱為anchor，K=9，H是feature map的高度，W是寬度），通過比較這些anchor和ground truth間的重疊情況來決定哪些anchor是前景，哪些是背景，也就是給每一個anchor都打上前景或背景的label。有了labels，你就可以對RPN進行訓練使它對任意輸入都具備識別前景、背景的能力。

在圖2上半分支可以看到rpn_cls_score_reshape模塊輸出的結構是[1,9*H,W,2]，就是9xHxW個anchor二分類為前景、背景的概率；anchor_target_layer模塊輸出的是每一個anchor標註的label，拿它和二分類概率一比較就能得出分類的loss。

一個feature map有9xHxW個anchor，就是說每個點對應有9個anchor，這9個anchor有1:1、1:2、2:1三種長寬比，每種長寬比都有三種尺寸（見圖3）。一般來說原始輸入圖片都要縮放到固定的尺寸才能作為網路的輸入，這個尺寸在作者源碼里限制成800x600，9種anchor還原到原始圖片上基本能覆蓋800x600圖片上各種尺寸的坐標。

圖3：feature map每個點對應個不同尺寸的anchor

要注意的是在實際應用時並不是把全部HxWx9個anchor都拿來做label標註，這裡面有些規則來去除效果不好的anchor，具體的規則如下：

1、覆蓋到feature map邊界線上的anchor不參與訓練；

2、前景和背景交界地帶的anchor不參與訓練。這些交界地帶即不作為前景也不作為背景，以防出現錯誤的分類。在作者原文里把IOU>0.7作為標註成前景的門限，把IOU<0.3作為標註成背景的門限，之間的值就不參與訓練，IOU是anchor與ground truth的重疊區域佔兩者總覆蓋區域的比例，見示意圖4；

3、訓練時一個batch的樣本數是256，對應同一張圖片的256個anchor，前景的個數不能超過一半，如果超出，就隨機取128個做為前景，背景也有類似的篩選規則；

圖4：IOU概念

2、RPN bounding box regression

RPN bounding box regression用於得出前景的大致位置，要注意這個位置並不精確，準確位置的提取在後面的Proposal Layer bounding box regression章節會介紹。提取的過程也是個訓練的過程，前面的RPN classification給所有的anchor打上label後，我們需用一個表達式來建立anchor與ground truth的關係，假設anchor中心位置坐標是[Ax, Ay]，長高為Aw和Ah，對應ground truth的4個值為[Gx,Gy,Gw,Gh]，他們間的關係可以用公式１來表示。[dx(A), dy(A), dw(A), dh(A)]就是anchor與ground truth之間的偏移量，由公式１可以推導出公式２，這裡用對數來表示長寬的差別，是為了在差別大時能快速收斂，差別小時能較慢收斂來保證精度：

公式1

公式２

有了這４個偏移量，你就可以拿他們去訓練圖2 RPN中下面一個分支的輸出。完成訓練後RPN就具備識別每一個anchor到與之對應的最優proposal偏移量的能力（[dx(A), dy(A), dw(A), dh(A)]），換個角度看就是得到了所有proposal的位置和尺寸。要注意的是如果一個feature map中有多個ground truth，每個anchor只會選擇和它重疊度最高的ground truth來計算偏移量。

３、RPN的loss計算

RPN訓練時要把RPN classification和RPN bounding box regression的loss加到一起來實現聯合訓練。公式3中Ncls是一個batch的大小256，Lcls(pi, pi*)是前景和背景的對數損失，pi是anchor預測為目標的概率，就是前面rpn_cls_score_reshape輸出的前景部分score值，pi*是前景的label值，就是1，將一個batch所有loss求平均就是RPN classification的損失；公式3中Nreg是anchor的總數，λ是兩種 loss的平衡比例，ti是圖2中rpn_bbox_pred模塊輸出的[dx(A), dy(A), dw(A), dh(A)]，t*i是訓練時每一個anchor與ground truth間的偏移量，t*i與ti用smooth L1方法來計算loss就是RPN bounding box regression的損失：

公式3：RPN的loss

公式4

關於Smooth L1的原理，請參考：

http://pages.cs.wisc.edu/~gfung/GeneralL1/L1_approx_bounds.pdf

三、Proposal Layer部分

得到proposal大致位置後下一步就是要做準確位置的回歸了。在RPN的訓練收斂後我們能得到anchor相對於proposal的偏移量[dx(A), dy(A), dw(A), dh(A)](要注意這裡是想對於proposal的，而不是相對於ground truth的)，有了偏移量再根據公式1就能算出proposal的大致位置。在這個過程中HxWx9個anchor能算出HxWx9個proposal，大多數都是聚集在ground truth周圍的候選框，這麼多相近的proposal完全沒必要反而增加了計算量，這時就要用一些方法來精選出最接近ground truth的proposal，Ross Girshick給了三個步驟：

1、先選出前景概率最高的N個proposal;

2、做非極大值抑制(NMS)

3、NMS後再次選擇前景概率最高的M個proposal;

經歷這三個步驟後能夠得到proposal的大致位置，但這還不夠，為了得到更精確的坐標，你還要利用公式2再反推出這個大致的proposal和真實的ground truth間還有多少偏移量，對這個新的偏移量再來一次回歸才是完成了精確的定位。

上面的過程比較繞，反覆在偏移量、anchor、ground truth間切換，下面的示意圖可以加深理解：

圖5

proposal精確位置回歸時計算loss的公式和公式3中RPN bounding box regression的loss計算方法完全相同，也用smooth L1方法。

四、ROI Pooling部分

結構篇：

ROI Pooling做了兩件事：1、從feature maps中「摳出」proposals（大小、位置由RPN生成）區域；2、把「摳出」的區域pooling成固定長度的輸出。

圖6是pooling過程的示意圖，feature map中有兩個不同尺寸的proposals，但pooling後都是7x7=49個輸出，這樣就能為後面的全連接層提供固定長度的輸入。這種pooling方式有別於傳統的pooling，沒有任何tensorflow自帶的函數能實現這種功能，你可以自己用python寫個ROI Pooling的過程，但這樣就調用不了GPU的並行計算能力，所以作者的源碼里用C++來實現整個ROI Pooling。

圖6：ROI Pooling過程

釋疑篇：

為什麼要pooling成固定長度的輸出呢？這個其實來自於更早提出的SPP Net，RPN網路提取出的proposal大小是會變化的，而分類用的全連接層輸入必須固定長度，所以必須有個從可變尺寸變換成固定尺寸輸入的過程。在較早的R-CNN和Fast R-CNN結構中都通過對proposal進行拉升（warp）或裁減（crop）到固定尺寸來實現，拉升、裁減的副作用就是原始的輸入發生變形或信息量丟失（圖7），以致分類不準確。而ROI Pooling就完全規避掉了這個問題，proposal能完整的pooling成全連接的輸入，而且沒有變形，長度也固定。

圖7：早期的網路通過crop或warp來得到固定尺寸的輸入

源碼篇：

lib
oi_pooling_layer目錄下文件用來實現ROI Pooling。先來看http://roi_pooling_op.cc，裡面有4個類：

圖8：roi_pooling_op.cc

CPU和GPU版本的具體流程差異不大，只是後者通過CUDA來實現，具體的代碼就不貼了，下面一張圖裡各個參數的名稱對應著代碼里前向pooling計算時參數的取名（在RoiPoolOp類的Compute()函數中），圖中的proposal被分割成7x7個小方塊（圖中藍色的小方塊），每個藍色的大小是bin_size_w x bin_size_h ，其中的最大值就是一個pooling的結果，一個proposal共有49個pooling輸出。可以對照下圖和代碼來理解：

圖9：RoiPoolOp類中前向計算中（Compute()函數）各個參數對應的含義

五、訓練過程

前面介紹了Faster R-CNN的結構，最後看下訓練方法，為了便於說明，我們把RPN中的rpn classification和rpn bounding box regression統稱為RPN訓練；把proposal layer中對proposal精確位置的訓練和最終的準確分類訓練統稱為R-CNN訓練。Ross Girshick在論文中介紹了3種訓練方法：

Alternating training：RPN訓練和R-CNN訓練交替進行，共交替兩次。訓練時先用ImageNet預訓練的結果來初始化網路，訓練RPN，用得到的proposal再訓練R-CNN，之後用R-CNN訓練出的參數來初始網路，再訓練一次RPN，最後用RPN訓練出的參數來初始化網路，最後訓練次R-CNN，就完成了全部的訓練過程。

Approximate joint training：這裡與前一種方法不同，不再是串列訓練RPN和R-CNN，而是嘗試把二者融入到一個網路內一起訓練。這裡Approximate 的意思是指把RPN bounding box regression部分反向計算得到的梯度完全捨棄，不用做更新網路參數的權重。Approximate joint training相對於Alternating traing減少了25-50%的訓練時間。

Non-approximate training：該方法和Approximate joint training基本一致，只是不再捨棄RPN bounding box regression部分得到的梯度。

本文開頭提供的源碼使用的是第三種方法，把４個部分的loss都加到了一起來訓練，它的速度要更快。