fpn論文解讀

03-04

網路結構

網路首先通過bottom-up pathway由淺到深提取特徵（就是正常的網路結構），再通過top-down pathway和lateral connections生成在每個等級都有豐富語義的特徵金字塔，上採樣部分採用最近鄰。

由於使用的是Resnet作為主幹，作者將其分成5個stage，每個stage最後的conv輸出標記為{C1,C2,C3,C4,C5}。第一層佔用的內存太多，因此只取{C2,C3,C4,C5}四個stage構成特徵金字塔。它們對於輸入圖像的步長等於{4,8,16,32}。
先從C5開始，通過最近鄰方法把特徵圖升採樣2倍；對應的需要相加的bottom-up map用1*1卷積核的網路調整其通道數（本文中通道數d=256），這樣二者就可以逐元素相加了（過程見Figure3）。Top-down pathway就這樣一層一層向下傳遞。
迭代開始時，為了產生 the coarsest resolution map，C5首先用一個1*1的卷積層處理。
得到每個相加的特徵圖後，作者再次用3*3的卷積處理，得到最後的特徵圖{P2,P3,P4,P5}。

在FPN中，作者只用了一種尺度的anchor，由於不同層的feature pyramid上對應的尺寸已經不同，所以都使用同一個尺度的anchor就足夠了。於是乎{P2,P3,P4,P5,P6}對應的anchor面積為{322,642,1282,2562,5122}。另外，還有{1:2,1:1,2:1}三種長寬比，所以anchor的種類共有15種。
anchor的標籤還是遵循以前的方法。如果某個anchor IoU大於0.7，或是某個ground-truth最大IoU，則為正標籤。反之如果IoU小於0.3，則為負標籤。
注意到上面多了一個P6，它只是單純為了多一個更大的anchor，從P52倍上採樣得到。這個只在本小節有，下面的Fast R-CNN依然只到P5。

特徵金字塔網路來融合多層特徵，改進了CNN特徵提取。論文在Fast/Faster R-CNN上進行了實驗，在COCO數據集上刷到了第一的位置，意味著其在小目標檢測上取得了很大的進步。

不同尺度的ROI，使用不同特徵層作為ROI pooling層的輸入，大尺度ROI就用後面一些的金字塔層，比如P5；小尺度ROI就用前面一點的特徵層，比如P4。那怎麼判斷ROI改用那個層的輸出呢？這裡作者定義了一個係數Pk，其定義為：

224是ImageNet的標準輸入，k0是基準值，設置為5，代表P5層的輸出（原圖大小就用P5層），w和h是ROI區域的長和寬，假設ROI是112 * 112的大小，那麼k = k0-1 = 5-1 = 4，意味著該ROI應該使用P4的特徵層。k值應該會做取整處理，防止結果不是整數。

即候選框ROI的不同尺度用roi_pooling映射回原圖的時候，根據尺度進行不同的映射

然後，因為作者把conv5也作為了金字塔結構的一部分，那麼從前全連接層的那個作用怎麼辦呢？這裡採取的方法是增加兩個1024維的輕量級全連接層，然後再跟上分類器和邊框回歸。作者認為這樣還能使速度更快一些。