標籤:

fpn論文解讀

網路結構

網路首先通過bottom-up pathway由淺到深提取特徵(就是正常的網路結構),再通過top-down pathwaylateral connections生成在每個等級都有豐富語義的特徵金字塔,上採樣部分採用最近鄰。

  • 由於使用的是Resnet作為主幹,作者將其分成5個stage,每個stage最後的conv輸出標記為{C1,C2,C3,C4,C5}。第一層佔用的內存太多,因此只取{C2,C3,C4,C5}四個stage構成特徵金字塔。它們對於輸入圖像的步長等於{4,8,16,32}。
  • 先從C5開始,通過最近鄰方法把特徵圖升採樣2倍;對應的需要相加的bottom-up map用1*1卷積核的網路調整其通道數(本文中通道數d=256),這樣二者就可以逐元素相加了(過程見Figure3)。Top-down pathway就這樣一層一層向下傳遞。
  • 迭代開始時,為了產生 the coarsest resolution map,C5首先用一個1*1的卷積層處理。
  • 得到每個相加的特徵圖後,作者再次用3*3的卷積處理,得到最後的特徵圖{P2,P3,P4,P5}。

1 FPN for RPN

  • 在FPN中,作者只用了一種尺度的anchor,由於不同層的feature pyramid上對應的尺寸已經不同,所以都使用同一個尺度的anchor就足夠了。於是乎{P2,P3,P4,P5,P6}對應的anchor面積為{322,642,1282,2562,5122}。另外,還有{1:2,1:1,2:1}三種長寬比,所以anchor的種類共有15種。
  • anchor的標籤還是遵循以前的方法。如果某個anchor IoU大於0.7,或是某個ground-truth最大IoU,則為正標籤。反之如果IoU小於0.3,則為負標籤。
  • 注意到上面多了一個P6,它只是單純為了多一個更大的anchor,從P52倍上採樣得到。這個只在本小節有,下面的Fast R-CNN依然只到P5。

特徵金字塔網路來融合多層特徵,改進了CNN特徵提取。論文在Fast/Faster R-CNN上進行了實驗,在COCO數據集上刷到了第一的位置,意味著其在小目標檢測上取得了很大的進步。

2 Fast R-CNN 中的特徵金字塔網路

不同尺度的ROI,使用不同特徵層作為ROI pooling層的輸入,大尺度ROI就用後面一些的金字塔層,比如P5;小尺度ROI就用前面一點的特徵層,比如P4。那怎麼判斷ROI改用那個層的輸出呢?這裡作者定義了一個係數Pk,其定義為:

224是ImageNet的標準輸入,k0是基準值,設置為5,代表P5層的輸出(原圖大小就用P5層),w和h是ROI區域的長和寬,假設ROI是112 * 112的大小,那麼k = k0-1 = 5-1 = 4,意味著該ROI應該使用P4的特徵層。k值應該會做取整處理,防止結果不是整數。

即候選框ROI的不同尺度用roi_pooling映射回原圖的時候,根據尺度進行不同的映射

然後,因為作者把conv5也作為了金字塔結構的一部分,那麼從前全連接層的那個作用怎麼辦呢?這裡採取的方法是增加兩個1024維的輕量級全連接層,然後再跟上分類器和邊框回歸。作者認為這樣還能使速度更快一些。


推薦閱讀:

不容錯過的八大商科資料庫,再多Paper也不怕
論文閱讀:Synthetic to Real Adaptation with Generative Correlation Alignment Networks
在社交媒體上曬論文,會帶來更高的引用嗎?
論文文獻搜索整理的技巧
論文格式要求及字體大小

TAG:論文 |