Path Aggregation Network for Instance Segmentation

04-29

[CVPR 18]Path Aggregation Network for Instance Segmentation

筆記同步發表於CSDN博客

Shu Liu, Lu Qi, Haifang Qin, Jianping Shi and Jiaya Jia

from

CUHK, Peking University, Sensetime & YouTu Lab

paper link

本文提出了名為PANet的網路結構，用於物體檢測(object detection)和實例分割(instance segmentation)任務。該網路基於FPN[1]和Mask RCNN[2]模型之上提出了三點創新，顯著地提升了模型在物體檢測和實例分割網路上的性能：

網路的結構圖如下所示，三個創新點對應的結構變化已經在圖中標出：

PANet在COCO 17實例分割競賽中取得了第一名的成績，在檢測任務中取得了第二的成績。

Bottom-up Path Augmentation

FPN的網路結構如下圖所示：

PANet的主幹網路與FPN不同之處在於新構建的N2~N5卷積。從Ni層到Ni+1層的細節結構如下圖所示，其中的融合操作是逐像素加和：

構建該新支路的優勢在於縮短了底層尺寸大的特徵到高層尺寸小的特徵之間的距離，讓特徵融合更加有效。其變化可以參考網路結構圖中紅色（原FPN特徵融合路徑）和綠色（PANet特徵融合路徑）虛線。綠色虛線所跨越的卷積層會更少。

Adaptive Feature Pooling

在FPN中，作者根據RoI的尺寸大小來決定在P2~P5的某個層上取特徵，且尺寸越大所操作的特徵越高，如下圖所示：

這篇文章的作者認為高低層特徵各有其優勢。高層特徵的視野域更大，小的RoI可以在這些特徵上獲取更豐富的上下文信息。低層特徵可以幫助大的proposal更好地定位。這裡提出的池化方法則是在所有尺度的特徵上操作，之後進行融合，如下圖所示：

Fully-connected Fusion

作者認為全連接層與全卷積的網路相比能更好地獲取尺度更大的信息，有助於區分兩個不同的實例或者一個實例的不同部位。其本質是全連接層是卷積核更大的卷積操作，因此能獲得更大的視野域。

在實現過程中，作者將RoI操作結果拉伸到28x28的尺寸，之後使用全連接操作得到784x1x1的前背景二分類結果，其中784=28x28。將該分割結果與全卷積得到的分割結果融合，即得到最終的分割結果。

COCO

PANet在COCO 2016數據集上的實例分割和物體檢測性能如下所示，其中ms-train指的是使用多尺度的輸入圖像進行訓練：

同時在COCO資料庫上作者也做了相近的對比試驗，以驗證各個模塊的有效性：

Cityscapes & MVD

作者在Cityscapes和MVD資料庫上也測試了實例分割的性能，都有不錯的效果。結果如下圖所示，其中test tricks指的是測試階段使用所尺度圖片、圖片翻轉、mask投票和box投票等：

[1] T. Lin, P. Dollar, R. B. Girshick, K. He, B. Hariharan, and S. J. Belongie. Feature pyramid networks for object detection. In CVPR, 2017.

[2] K. He, G. Gkioxari, P. Dollar, and R. B. Girshick. Mask R-CNN. In ICCV, 2017.