Receptive Field Block論文筆記

09-08

摘要：論文模擬人類的視覺系統，考慮了不同尺度的感受野來提升特徵的多樣性，並且將RFB應用到SSD中。

主要貢獻：

1、模擬人類視覺系統去採用不同size的感受野來提升輕量級網路的特徵多樣性。

2、採用RFB去替代SSD的淺層網路，效果提升的同事計算量沒有增加多少。

3、在VOC和COCO數據集上達到高準確率的同事保持相對實時速度，並且在

mobilenet上證明了RFB的通用性。

1、Receptive Field Block

RFB是一個多分支的block，主要包括兩個部分：多分支的帶有不同size的kernel的卷積+不同rate的膨脹卷積。前者模仿的是inception，後者是仿照人類的視覺系統。

1.1 Multi-branch convolution layer

多分支卷積採用的是Inception V4 和 Inception-ResNet V2 里的最新結構，即採用在每個分支的bottleneck結構後加入1x1卷積降維然後跟上一個nxn的卷積層。

1.2 Dilated pooling or convolution layer

膨脹卷積的idea來自於Deeplab，目的是生成更大解析度圖像的同時增大感受野。具體結構如下圖。

2、RFB Net Detection Architecture

在SSD的基礎上，作者加入了RFB的結構，在conv4_3、conv7_fc後分類與回歸分支加入RFBS，同時將SSD中後加的卷積替換成RFB。

3、實驗結果