[CVPR2018筆記]An Analysis of Scale Invariance in Object Detection – SNIP

CVPR 2018 ORAL

如下圖,文章主要解決網路處理不同scale圖片的網路策略

讀圖中配字,理解文章針對的問題

圖二

圖三

如上面兩個圖示,三種網路的訓練方式和效果一目了然。

結論是:當我們要檢測小的問題的時候,在輸入是大的scale的網路上預訓練、在高解析度作為輸入的網路上預訓練、在upsample後的圖片作為輸入的網路上預訓練,對檢測小物體有益。

第4部分講了用了 DeformableRFCN模型

第5部分主要討論了在不同解析度下訓練,在同樣的高解析度test的結果及其分析:

1,在中解析度下訓練的模型比在高解析度下訓練的模型效果差,原因很簡單,因為後者訓練測試的解析度相同,但並沒有拉開很大的差距,為什麼呢? 因為中高scale的object被變得太大以致不能被檢測到

2,作者隨後在高解析度下訓練了只針對80pixel下Object檢測的模型,但結果比在中解析度下的效果差了很多,為什麼呢?因為忽視中高scale的Object對訓練影響非常大

3,作者又用多解析度訓練模型(MST),但仍因為過小或過大的Object影響,效果仍不理想。

Scale Normalization for Image Pyramids

第6部分,作者提出了最終的模型(=_=)

該模型的輸入解析度最低480*800,最高1400*2000,對於訓練中過大或者過小scale的Object,模型選擇直接忽略,訓練只針對在scale的一個範圍內的Object。

後面就是訓練細節和trick,詳情可以翻看論文

推薦閱讀:

[CVPR2018筆記]Squeeze-and-Excitation Networks
CVPR2018: 基於時空模型無監督遷移學習的行人重識別
首發——Large Margin Object Tracking with Circulant Feature Maps
CVPR—II | 經典網路再現,全內容跟蹤
看到了CVPR 2018 accepted paper list,大家有什麼想說的?

TAG:CVPR | 計算機視覺 |