[CVPR2018筆記]An Analysis of Scale Invariance in Object Detection – SNIP
CVPR 2018 ORAL
如下圖,文章主要解決網路處理不同scale圖片的網路策略
如上面兩個圖示,三種網路的訓練方式和效果一目了然。
結論是:當我們要檢測小的問題的時候,在輸入是大的scale的網路上預訓練、在高解析度作為輸入的網路上預訓練、在upsample後的圖片作為輸入的網路上預訓練,對檢測小物體有益。
第4部分講了用了 DeformableRFCN模型
第5部分主要討論了在不同解析度下訓練,在同樣的高解析度test的結果及其分析:
1,在中解析度下訓練的模型比在高解析度下訓練的模型效果差,原因很簡單,因為後者訓練測試的解析度相同,但並沒有拉開很大的差距,為什麼呢? 因為中高scale的object被變得太大以致不能被檢測到
2,作者隨後在高解析度下訓練了只針對80pixel下Object檢測的模型,但結果比在中解析度下的效果差了很多,為什麼呢?因為忽視中高scale的Object對訓練影響非常大
3,作者又用多解析度訓練模型(MST),但仍因為過小或過大的Object影響,效果仍不理想。
Scale Normalization for Image Pyramids
第6部分,作者提出了最終的模型(=_=)
該模型的輸入解析度最低480*800,最高1400*2000,對於訓練中過大或者過小scale的Object,模型選擇直接忽略,訓練只針對在scale的一個範圍內的Object。
後面就是訓練細節和trick,詳情可以翻看論文
推薦閱讀:
※[CVPR2018筆記]Squeeze-and-Excitation Networks
※CVPR2018: 基於時空模型無監督遷移學習的行人重識別
※首發——Large Margin Object Tracking with Circulant Feature Maps
※CVPR—II | 經典網路再現,全內容跟蹤
※看到了CVPR 2018 accepted paper list,大家有什麼想說的?