[CVPR2018筆記]An Analysis of Scale Invariance in Object Detection – SNIP

05-08

CVPR 2018 ORAL

如下圖，文章主要解決網路處理不同scale圖片的網路策略

讀圖中配字，理解文章針對的問題

圖二

圖三

如上面兩個圖示，三種網路的訓練方式和效果一目了然。

結論是：當我們要檢測小的問題的時候，在輸入是大的scale的網路上預訓練、在高解析度作為輸入的網路上預訓練、在upsample後的圖片作為輸入的網路上預訓練，對檢測小物體有益。

第4部分講了用了 DeformableRFCN模型

第5部分主要討論了在不同解析度下訓練，在同樣的高解析度test的結果及其分析：

1，在中解析度下訓練的模型比在高解析度下訓練的模型效果差，原因很簡單，因為後者訓練測試的解析度相同，但並沒有拉開很大的差距，為什麼呢？因為中高scale的object被變得太大以致不能被檢測到

2，作者隨後在高解析度下訓練了只針對80pixel下Object檢測的模型，但結果比在中解析度下的效果差了很多，為什麼呢？因為忽視中高scale的Object對訓練影響非常大

3，作者又用多解析度訓練模型（MST），但仍因為過小或過大的Object影響，效果仍不理想。

Scale Normalization for Image Pyramids

第6部分，作者提出了最終的模型（=_=）

該模型的輸入解析度最低480*800，最高1400*2000，對於訓練中過大或者過小scale的Object，模型選擇直接忽略，訓練只針對在scale的一個範圍內的Object。

後面就是訓練細節和trick，詳情可以翻看論文