卷積神經網路可以用於小目標檢測嗎？

01-05

cnn在目標檢測領域已經有了飛速的發展，據我了解，它更多的是檢測出圖像中較大的目標。然而我現在的課題需要檢測出天空中的飛機、無人機、飛鳥等物體，由於本身距離較遠，這些物體在圖像中可能只佔有20-30個像素（甚至更低，這裡指的是一個方向上的尺度，比如水平方向或者垂直方向），請問現在有沒有有效的演算法能夠檢測出這些小目標的具體位置呢？
當然，如果有深度學習以外的合適的演算法，也不吝賜教。

你把圖放大一倍，它就不是小物體了啊

瀉藥。題主現在的問題是在天空背景下的目標檢測，背景相對簡單，物體比較小。如果沒有遮擋的話可以試試傳統boosting，超像素分割等類似的方法，沒有必要一開始就deep。

大目標小目標只跟receptive field有關，cnn本身可以檢測任何尺度的物體。

天空這麼乾淨的背景下，其實隨便上個演算法都行吧，例如hog+svm(任意線性分類器)我覺得就足夠了。

為什麼只跟receptive field有關請參見評論。

其實，題主的任務較為簡單，並不適合用那些龐大的模型，反而關注點應該放在如何利用少量數據來實現更多的invariance，尤其是旋轉不變性，可以考慮stn[1]或者deepmind icml16的那篇在中間層做augment的方法[2]。

[1] stn：http://arxiv.org/abs/1506.02025

[2] cyclic symmetry：http://arxiv.org/abs/1602.02660

題主的目標似乎都是moving object, 從另外一個角度，如果能基於video進行檢測，可以考慮moving object detection的方法。近些年頂會上也有相關文章，比如

Learning to Segment Moving Objects in Videos。

二三十個像素也不算太小了。

Combining deep features for object detection at various scales: finding small birds in landscape images

導師前幾天發給我的，CNN和FCN檢測小鳥。雖然我不是搞這塊的，也不清楚為什麼導師發給我這個，但我覺得這可能是題主要的。

我目前的工作內容也是CNN進行目標檢測。任務目標主要是在嵌入式設備上做到實時。

1. 如果你課題目標不在意實時性或者可以用GPU，二十到三十像素的目標檢測用CNN是沒有問題的，稍微有點勉強。再小點，說實話你換什麼方法也不會太好了。

2. 如果本身課題的時間緊或者不是你需要深入的，CNN是沒問題的。你自己設計feature的話這課題你要玩到哪一年？無底坑，也沒什麼意思。

3. Cascade也是可選項，前提是目標類型單一。或者不單一的話，你訓練多個Cascade。天空中識別飛行器一類的算是識別難度不算大的，畢竟背景單一。

4. 如果沒有GPU的話，優先Cascade。

faster rcnn和 semantic segmentation的論文。

是否可以這樣想：類似於人腦機制，當目標物體較大時，人可以識別該物體。若在此基礎上，不斷縮小目標物體，人依舊能識別該目標。是否可以說，在目標較大時，人腦已經記憶（存儲）了目標物體的主要信息（特徵），而這些信息，並不因為尺度的變化而大幅度改變，因此人能夠識別。

另外，在目標實在特別小的時候，如果不藉助於其他一些先驗信息，人也是很難識別該目標的吧（疑問？），所以，放大目標可能是比較可取的方法。

雖然我很鄙視sailency，但這裡我覺得可以用來試試。另外，有人說boosting，我覺得這個問題不適用，畢竟像素太小，又加了旋轉。

樓主現在找到合適的演算法了嗎？

我也在搞無人機和衛星中車輛的檢測，如果有較好的演算法，可以一起共享下！

或者好用的論文！

最近在做羽毛球(小目標)檢測，YOLO的效果很好。題主可以試試增加YOLO回歸網格的方法看看效果如何。

請問樓主前輩這一問題是如何解決的，現在面臨類似的問題不知所措

題主所說的背景很簡單，可以考慮用cascade，最初的cascade是2001年violajones的人臉檢測器，應用很廣，變體很多，也很成熟。現在也有一些將其與CNN結合的工作。你可以系統的研究一下。

深度學習網路用到視頻跟蹤中，訓練好的網路分類，輸入的一幅圖片要化成不同的塊輸入網路，找出最匹配的的塊是不是這樣的思想？

歡迎參加本周四晚免費線上分享

深度學習在智能駕駛中的應用，同濟大學管林挺博士將從目標檢測，語義分割和強化學習來分析。

https://zhuanlan.zhihu.com/p/23840528