從CVPR2017 看多樣目標檢測
作者: BookThief
原文鏈接:https://www.jianshu.com/p/78f614799cf2查看更多的專業文章,請移步至「人工智慧LeadAI」公眾號,查看更多的課程信息和產品信息,請移步至全新打造呈現的官網:www.leadai.org.
When you have trouble with object detection, keep calm and use deep learning.
這句話是作者自己抖機靈的話,如果說 deep learning 已經攻陷計算機視覺這個領域的話,Object Detection可以說是受災最嚴重的區域了。不管是基於region proposal的RCNN系列,還是 end-to-end 的YOLO系列,基於深度學習的方法已經完勝手工特徵方法。
Object Detection 這塊眾多博士科研工作者和大批公司關注的「硬骨頭」 是否已經黔驢技窮,無從下手? 當然不是,而且,從近幾年的趨勢來看,如果你想「一文驚人」,抑或得到Best Paper Award,Object Detection是最佳方向(從RestNet 到 DenseNet 再到前幾天ICCV kaimingHe雙best paper)。
同時,近兩年一個更明顯的特點,最吸引人的Object Detection方法都是:
Simple Clean But Effective
這些方法都是基於網路結構很簡單的思想,基本結構都是:
- Skip Connection (RestNet, DenseNet)
- Joint Multi Feature Map (R-FCN, FPN)
關於目標檢測的發展(傳統方法-RCNN系列-YOLO系列)以及目標檢測的一些經常使用的術語(IOU, NMS, BBOX回歸, MAP)可以見我另一篇博客(https://www.jianshu.com/p/e6496a764b51)。
2、從CVPR2016看Object Detection發展
a、檢測精度(「又准」)
檢測精度是目標檢測任務最初始也是最重要的指標,如何提高方法檢測精度指標MAP,是各種方法比較的最基本的指標。這也是深度方法完勝手工方法的地方。
CVPR2016代表性工作有:ResNet, ION, HyperNet.
b、檢測效率(「又快」)
網路的時間開銷,如何提高檢測速度,實現又快又好地檢測。
YOLO:這個工作在識別效率方面優勢十分明顯。
c、定位精度(「又好」)
如何產生更準確的Boundbox?如何逐步提高評價參數IOU(voc數據集,這個值為0.5)?
代表工作LocNet: 拋棄Boundbox回歸,使用概率模型。
總結:總最初始最基本的檢測指標 檢測精度MAP,到如何減少時間開銷,再到一個更準確的bbox。側面反映了目標檢測的不斷發展: 又准(檢測精度)又快(檢測效率)又好(定位精度)
3、從CVPR2017看多樣的目標檢測
從CVPR2017 論文list看,新的目標檢測論文已經不再拘泥於ImageNet,VOC,CoCo數據集了,也不再拘泥於前面的檢測精度,檢測效率,以及定位精度了(當然這方面也有很多文章)。大家的目光開始轉向一個特定環境特點條件下特定目標的檢測(最大的特點是有很多這些特點目標的數據集文章出現)。目標檢測呈現出百花齊放的景象。
1、object action detection
特定行為特定動作的檢測,「一個人在刷牙」不是檢測出「人」和「牙刷」,而是「刷牙「這個動作。
CVPR2017相關文章:
- Temporal Convolutional Networks for Action Segmentation and Detection ;
- Predictive-Corrective Networks for Action Detection;
- SCC: Semantic Context Cascade for Efficient Action Detection ;
- UntrimmedNets for Weakly Supervised Action Recognition and Detection
2、video object detection
基於視頻的目標檢測,傳統目標檢測都是基於靜態圖片的,基於視頻的目標檢測有很多不同點,大部分都是和跟蹤演算法想結合的。
CVPR2017相關文章:
- Object Detection in Videos With Tubelet Proposal Networks ;
- YouTube-BoundingBoxes: A Large High-Precision Data Set for Object Detection in Video;
- Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection From Videos;
3、3D object detection
自然環境下的目標檢測如何轉換到3D空間下。
CVPR2017相關文章:
- Visual-Inertial-Semantic Scene Representation for 3D Object Detection;
- Multi-View 3D Object Detection Network for Autonomous Driving;
- Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes From 2D Ones in RGB-Depth Images
4、text detection
圖像里文字的檢測和識別。
CVPR2017相關文章:
- Deep Matching Prior Network: Toward Tighter Multi-Oriented Text Detection;
- End-To-End Concept Word Detection for Video Captioning, Retrieval, and Question Answering
5、rail detection
檢測出圖像中的雨,並且去除得到去雨的照片。(記得之前有一篇去霧的)
CVPR2017相關文章:
- Deep Joint Rain Detection and Removal From a Single Image
6、line detection
圖片裡邊緣線段的檢測。
CVPR2017相關文章:
- MCMLSD: A Dynamic Programming Approach to Line Segment Detection
7、pedestrain detection
行人檢測一直是一個重要的topic,當然也少不了。
CVPR2017相關文章:
- What Can Help Pedestrian Detection?;
- CityPersons: A Diverse Dataset for Pedestrian Detection;
- Learning Cross-Modal Deep Representations for Robust Pedestrian Detection
8、moving object detection
移動物體檢測不同於基於視頻的目標檢測,移動物體一般都是移動速度很快的物體(汽車,摩托,飛機,動物等等)。
CVPR2017相關文章:
- Minimum Delay Moving Object Detection
9、facial landmark detection
人臉關鍵點檢測也是一個一直很火熱的話題。
CVPR2017相關文章:
- A Dee Regression Architecture With Two-Stage Re-Initialization for High Performance Facial Landmark Detection;
- Simultaneous Facial Landmark Detection, Pose and Deformation Estimation Under Facial Occlusion;
- Interspecies Knowledge Transfer for Facial Keypoint Detection
10、small object detection
小目標檢測一直是目標檢測任務的一個難點,這一篇是小交通標誌檢測。
- Perceptual Generative Adversarial Networks for Small Object Detection
feature pyramid networks for object detection 閱讀
1、introduction
小目標檢測和尺度變化比較大的目標檢測一直是目標檢測任務的一大難點。
特徵金字塔一直是傳統方法應對這一難點最常用的方法。
但是對於深度學習:費時費力。
如何設計適合深度學習的特徵金字塔?
2、some DL feature pyramid
(a) 用圖片金字塔生成特徵金字塔
(b) 只在特徵最上層預測(c) 特徵層分層預測(d) FPN從高層攜帶信息傳給底層,再分層預測
各自特點:
(a).運算耗時會增加4倍,訓練深度網路的時候太吃顯存;
(b).前後層之間由於不同深度(depths)影響,語義信息差距太大;(c).SSD就是這樣的形式,但是對於高解析度的底層特徵沒有再利用,而這些層對於檢測小目標很重要;(d).把低解析度、高語義信息的高層特徵和高解析度、低語義信息的低層特徵進行自上而下的側邊連接,使得所有尺度下的特徵都有豐富的語義信息.3、bottom-up pathway
- 自底向上的過程就是神經網路普通的正向傳播;
- 特徵圖經過卷積核計算,通常是越變越小的;
- same network stage:feature map大小相同的地方,只抽取最上層;
- 逐層抽取特徵;
- ResNets的卷積層,分為了{C1_x,C2_x,C3_x,C4_x,C5_x}用了 C2,C3,C4,C5 最後的 feature map;
4、top-down pathway and lateral connections
迭代最開始時:C5 + 1 * 1的卷積核-->最粗略的特徵圖(P5)
高層特徵做2倍上採樣-->與下一層同樣大小的 featuremap
低層特徵+1*1卷積,改變channel數-->與前一層相同channel特徵圖
上下相同channel 相同大小的特徵圖,像素間加法-->融合後的特徵圖 (C4->C4』)
3 * 3的卷積核處理已經融合的特徵圖-->消除混疊效應(C4->P4)
不斷迭代,前面抽取的C2,C3,C4,C5,各自對應融合的特徵圖{P2, P3, P4, P5}
5、why does FPN improves Features for small objects?
FPN leverages contextual information passed top-down for small objects.
FPN increses feature resolution for small objects.
對於小物體,一方面我們需要高解析度的 feature map 更多關注小區域信息,另一方面,如圖中的足球一樣,需要更全局的信息更準確判斷足球的存在及位置。(這是作者在poster上的解釋,poster那張圖太模糊了,就借用習大大的照片了)
推薦閱讀:
※簡單自編碼器實現zero-shot learning (CVPR 2017)--論文筆記
※首發——Large Margin Object Tracking with Circulant Feature Maps
※Action Reconition CVPR 2017
※多風格生成網路——實時風格轉換
TAG:CVPR |