CVPR2016目標檢測之識別效率篇:YOLO, G
1.YOLO: You Only Look Once:Unified, Real-Time Object Detection
YOLO是一個可以一次性預測多個Box位置和類別的卷積神經網路,能夠實現端到端的目標檢測和識別,其最大的優勢就是速度快。事實上,目標檢測的本質就是回歸,因此一個實現回歸功能的CNN並不需要複雜的設計過程。YOLO沒有選擇滑窗或提取proposal的方式訓練網路,而是直接選用整圖訓練模型。這樣做的好處在於可以更好的區分目標和背景區域,相比之下,採用proposal訓練方式的Fast-R-CNN常常把背景區域誤檢為特定目標。當然,YOLO在提升檢測速度的同時犧牲了一些精度。下圖所示是YOLO檢測系統流程:1.將圖像Resize到448*448;2.運行CNN;3.非極大抑制優化檢測結果。有興趣的童鞋可以按照http://pjreddie.com/darknet/install/的說明安裝測試一下YOLO的scoring流程,非常容易上手。接下來將重點介紹YOLO的原理。
1.1 一體化檢測方案
YOLO的設計理念遵循端到端訓練和實時檢測。YOLO將輸入圖像劃分為S*S個網路,如果一個物體的中心落在某網格(cell)內,則相應網格負責檢測該物體。在訓練和測試時,每個網路預測B個bounding boxes,每個bounding box對應5個預測參數,即bounding box的中心點坐標(x,y),寬高(w,h),和置信度評分。這裡的置信度評分(Pr(Object)*IOU(pred|truth))綜合反映基於當前模型bounding box內存在目標的可能性Pr(Object)和bounding box預測目標位置的準確性IOU(pred|truth)。如果bouding box內不存在物體,則Pr(Object)=0。如果存在物體,則根據預測的bounding box和真實的bounding box計算IOU,同時會預測存在物體的情況下該物體屬於某一類的後驗概率Pr(Class_i|Object)。假定一共有C類物體,那麼每一個網格只預測一次C類物體的條件類概率Pr(Class_i|Object), i=1,2,...,C;每一個網格預測B個bounding box的位置。即這B個bounding box共享一套條件類概率Pr(Class_i|Object), i=1,2,...,C。基於計算得到的Pr(Class_i|Object),在測試時可以計算某個bounding box類相關置信度:Pr(Class_i|Object)*Pr(Object)*IOU(pred|truth)=Pr(Class_i)*IOU(pred|truth)。如果將輸入圖像劃分為7*7網格(S=7),每個網格預測2個bounding box (B=2),有20類待檢測的目標(C=20),則相當於最終預測一個長度為S*S*(B*5+C)=7*7*30的向量,從而完成檢測+識別任務,整個流程可以通過下圖理解。
1.1.1 網路設計
YOLO網路設計遵循了GoogleNet的思想,但與之有所區別。YOLO使用了24個級聯的卷積(conv)層和2個全連接(fc)層,其中conv層包括3*3和1*1兩種Kernel,最後一個fc層即YOLO網路的輸出,長度為S*S*(B*5+C)=7*7*30.此外,作者還設計了一個簡化版的YOLO-small網路,包括9個級聯的conv層和2個fc層,由於conv層的數量少了很多,因此YOLO-small速度比YOLO快很多。如下圖所示我們給出了YOLO網路的架構。
1.1.2 訓練
作者訓練YOLO網路是分步驟進行的:首先,作者從上圖網路中取出前20個conv層,然後自己添加了一個average pooling層和一個fc層,用1000類的ImageNet數據與訓練。在ImageNet2012上用224*224d的圖像訓練後得到的top5準確率是88%。然後,作者在20個預訓練好的conv層後添加了4個新的conv層和2個fc層,並採用隨即參數初始化這些新添加的層,在fine-tune新層時,作者選用448*448圖像訓練。最後一個fc層可以預測物體屬於不同類的概率和bounding box中心點坐標x,y和寬高w,h。Boundingbox的寬高是相對於圖像寬高歸一化後得到的,Bounding box的中心位置坐標是相對於某一個網格的位置坐標進行過歸一化,因此x,y,w,h均介於0到1之間。
在設計Loss函數時,有兩個主要的問題:1.對於最後一層長度為7*7*30長度預測結果,計算預測loss通常會選用平方和誤差。然而這種Loss函數的位置誤差和分類誤差是1:1的關係。2.整個圖有7*7個網格,大多數網格實際不包含物體(當物體的中心位於網格內才算包含物體),如果只計算Pr(Class_i),很多網格的分類概率為0,網格loss呈現出稀疏矩陣的特性,使得Loss收斂效果變差,模型不穩定。為了解決上述問題,作者採用了一系列方案:
1.增加bounding box坐標預測的loss權重,降低bounding box分類的loss權重。坐標預測和分類預測的權重分別是λcoord=5,λnoobj=0.5.
2.平方和誤差對於大和小的bounding box的權重是相同的,作者為了降低不同大小bounding box寬高預測的方差,採用了平方根形式計算寬高預測loss,即sqrt(w)和sqrt(h)。
訓練Loss組成形式較為複雜,這裡不作列舉,如有興趣可以參考作者原文慢慢理解體會。
1.1.3 測試
作者選用PASAL VOC圖像測試訓練得到的YOLO網路,每幅圖會預測得到98個(7*7*2)個bouding box及相應的類概率。通常一個cell可以直接預測出一個物體對應的bounding box,但是對於某些尺寸較大或靠近圖像邊界的物體,需要多個網格預測的結果通過非極大抑制處理生成。雖然YOLO對於非極大抑制的依賴不及R-CNN和DPM,但非極大抑制確實可以將mAP提高2到3個點。
1.2 方法對比
作者將YOLO目標檢測與識別方法與其他幾種經典方案進行比較可知:
DPM(Deformable parts models): DPM是一種基於滑窗方式的目標檢測方法,基本流程包括幾個獨立的環節:特徵提取,區域劃分,基於高分值區域預測bounding box。YOLO採用端到端的訓練方式,將特徵提取、候選框預測,非極大抑制及目標識別連接在一起,實現了更快更準的檢測模型。
R-CNN:R-CNN方案分需要先用SeletiveSearch方法提取proposal,然後用CNN進行特徵提取,最後用SVM訓練分類器。如此方案,誠繁瑣也!YOLO精髓思想與其類似,但是通過共享卷積特徵的方式提取proposal和目標識別。另外,YOLO用網格對proposal進行空間約束,避免在一些區域重複提取Proposal,相較於SeletiveSearch提取2000個proposal進行R-CNN訓練,YOLO只需要提取98個proposal,這樣訓練和測試速度怎能不快?
Fast-R-CNN、Faster-R-CNN、Fast-DPM: Fast-R-CNN和Faster-R-CNN分別替換了SVMs訓練和SelectiveSeach提取proposal的方式,在一定程度上加速了訓練和測試速度,但其速度依然無法和YOLO相比。同理,將DPM優化在GPU上實現也無出YOLO之右。
1.3 實驗
1.3.1 實時檢測識別系統對比
1.3.2 VOC2007準確率比較
1.3.3 Fast-R-CNN和YOLO錯誤分析
如圖所示,不同區域分別表示不同的指標:
Correct:正確檢測和識別的比例,即分類正確且IOU>0.5
Localization:分類正確,但0.1<IOU<0.5
Similar:類別相似,IOU>0.1
Other:分類錯誤,IOU>0.1
Background: 對於任何目標IOU<0.1
可以看出,YOLO在定位目標位置時準確度不及Fast-R-CNN。YOLO的error中,目標定位錯誤佔據的比例最大,比Fast-R-CNN高出了10個點。但是,YOLO在定位識別背景時準確率更高,可以看出Fast-R-CNN假陽性很高(Background=13.6%,即認為某個框是目標,但是實際裡面不含任何物體)。
1.3.4 VOC2012準確率比較
由於YOLO在目標檢測和識別是處理背景部分優勢更明顯,因此作者設計了Fast-R-CNN+YOLO檢測識別模式,即先用R-CNN提取得到一組bounding box,然後用YOLO處理圖像也得到一組bounding box。對比這兩組bounding box是否基本一致,如果一致就用YOLO計算得到的概率對目標分類,最終的bouding box的區域選取二者的相交區域。Fast-R-CNN的最高準確率可以達到71.8%,採用Fast-R-CNN+YOLO可以將準確率提升至75.0%。這種準確率的提升是基於YOLO在測試端出錯的情況不同於Fast-R-CNN。雖然Fast-R-CNN_YOLO提升了準確率,但是相應的檢測識別速度大大降低,因此導致其無法實時檢測。
使用VOC2012測試不同演算法的mean Average Precision,YOLO的mAP=57.9%,該數值與基於VGG16的RCNN檢測演算法準確率相當。對於不同大小圖像的測試效果進行研究,作者發現:YOLO在檢測小目標時準確率比R-CNN低大約8~10%,在檢測大目標是準確率高於R-CNN。採用Fast-R-CNN+YOLO的方式準確率最高,比Fast-R-CNN的準確率高了2.3%。
1.4 總結
YOLO是一種支持端到端訓練和測試的卷積神經網路,在保證一定準確率的前提下能圖像中多目標的檢測與識別。
[1] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection. In CVPR 2016
[2] Najibi M, Rastegari M, Davis L S. G-CNN: an Iterative Grid Based Object Detector. In CVPR 2016
[3] Gidaris S, Komodakis N. LocNet: Improving Localization Accuracy for Object Detection. In CVPR 2016
推薦閱讀:
※Action Reconition CVPR 2017
※python下載CVPR2017全套paper
※[CVPR2018筆記]Im2Flow: Motion Hallucination from Static Images for Action Recognition
※[CVPR2018筆記]An Analysis of Scale Invariance in Object Detection – SNIP
※看到了CVPR 2018 accepted paper list,大家有什麼想說的?