標籤:

論文提要「You Only Look Once: Unified, Real

項目主頁:http://pjreddie.com/darknet/yolo/

這篇文章著重在檢測的速度提升,區別於之前的方法是用分類器來做檢測,文章對bbox和對應的類概率進行回歸,檢測速度可以達到45f/s,mAP與原始的R-CNN差不多。

出現原因: CNN在分類上已經可以達到實時,而在檢測上R-CNN需要幾秒的時間處理一張圖片,主要是由於proposal的提取時間需要約1~2s的時間,然後還有很多後續步驟:proposal的特徵學習,矯正bbox,消除虛警等,最好的方法需要2~40s時間處理完畢。並且R-CNN的每個檢測步驟是分離的不便整體優化。

一體化的檢測: 輸入圖像劃分為7*7的網格,如果一個物體的中心落在某個格子內,則對應的格子負責檢測該物體。每個網格預測一個bbox和對應的類概率,系統流程如下:

系統使用cnn實現並在VOC上測試,初始卷積層從圖像中提取特徵,全連接層預測概率和坐標。網路框架與GoogleNet類似,擁有24個卷積層和2個全連接層,網路如下圖所示,最終的輸出是對7*7網格的預測,每個網格預測20類的概率和坐標。

網路訓練: 使用ImageNet進行初始訓練,使用圖3中的前20層加一個maxpooling層及兩個全連接層進行訓練,1星期訓練得到top-5error為86%。由於檢測需要更為精細的信息,作者將網路輸入由224*224調整至448*448.

網路的最後一層預測類概率和bbox,在最後一層使用邏輯激活函數,其他層使用leaky ReLU:

網路輸出使用平方和誤差,並引入尺度因子λ 對類概率和bbox的誤差進行加權,同時為了反映出偏離在大的bbox中的影響比較小,文章使用bbox寬高的平方根,最終的損失函數是:

為了避免過擬合,作者使用了dropout和數據增加。

參數化類概率: 49個網格給出20類的概率,一幅圖像產生980個預測的概率,大部分概率為0。這會導致訓練離散,作者引入了一個變數解決這個問題:即某位置是否有物體存在的概率。因此除了20個類概率還有一個「objectness」概率Pr(Object),則某位置每一類的非條件概率為Pr(Object)與條件概率的乘積; Pr(Dog) = Pr(Object)*Pr(Dog|Object) 在每個位置都對Pr(Object)進行更新,而只在有物體存在時才對Pr(Dog|Object)更新。

YOLO的限制: 由於YOLO具有極強的空間限制,它限制了模型在鄰近物體上的預測,如果兩個物體出現在同一個cell中,模型只能預測一個物體,所以在小物體檢測上會出問題。另外模型對訓練數據中不包含的物體或具有異常長寬比的物體擴展不是太好。loss函數對大小bbox採取相同的error也是個問題。

實驗結果: 在voc2012上的實驗結果對比如下,YOLO在不基於R-CNN的方法中mAP最高,但比state-of-art低。

YOLO的速度提升比較明顯,在voc2007上的實驗結果對比如下:


推薦閱讀:

2018論文查重 最新的降低重複率的辦法
張廈靜論文
如何避開查重系統,降低重複率
如何撰寫綜述性論文
你選擇的文獻的水平,決定了你的論文質量!

TAG:論文 | Look |