標籤:

【CV論文閱讀】YOLO:Unified, Real

YOLO的一大特點就是快,在處理上可以達到完全的實時。原因在於它整個檢測方法非常的簡潔,使用回歸的方法,直接在原圖上進行目標檢測與定位。

多任務檢測:

網路把目標檢測與定位統一到一個深度網路中,而且可以同時在原圖上檢測多個物體。步驟總結如下:

(1)把圖片分割成S*S個方格,假如某個物體的中點落在其中一個方格,那麼這個方格就對這個物體負責。這裡說的物體的中點應該是指ground truth box中的物體的中心。

(2)對於每個格子,預測B個bounding box以及相應的confidence。Bounding box 的如何選擇讓我思考了一番,回憶起faster cnn中,在網路上預測bounding box會有比例與大小,但這裡不需要,因為faster cnn中的box的選擇其實算是regoin proposal的一部分,而在YOLO這個box直接通過回歸方程計算出來的。在這裡,confidence的計算包含兩個部分:

,當格子中沒有物體,則Pr(Object) = 0,否則等於1。可以從式子中看到,它包含了是否存在物體以及預測的精確度兩個方面的信息。除此以外,對於bounding box會有四個坐標即x、y、w、h。

(3)對於每個含有物體的格子預測C個類別的概率信息,而且每個格子還要預測B個box,這樣最後會得到S*S*(B*5+C)的張量。

以上是根據ground truth box訓練的部分。

(4)在test的時候,預測到了S*S*(B*5+C)的張量,把類別概率與confidence相乘,

就得到每個bounding box 的class – specific confidence分數

(5)根據以上得到的分數設置閾值進行過濾,然後執行NMS處理,得到最終檢測結果。

網路結構:

網路結構與GoogLeNet非常相似,都使用了1*1的卷積核壓縮信息,構造更加非線性的抽象特徵,因為這相當於多層感知機的作用。論文中截圖的結構,從通道數來看,中間應該缺少了一些卷積層。

一些細節問題:

預訓練:使用imageNet預訓練,網路結構是前20層網路加上一個平均池化層和一個全連接層。

預測:由於預測需要更加精細的像素,所以把輸入擴展成448*448,並且增加了四個卷積層和兩個全連接層。在最後一層預測中,需要預測概率和bounding box,這裡把bounding box的預測歸一化成0到1。

激活函數:最後一層的激活函數使用線性激活函數,而其他層使用leaky ReLU的激活函數:

誤差傳播:誤差的計算採用簡單的平方和誤差函數。但是,從網路結構可以知道,預測概率的維數比預測bounding box的維數要高,而且,在圖片中大多的格子是沒有物體的,這會使得它們的confidence趨於0。它們的貢獻過大,會使得網路無法收斂。

論文採用一個辦法就是加權,賦予不同的權值,對於預測bounding box的

,而對於沒有object的格子的誤差賦予權值

。同時,對於大的box的小誤差肯定要比小box的小誤差影響更小,於是,採用對w,h,x,y取平方根的做法,因為平方根函數的圖像隨著x的增大會變得平緩。

此外(這裡還沒搞得太明白),一個網格可能會預測多個box,希望每個box負責專門的object的預測。方法是,對於一個物體的truth box,看哪個bounding box的IOU更大,就讓它負責這個box。我估計這個負責的分配會隨著每次的網路的更新會動態的改變選擇。前提是,object的中心要落在那個格子裡面,於是公式為:

其中

對應格子i如果有物體,那相應的bounding box j負責這個物體的預測。

表示格子i中是否有物體。

訓練方法:使用隨機梯度下降法,以及dropout的方法。

缺點:

(1)對於靠近的物體,還有很小的群體預測不好。這是因為格子預測的框屬於一類的,而且往往格子較大,不能精細。

(2)對於不尋常的長寬比的物體,泛化能力偏弱

(3)誤差函數影響定位的精確性。


推薦閱讀:

論文文獻搜索整理的技巧
論文:十一酸睾酮膠丸聯合他達拉菲片治療遲髮型性腺功能減退症療效-中大網校臨床醫學論文網
論文摘要和引言的寫法
論文:美蘇冷戰的特點
專家觀點:近視患者使用角膜塑形鏡後眼部、療效等臨床研究觀察

TAG:論文 | 閱讀 |