【Rotation探索】PCN/DRBox/textboxes++
來自專欄 Study of Object Detection and Tracking
今天來關注一個主題:Rotatable bbox。通常,像faster rcnn、ssd、yolo這類detector的輸出是classification和bounding box。而bbox則僅僅是xmin,ymin,xmax,ymax來描述,實際上bbox還有一個信息angle一直不受重視。當然,也有一些做angle的paper,下面就做一些介紹,希望能拋磚引玉。
- PCN
級聯檢測系列,與mtcnn的區別就在於由關鍵點檢測變為了角度校準。角度校準很巧妙地利用了級聯特性,採用了逐級校準人臉的旋轉角度的方法。第一級:上下翻轉校準, 第二級:左右翻轉校準, 第三級:角度校準。
效果還不錯,角度也還是蠻準的,可惜的是級聯網路的速度對人數太不魯棒。
github:Jack-CV/PCNgithub:
Jack-CV/PCN- DRBox
這篇文章做了一個Rotatable Bounding Box Regression的嘗試,並且在衛星圖像上進行了實驗,效果還是不錯的。
與PCN類似,DRBox其實就是bounding box regression和angle regression。對於bbox regression的目標是d(x),d(y),d(w),d(h),所以,論文作者定義angle regression的目標是d(angle),如下:
github:
liulei01/DRBox- textboxes++
testboxes++則直接回歸minimum horizontal bounding rectangles和rotated rectangles,直白的說target就是四個點。如下圖中的黃色四邊形的四個頂點。
若 b0 = (x0, y0,w0,h0) 表示 a horizontal default box(x0, y0是center point),那麼,定義:
它們之間的關係如下:
textboxes++輸出的是classification和offset,分別如下:
那麼:
github:
MhLiao/TextBoxes_plusplus- 小節
PCN:精度應該會高一些,因為有一個校準過程;缺陷也很明顯,速度受人數影響;
DRBox與textBoxes++相比較,DRBox的方式,可擴展性更強。
推薦閱讀:
TAG:目標檢測 | 深度學習DeepLearning | 計算機視覺 |