CVPR 2018 | 曠視科技Face++提出RepLoss,優化解決密集遮擋問題
全球計算機視覺頂會 CVPR 2018 (Conference on Computer Vision and Pattern Recognition,即 IEEE 國際計算機視覺與模式識別會議)將於6月18日至22日在美國鹽湖城舉行。作為大會鑽石贊助商,曠視科技Face++研究院也將在孫劍博士的帶領下重磅出席此次盛會。而在盛會召開之前,曠視將針對 CVPR 2018 收錄論文集中進行系列解讀。本次第 3 篇主題是可優化解決人群密集遮擋問題的 RepLoss,已有解讀請見文末。
論文鏈接:https://arxiv.org/abs/1711.07752
目錄
- 導語
- RepLoss設計思想
- 密集遮擋的影響
- RepLoss計算方法
- 吸引項
- 排斥項(RepGT)
- 排斥項(RepBox)
- RepLoss實驗結果
- 結論
- 參考文獻
導語
人群檢測是計算機視覺技術發展不可繞過的關鍵一環,其中密集遮擋(crowd occlusion)問題是最具挑戰性的問題之一。曠視科技Face++從技術底層的層面提出一種全新的人群檢測定位模型 Repulsion Loss(RepLoss),在相當程度上優化解決了這一難題。底層技術創新的適用範圍異常廣泛,這意味著絕大多數與人群檢測相關的產品應用皆可實現不同程度的提升,從根本上推動安防監控、自動駕駛、無人零售、智慧城市的落地和發展。此外,人群定位技術 RepLoss 的檢測對象並不僅限於人,還可遷移泛化至一般物體檢測,其底層創新驅動力的波及範圍十分廣泛,有助於機器之眼打造一個人、物、字、車的檢測矩陣,進一步看清楚、看明白這個世界。
RepLoss 設計思想
檢測人群之中的行人依然是一個充滿挑戰性的問題,因為在現實場景中行人經常聚集成群,相互遮擋。一般而言,物體遮擋問題可以分為類內遮擋和類間遮擋兩種情況。類間遮擋產生於扎堆的同類物體,也被稱為密集遮擋(crowd occlusion)。在行人檢測中,密集遮擋在所有遮擋問題中佔比最大,嚴重影響著行人檢測器的性能。
密集遮擋的主要影響表現在顯著增加了行人定位的難度。比如,當目標行人 T 被行人 B 遮擋之時,由於兩者外觀特徵相似,檢測器很可能無法進行定位。從而本應該框定 T 的邊界框轉而框定 B ,導致定位不準確。更糟糕的是,由於非極大值抑制(non-maximum suppression/NMS)需要進一步處理主要的檢測結果,從 T 移走的邊界框可能會被 B 的預測框抑制,進而造成 T 漏檢。即,人群遮擋使得檢測器對 NMS 閾值很敏感:較高的閾值會帶來更多的誤檢(false positives),較低的閾值則造成更多的漏檢(missed detection)。這會讓大多數實例分割框架失效,因為它們也需要精確的檢測結果。因此,如何精確地定位人群之中的每個行人是檢測器最為關鍵的問題之一。
在當前最優的檢測框架中,邊界框回歸技術常用來定位物體,其中回歸器被訓練用來縮小 proposal 和 groundtruth box 之間的差距(通過一些距離度量進行測量,比如 Smooth_L1 或者 IoU)。儘管如此,現有方法只需要 proposal 接近其指定目標,並不考慮周遭的物體。如圖 1 所示,在標準的邊界框回歸損失中,當預測框移向周遭物體時,對其並沒有額外的懲罰。這不免使人設想:如果要檢測人群之中的一個目標,是否應該考慮其周遭物體的定位?
在磁極相互排斥吸引的啟發下,本文提出一種全新的定位技術,稱之為Repulsion Loss(RepLoss),通過它,每一個 proposal 不僅會靠近其指定目標 T ,還會遠離其他 groundtruth 物體以及指定目標不是 T 的其他 proposal。如圖 1 所示,由於與周遭的非目標物體重疊,紅色邊界框移向 B 將受到額外的懲罰。因此,RepLoss 可以有效防止預測邊界框移向相鄰的重疊物體,提升檢測器在人群場景中的魯棒性。
密集遮擋的影響
本節將藉助實驗探討當前最優的行人檢測器如何受到密集遮擋(crowd occlusion)的影響,更加深入地理解密集遮擋問題。密集遮擋主要會造成兩個方面的問題,漏檢和誤檢,下面會通過兩個圖示分別作出解釋,其中基線檢測器是針對行人檢測優化的 Faster R-CNN,並使用新型行人檢測數據集 CityPersons 。
圖 3(a) 是不同檢測分值下在 reasonable-crowd 子集上的漏檢數量,紅線表示基線的 groundtruth 行人漏檢數量。在現實應用中,只考慮帶有高置信度的預測邊界框,曲線左端的高漏檢量意味著離實際應用還很遠。圖 3(b) 表示由密集遮擋導致的誤檢佔全部誤檢的比例,紅線表明基線的這一比例大概在 20% 左右。如圖 3 紅、藍線對比所示,RepGT 損失分別有效降低了由密集遮擋造成的漏檢和誤檢數量。
如圖 4 所示,綠框是正確的預測邊界框,而紅框是由密集遮擋造成的誤檢,並給出了檢測器的置信值。如果預測框輕微或顯著移向相鄰的非目標 groundtruth 物體(比如右上圖),或者框定若干個彼此遮擋物體的重疊部分(比如右下圖),則經常出現檢測錯誤。此外,密集遮擋引起的檢測錯誤通常有著較高的置信度,從而造成高排名的誤檢。這表明為提高檢測器在密集場景中的魯棒性,需要在執行邊界框回歸時有更具判別力的損失。下面是另一個可視化實例:
通過分析錯誤檢測表明,密集遮擋對行人檢測器的影響令人吃驚,不僅是漏檢的主要來源,還在增加定位難度的同時造成了更多的誤檢。正是為解決上述問題,提升行人檢測器在密集場景中的魯棒性,RepLoss 被提了出來。
RepLoss計算方法
本節將詳述如何計算 RepLoss。受到磁石屬性的啟發,RepLoss 包括 3 個組件,表示為:
其中 L_Attr 是吸引項,需要預測框靠近其指定目標;L_RepGT 和 L_RepBox 是排斥項,分別需要預測框遠離周遭其他的 groundtruth 物體和其他指定目標不同的預測框。係數 α 和 β 充當權重以平衡輔助損失。
為簡明起見,下面僅考慮兩類檢測,假定所有的 groundtruth 物體屬於同一類別。分別使 P = (l_P,t_P,w_P,h_P) 和 G = (l_G, t_G, w_G, h_G) 為 proposal 邊界框和 groundtruth 邊界框,並分別由它們的左上點坐標及其高度、寬度表示。P_+ = {P} 是所有 positive proposal 的集合(那些和至少一個 groundtruth box 有高 IoU 的被視為正樣本,反之為負樣本);G = {G} 是一張圖片中所有 groudtruth box 的集合。
吸引項
本文沿用 Smooth_L1 構造吸引項。給定一個 proposal P ∈ P_+,把具有極大值 IoU 的 groundtruth box 作為其指定目標:G^P_Attr = arg max_G∈G IoU(G,P)。B^P 是回歸自 proposal P 的預測框。由此吸引損失可計算為:
排斥項(RepGT)
RepGT 損失旨在使 proposal 受到相鄰的非目標 groundtruth 物體的排斥。給定一個 proposal P ∈ P_+,它的排斥 groundtruth 物體被定義為除了其指定目標之外帶有最大 IoU 區域的 groundtruth 物體。受 IoU 損失的啟發,RepGT 損失被計算以懲罰 B^P 和 G^P_Rep 之間的重疊(由 IoG 定義)。IoG(B, G) ∈ [0, 1] ,從而 RepGT 損失可寫為:
其?中 Smooth_ln 是一個在區間 (0, 1) 連續可微分的平滑 ln 函數,σ ∈ [0, 1) 是調節RepLoss 對異常值的敏感度的平滑參數。由此可見,proposal 越傾向於與非目標 groundtruth 物體重疊,RepGT 損失對邊界框回歸器的懲罰就越大,從而有效防止邊界框移向相鄰的非目標物體。
排斥項(RepBox)
NMS 是絕大多數檢測框架中不可或缺的後處理步驟,為降低檢測器對 NMS 的敏感度,作者接著提出 RepBox 損失,意在排斥來自不同指定目標的proposal。RepBox 損失可計算為:
從上式可以看到,為最小化 RepBox 損失,指定目標不同的兩個預測框之間的 IoU 區域需要較小。這意味著 RepBox 損失可以降低 NMS 之後不同回歸目標的邊界框合併為一的概率,使得檢測器在密集場景中更魯棒。
RepLoss實驗結果
本節將直接給出 RepLoss 在數據集 CityPersons 和 Caltech-USA 上的評估結果,包括在 CityPersons 上分別評估和分析 RepGT 損失 和 RepBox 損失;在 CityPersons 和 Caltech-USA 上把 RepLoss 與當前最優的方法相對比。實驗設置和實現細節從略,了解更多請參見原論文。
結論
RepLoss 專為行人檢測精心設計,尤其提升了密集場景的檢測性能,其主要想法在於目標物體的吸引損失並不足以訓練最優的檢測器,來自周遭物體的排斥損失同樣至關重要。
為充分發揮排斥損失的潛能,本文提出 RepGT 和 RepBox,並在流行數據集 CityPersons 和 Caltech-USA 上取得了當前最優水平。特別是,本文結果在未使用像素注釋的情況下優於使用像素注釋的先前最佳結果大約 2%。詳細的實驗結果對比證實了 RepLoss 在大幅提升遮擋場景下檢測精度方面的價值,並且一般的物體檢測 (PASCAL VOC) 結果進一步表明了其有效性。作者希望 RepLoss 在諸多其他物體檢測任務中也有更為廣泛的應用。
參考文獻
[1]Dollar, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection: A benchmark. In IEEE Computer Vision and Pattern Recognition, 2009.
[2]K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition, 2016.
[3]J. Mao, T. Xiao, Y. Jiang, and Z. Cao. What can help pedestrian detection? In IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[4]S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towardsreal-time object detection with region proposal networks. In NIPS, 2015.
[5]J. Yu, Y. Jiang, Z. Wang, Z. Cao, and T. Huang. Unitbox: An advanced object detection network. In Proceedings of the 2016 ACM on Multimedia Conference.
[6]S. Zhang, R. Benenson, and B. Schiele. Citypersons: A diverse dataset for pedestrian detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2017.
更多曠視 CVPR 2018 收錄論文解讀如下:
- CVPR 2018 | 為移動 AI 而生——曠視(Face++)最新成果 ShuffleNet 全面解讀
- CVPR 2018 | 曠視科技Face++提出用於語義分割的判別特徵網路DFN
推薦閱讀:
TAG:CVPR | 深度學習DeepLearning | 計算機視覺 |