譯文:Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks
1 人贊了文章
題記:文章都是英文(即使作者是華人),讀起來麻煩,看兩遍就忘了,再次翻看時很費勁,於是本人把平時看過的,覺得精彩的論文翻譯成中文,放在這個地方, 很慚愧,做了一點偉小的工作。
使用多任務級聯卷積網路的聯合人臉檢測和對準
摘要:在本文中,我們提出了一個深度級聯的多任務框架,利用檢測和對齊之間的固有關聯以提高他們的表現。具體而言,我們的框架利用級聯架構和精心設計的深卷積網路的三個階段由粗到細地來預測人臉和landmark。此外,我們提出一個online hard sample mining策略,使得實踐中的性能更好。我們的方法達到了卓越的準確性在具有先進技術扎堆的FDDB和WIDER FACE基準面部檢測挑戰賽上,以及AFLW基準面對齊,並且保持了實時性能。
1 引言
人臉檢測和對齊是必不可少的人臉應用程序,如人臉識別和面部表情分析。然而,面部的大視覺變化,例如遮擋,大姿勢變化和極端照明,這些任務在實際應用中面臨著巨大的挑戰。
Viola和Jones提出的級聯人臉檢測器[2] 利用Haar-Like特性和AdaBoost來訓練級聯分類器,可以獲得良好的性能及實時效率。然而,不少作品[1,3,4]表明這一點,即使有更高級的特徵和分類器,這種檢測器可能會在現實世界應用中人臉變化很大時性能顯著降低。除了級聯結構外,[5,6,7]引入了用於人臉檢測的可變形部分模型(DPM),並取得了顯著的性能。但是,它們消耗昂貴的計算資源,並且通常可能在訓練階段需要昂貴的注釋。最近,卷積神經網路(CNN)取得了令人矚目的成就,在各種計算機視覺任務(如圖像)方面取得進展,例如圖像分類[9]和人臉識別[10]。受到計算機視覺深入學習方法的啟發,一些研究利用深CNN進行人臉檢測。Yang等人[11]訓練深度卷積神經網路用於臉部屬性識別來獲得臉部區域的high response,進一步產生人臉候選窗口。但是,由於其複雜的CNN結構,這種方法在實踐中耗費時間。 Li等人 [19]使用級聯CNNs用於人臉檢測,但是它需要人臉檢測的邊框校驗,這需要巨量的計算資源同時忽略了面部landmark與邊框回歸的內在聯繫。
面部對齊也吸引了廣泛的研究興趣。這方面的研究大致可以分為兩類,基於回歸的方法[12,13,16]和模板擬合方法[14,15,7]。最近,張等人[22]提出將面部屬性識別作為輔助任務,使用深度卷積神經網路來增強人臉對準性能。
然而,之前大量的人臉檢測和人臉校準方法忽視了二者之間的內在聯繫。儘管有一些工作試圖聯合二者,但是在這些工作中仍然存在局限。例如,CHEN等人[18]利用像素值差異特徵運用隨機森林同時來校準和檢測,但是這些手工特徵很大地特徵限制了它的性能。張[20]利用多任務CNN來提高多視角人臉檢測的準確性,但是檢測召回率受到弱面部檢測器產生的初始檢測窗口的限制。
另一方面,在訓練中挖掘硬樣本對於增強探測器的能力是至關重要的。然而,傳統的硬採樣挖掘通常以離線的方式進行,大大增加了手動操作,因此設計一個面向人臉檢測的在線硬樣本挖掘方法是有必取的,它能自動適應當前的訓練狀態。
在本文中,我們提出了一個新的框架來整合這些兩項任務使用統一的級聯CNN通過多任務學習。我們提出的CNNs由三個階段組成。第一階段,它通過淺層CNN快速生成候選窗口。然後它通過更複雜的CNN來否定大量的非臉窗口來提煉窗口。最後,使用更加強力的CNN再次提煉結果最後輸出5個landmark的位置。這個多任務學習框架,演算法的性能可以顯著提高。代碼已經在項目頁面1中發布。本文的主要貢獻總結如下(1)我們提出了一種新的基於CNN的級聯框架用於聯合人臉檢測和對齊,並進行精心設計輕量級CNN架構實時性能。(2)我們提出一個有效的方法來在線進行採樣挖掘以提高性能。(3)對具有挑戰性的基準進行了大量的實驗,以顯示與在人臉檢測和臉部對齊任務中最先進的技術相比,所提出的方法的性能有顯著改善。
2方法
在本節中,我們將描述我們的聯合人臉檢測和對齊方法。
A總體框架:我們的方法的整個流程如圖1所示。給定一幅圖像,我們最初將其調整到不同的比例來構建圖像金字塔,這是以下的輸入三階段級聯框架:
第一階段:我們利用完全卷積網路,稱為建議網路(P-Net),獲取候選面部窗口和它們的邊框回歸向量。然後候選框被基於估計的邊界框回歸向量校準。之後,我們採用非最大抑製法(NMS)來合併高度重疊的候選框。
第二階段:所有候選框都被送到另一個CNN,名為提煉網路(R-Net),這進一步拒絕了大量的錯誤的候選框,執行校準。
第三階段:這個階段類似於第二階段,但在這個階段我們的目標是通過更多的監督來識別人臉區域。特別是,網路將輸出五個面部landmark的位置
B CNN結構
在[19]中,多個CNN被設計用於人臉檢測。但是,我們注意到它的表現可能受限於以下事實:(1)卷積層中的一些濾波器缺乏多樣性可能會限制他們的辨識能力。(2)與其他多類異議檢測和分類任務相比,人臉檢測是一項具有挑戰性的二值分類任務,所以它可能需要每層的更少數量的濾波器。為此,我們減少濾波器數量並將5×5過濾器更改為3×3濾波器來減少計算量,同時增加深度來獲得更好的性能。通過以上的改善,我們獲得更高性能的同時減少了運行時間。CNN結構如圖2。我們將PReLU [30]作為非線性激活函數應用於卷積和完全連接層(輸出層除外)之後。
C訓練
利用三項任務來訓練CNN探測器:人臉/非人臉分類,邊框回歸和面部landmark坐標。
(1)臉部分類:學習目標被定位一個二分類問題,對於每一個Xi,交叉熵損失如下:
其中是網路生成的表示樣本是面部的概率。符號c屬於{0,1}表示實的標籤。
(2)邊界框回歸:對於每個候選窗口,預測它與最近的真實之間的偏移(即,邊框的左邊,頂部,高和寬)。學習目標成為一個回歸問題,我們採用對每個樣本採用Euclidean損失
其中是從網路中獲得的回歸目標,是真實坐標。這裡有4個坐標,包括左上,高度和寬度,所以是四維的。
(3)面部landmark定位:與邊界框回歸任務類似,將面部標誌檢測表示為回歸問題,我們將歐幾里得損失最小化:
其中是從網路中獲得的面部landmark的坐標,是第i個樣本的真實坐標。有5個臉部landmark,包括左眼、右眼、鼻子、左嘴角、右嘴角,所以。
(4)多源訓練:
由於我們在不同的任務中使用各個CNN,學習過程中都有不同類型的訓練圖像,如臉部、非臉部和部分對齊臉部。在這種情況下不使用(即方程(1)~(3))的損失函數。例如,對於背景區域的樣本,我們只計算,其他損失函數設置為0。這直接可以用樣本類型指示器來實現,那麼整體的學習目標變為:
這裡,N是訓練樣本的數量,表示任務的重要性。我們在P-NET和R-NET中用,在O-NET中使用來達到更準確的臉部landmark定位。是樣本類型指示器。在這個案例中,採用隨機梯度下降法是很自然地來訓練這些CNN。
(5)在線硬樣本挖掘
與原始分類器訓練後進行傳統的硬採樣挖掘不同,我們在適應訓練過程的人臉/非人臉分類任務中進行在線硬採樣挖掘。特別是,在每個小批次中,我們從所有樣本中對前向傳播中計算的損失進行排序,並選擇頂部的70%為硬樣本。然後我們只計算這些硬樣本在反向傳播中的梯度。這意味著我們忽略簡單的樣本(在訓練期間對加強檢測器有較少的幫助)。實驗表明這個策略表現得比手工樣本選擇有更好的選擇。效果將在第三者證明。
三 實驗
在這段,我們首先評估硬樣本採樣策略的效果。然後我們比較我們的面部檢測器和對齊器與人臉檢測數據集與基準(FDDB)、更寬的臉(WIDER FACE)、野外基準(AFLW)中帶注釋的臉中最先進方法的比較。FDDB數據集包括2845張圖像中5171張臉的注釋。WIDER FACE數據集由32個圖像中的393,703個標記的邊界框組成,其中50%用於測試(根據圖像難度劃分為三個子集),40%用於訓練,其餘用於驗證。AFLW包含24,386個面部的面部標誌注釋,我們使用與[22]相同的測試子集。最後,評估人臉檢測器的計算效率。
A訓練數據
因為我們聯合臉部檢測和對齊,這裡我們用4種不同的數據注釋用於訓練過程中:
- 負樣本:IoU小於0.3的任意真實臉的區域
- 正樣本:IoU高於0.65的真臉
- 片面的臉(這裡論文中為part face):IoU在0.4與0.65之間的真臉
- landmark臉:標記了5個landmark位置的臉。
片面人臉和負樣本之間的差距不明確,不同臉部標註之間存在差異。所以我們選擇IoU的間隔在0.3與0.4之間。負樣本與正樣本用於人臉分類任務,正樣本和片面臉用於邊界框回歸,landmark臉用於面部landmark定位。所有數據的組成比例為3:1:1:2(負/正/片面/landmark),每個網路的訓練數據收集描述如下:
1)P-Net:我們隨機從WIDER FACE裁剪patch來收集正樣本,負樣本和片面臉。然後我們從CelebA上裁剪臉來當作landmark臉
2)R-Net:我們使用框架的第一階段從WIDER FACE上檢測人臉來收集正、負樣本、片面臉,從CelebA上檢測到的landmark臉。
3)O-Net:與R-net收集數據類似,但我們使用框架中的前兩段來檢測人臉和收集數據。
B 在線硬採樣挖掘的有效性
為了評估所提出的在線硬樣本挖掘策略的貢獻,我們訓練兩個P-Nets(有和沒有在線硬採樣挖掘),並比較他們在FDDB上的表現。圖3(a)顯示了FDDB上兩個不同P-Nets的結果。很明顯,在線硬採樣挖掘有利於提高性能。FDDB可以使整體性能提高1.5%。
denotes do not joint it. 「No JA in BBR」 denotes use 「No JA」 O-Net for bounding box regression.
C 聯合檢測與對齊的有效性
為了評估聯合檢測和對齊的貢獻,我們評估了FDDB(具有相同的P-Net和R-Net)的兩個不同的O-Nets(聯合面部landmark回歸學習和不聯合它)的性能。我們還比較這兩個O-net邊框盒回歸的性能。圖3(b)表明,聯合地標本地化任務學習有助於增強人臉分類和邊界框回歸任務。
D人臉檢測評估
為了評估我們的人臉檢測方法的性能,我們將我們的方法與最先進的方法進行比較
[1,5,6,11,18,19,26,27,28,29]在FDDB,和世界上最先進的方法[1,24,11]在WIDER FACE。 圖4(a)~(d)顯示我們的方法始終優於所有在基準測試中比較了大幅度的方法。
Fig. 4. (a) Evaluation on FDDB. (b-d) Evaluation on three subsets of WIDER FACE. The number following the method indicates the average accuracy.
E 面部對齊評估
在這部分,我們比較了我們方法中人臉對齊與如下方法的性能:RCPR [12], TSPM[7], Luxand face SDK [17], ESR [13], CDM [15], SDM [21], and TCDCN [22].平均誤差通過估計的landmark與真實之間的距離來測量,並且用眼間距離進行歸一化。圖5 表明我們的方法優於所有具有margin的最先進的方法。 這也表明我們的方法在口角定位方面顯示出較小的優勢。這可能是由於我們的訓練數據中的表情變化很小,這對口角位置有顯著的影響
F 運行時間效率
對於級聯結構,我們的方法可以在聯合人臉檢測和對齊方面實現高速。我們將我們的方法與GPU上的最新技術進行比較,結果如表2所示。 注意到我們目前的實現是基於未優化的MATLAB代碼。
4結論
在本文中,我們提出了一個多任務級聯CNN基於人臉的聯合臉部檢測和對齊框架。實驗結果表明我們的方法始終如一在幾個具有挑戰性的基準測試中超越最先進的方法(包括用於人臉檢測的FDDB和WIDER FACE基準,以及用於人臉對齊的AFLW基準),同時實現具有20x20最小面部尺寸的640x480 VGA圖像的實時性能。性能改進的三個主要貢獻是精心設計的級聯CNN架構,在線硬樣本挖掘策略和聯合人臉對齊學習。
參考文獻
- B. Yang, J. Yan, Z. Lei, and S. Z. Li, 「Aggregate channel features for multi-view face detection,」 in IEEE International Joint Conference on Biometrics, 2014, pp. 1-8.
- P. Viola and M. J. Jones, 「Robust real-time face detection. International journal of computer vision,」 vol. 57, no. 2, pp. 137-154, 2004
- M. T. Pham, Y. Gao, V. D. D. Hoang, and T. J. Cham, 「Fast polygonal integration and its application in extending haar-like features to improve object detection,」 in IEEE Conference on Computer Vision and Pattern Recognition, 2010, pp. 942-949.
- Q. Zhu, M. C. Yeh, K. T. Cheng, and S. Avidan, 「Fast human detection using a cascade of histograms of oriented gradients,」 in IEEE Computer Conference on Computer Vision and Pattern Recognition, 2006, pp. 1491-1498.
- M. Mathias, R. Benenson, M. Pedersoli, and L. Van Gool, 「Face detection without bells and whistles,」 in European Conference on Computer Vision, 2014, pp. 720-735.
- J. Yan, Z. Lei, L. Wen, and S. Li, 「The fastest deformable part model for object detection,」 in IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 2497-2504.
- X. Zhu, and D. Ramanan, 「Face detection, pose estimation, and landmark localization in the wild,」 in IEEE Conference on Computer Vision and Pattern Recognition, 2012, pp. 2879-2886.
- M. K?stinger, P. Wohlhart, P. M. Roth, and H. Bischof, 「Annotated facial landmarks in the wild: A large-scale, real-world database for facial landmark localization,」 in IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2011, pp. 2144-2151.
- A. Krizhevsky, I. Sutskever, and G. E. Hinton, 「Imagenet classification with deep convolutional neural networks,」 in Advances in neural information processing systems, 2012, pp. 1097-1105.
- Y. Sun, Y. Chen, X. Wang, and X. Tang, 「Deep learning face representation by joint identification-verification,」 in Advances in Neural Information Processing Systems, 2014, pp. 1988-1996.
- S. Yang, P. Luo, C. C. Loy, and X. Tang, 「From facial parts responses to face detection: A deep learning approach,」 in IEEE International Conference on Computer Vision, 2015, pp. 3676-3684.
- X. P. Burgos-Artizzu, P. Perona, and P. Dollar, 「Robust face landmark estimation under occlusion,」 in IEEE International Conference on Computer Vision, 2013, pp. 1513-1520.
- X. Cao, Y. Wei, F. Wen, and J. Sun, 「Face alignment by explicit shape regression,」 International Journal of Computer Vision, vol 107, no. 2, pp. 177-190, 2012.
- T. F. Cootes, G. J. Edwards, and C. J. Taylor, 「Active appearance models,」 IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, no. 6, pp. 681-685, 2001.
- X. Yu, J. Huang, S. Zhang, W. Yan, and D. Metaxas, 「Pose-free facial landmark fitting via optimized part mixtures and cascaded deformable shape model,」 in IEEE International Conference on Computer Vision, 2013, pp. 1944-1951.
- J. Zhang, S. Shan, M. Kan, and X. Chen, 「Coarse-to-fine auto-encoder networks (CFAN) for real-time face alignment,」 in European Conference on Computer Vision, 2014, pp. 1-16.
- Luxand Incorporated: Luxand face SDK, http://www.luxand.com/
- D. Chen, S. Ren, Y. Wei, X. Cao, and J. Sun, 「Joint cascade face detection and alignment,」 in European Conference on Computer Vision, 2014, pp. 109-122.
- H. Li, Z. Lin, X. Shen, J. Brandt, and G. Hua, 「A convolutional neural network cascade for face detection,」 in IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 5325-5334.
- C. Zhang, and Z. Zhang, 「Improving multiview face detection with multi-task deep convolutional neural networks,」 IEEE Winter Conference on Applications of Computer Vision, 2014, pp. 1036-1041.
- X. Xiong, and F. Torre, 「Supervised descent method and its applications to face alignment,」 in IEEE Conference on Computer Vision and Pattern Recognition, 2013, pp. 532-539.
- Z. Zhang, P. Luo, C. C. Loy, and X. Tang, 「Facial landmark detection by deep multi-task learning,」 in European Conference on Computer Vision, 2014, pp. 94-108.
- Z. Liu, P. Luo, X. Wang, and X. Tang, 「Deep learning face attributes in the wild,」 in IEEE International Conference on Computer Vision, 2015, pp. 3730-3738.
- S. Yang, P. Luo, C. C. Loy, and X. Tang, 「WIDER FACE: A Face Detection Benchmark」. arXiv preprint arXiv:1511.06523.
- V. Jain, and E. G. Learned-Miller, 「FDDB: A benchmark for face detection in unconstrained settings,」 Technical Report UMCS-2010-009, University of Massachusetts, Amherst, 2010.
- B. Yang, J. Yan, Z. Lei, and S. Z. Li, 「Convolutional channel features,」 in IEEE International Conference on Computer Vision, 2015, pp. 82-90.
- R. Ranjan, V. M. Patel, and R. Chellappa, 「A deep pyramid deformable part model for face detection,」 in IEEE International Conference on Biometrics Theory, Applications and Systems, 2015, pp. 1-8.
- G. Ghiasi, and C. C. Fowlkes, 「Occlusion Coherence: Detecting and Localizing Occluded Faces,」 arXiv preprint arXiv:1506.08347.
- S. S. Farfade, M. J. Saberian, and L. J. Li, 「Multi-view face detection using deep convolutional neural networks,」 in ACM on International Conference on Multimedia Retrieval, 2015, pp. 643-650.
- K. He, X. Zhang, S. Ren, J. Sun, 「Delving deep into rectifiers: Surpassing human-level performance on imagenet classification,」 in IEEE International Conference on Computer Vision, 2015, pp. 1026-1034.
推薦閱讀:
TAG:計算機視覺 | 人臉識別 | 深度學習DeepLearning |