標籤:

MTCNN解讀:Joint Face Detection and Alignment using Multi

解讀論文為《Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks》

基於多任務級聯卷積神經網路的人臉檢測和對齊

論文地址:

https://kpzhang93.github.io/MTCNN_face_detection_alignment/

本文作者:非文藝小燕兒,博客地址:http://blog.csdn.net/fuwenyan/article/details/73201680

以下如有錯誤疏漏之處,還請大家幫忙指正。歡迎註明出處的轉載。

這篇文章在人臉檢測和特徵點定位任務上,精度較之前state-of-art的演算法有明顯的提升,而且具有實時處理的性能。

文中有2個點:

(1)通過三階的級聯卷積神經網路對任務進行從粗到細的處理;

(2)還提出一種新的在線困難樣本生成策略可以進一步提升性能。

最主要的點,應該算是三階的級聯卷積神經網路。

每個階段的網路都是一個多任務網路。處理任務有三個:人臉/非人臉判定、人臉框回歸和特徵點定位。

人臉/非人臉判定採用cross-entropy損失函數:

人臉框回歸採用歐式距離損失函數:

特徵點定位也採用歐式距離損失函數:

其中a表示三個任務在當前階段的網路中損失所佔比重。B是採樣類型指示,取值為{0,1},當人臉/非人臉判定為非人臉時,box和landmark的B取值0,而det取值1;判定為人臉時,全部取值為1.

接下來詳細講述各階段:

數據與處理:為應對目標多尺度問題,將原始圖像resize到不同尺寸,構建圖像金字塔,作為三階級聯架構的輸入。

第一階段,通過一個淺層的CNN快速生成候選窗口。

該階段是一個全部由卷積層組成的CNN,取名P-Net,獲取候選人臉窗口以及人臉框回歸向量。基於人臉框回歸向量對候選窗口進行校正。之後採用NMS合併高重疊率的候選窗口。

該階段在三個任務det、box、landmark任務上,a的對應取值為{1.0,0.5,0.5}.

第二階段,通過一個更複雜的CNN否決大量非人臉窗口從而精化人臉窗口。

第一階段輸出的候選窗口作為R-Net的輸入,R-Net能夠進一步篩除大量錯誤的候選窗口,再利用人臉框回歸向量對候選窗口做校正,並執行NMS。

該階段在三個任務det、box、landmark任務上,a的對應取值為{1.0,0.5,1.0}.

第三階段,使用更複雜的CNN進一步精化結果並輸出5個人臉特徵點。

與stage2相似,但這一階段用更多的監督來識別人臉區域,而且網路能夠輸出五個人臉特徵點位置坐標。

該階段在三個任務det、box、landmark任務上,a的對應取值為{1.0,0.5,1.0}.

以上四個步驟的直觀圖示如下:

關於另外一個在線困難樣本生成的策略,是指不同於以往離線生成採樣的方式,本文的處理方式是在每個mini-batch中選出70%大loss的樣本作為困難樣本,並且在BP階段只利用這部分計算梯度。也就是說拋棄了一些對強化分類沒有多大作用的簡單樣本。文中表示,通過實驗表明這樣做能夠進一步提升精度。


推薦閱讀:

人臉對齊還有研究的必要麼?
Facebook,非死不可?
扎克伯格:Facebook遲早有一天會死
刷爆Facebook的一組漫畫:生命太短暫,我沒時間討厭你
為什麼Facebook會使人感到沮喪

TAG:解讀 | Face |