【論文簡評】人臉關鍵點檢測
01-29
201601151. Jourabloo A, Liu X. Pose-invariant 3d face alignment[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3694-3702.PIFA通過一個可變的人臉3D模型,在回歸過程中引入更多的變數,如攝像頭投影矩陣、3D關鍵點等,實現不同角度下(yaw大至90°)的人臉關鍵點檢測,同時能夠自動估計2D關鍵點的可見度。速度較慢。
推薦閱讀:
2. Zhang Z, Luo P, Loy C C, et al. Facial landmark detection by deep multi-task learning[M]//Computer Vision–ECCV 2014. Springer International Publishing, 2014: 94-108.
TCDCN 未將關鍵點檢測看作是一個孤立的問題來解決,而是加入了其它相關屬性,如人臉姿態、性別、表情等屬性,通過多任務的深度學習網路來訓練,對大角度(yaw大至60°)、臉部有遮擋、表情等人臉的關鍵點的檢測準確率非常高,同時作為初始化也能提高其它演算法的性能。在GPU機器僅耗時1.5ms。20160123Zhang J, Kan M, Shan S, et al. Leveraging Datasets With Varying Annotations for Face Alignment via Deep Regression Network[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3801-3809.
網上人臉關鍵點的數據集很多,但標註標準卻往往不統一、標定點數也不盡相同。將這些數據合併起來非常重要,但是訓練一個統一的模型卻比較困難。這篇文章提出了一種基於深度回歸網路(deep regression network)和稀疏形狀回歸方法,能夠在不同點數的數據集上訓練一個統一的關鍵點檢測模型,同時能夠取得比單個訓練集更好的結果。20160228Wu Y, Ji Q. Robust Facial Landmark Detection under Significant Head Poses and Occlusion[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3658-3666.作者提出了一種基於級聯回歸的人臉關鍵點檢測演算法,可以處理遮擋較為嚴重和大角度的人臉。在回歸過程中,迭代計算關鍵點的遮擋和關鍵點的位置的更新信息。在表示關鍵點的遮擋情況時,採用了概率而非二值向量。
關鍵點檢測精度比其它方法,如SDM/ESR等高;而在關鍵點遮擋方法對比中,precision與OC/RCPR持平,而recall會更高。在與其它方法對比中單核電腦,Matlab檢測一張人臉耗時約為0.5s。20160331 1、Zhang Z, Luo P, Loy C C, et al. Learning deep representation for face alignment with auxiliary attributes[J]. 2015.在論文「Facial landmark detection by deep multi-task learning」上的改進(見20160115 部分)。 不同的是,通過引入動態任務係數(Dynamic Task Coefficients),提高多任務學習時的收斂度。與之前的方法相比,關鍵點檢測精度有所提高,特別是對於有遮擋的人臉和大角度的人臉;減少了模型的複雜度。2、Wu Y, Hassner T. Facial Landmark Detection with Tweaked Convolutional Neural Networks[J]. arXiv preprint arXiv:1511.04031, 2015.
作者分析了用於關鍵點檢測的CNN模型,將各層的輸出特徵分別進行聚類,發現特定角度、表情的人臉的特徵更容易聚為一類。基於這一發現,作者將最後一層全連接層的特徵聚類後,分別再進行針對的優化訓練,也就是提到的Tweaked CNN。這種模型在AFLW、AFW、300W等數據集上都取得了state-of-the-art的結果。20160411
1、Baltrusaitis T, Robinson P, Morency L P. Constrained local neural fields for robust facial landmark detection in the wild[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. 2013: 354-361.在20160331中[2]的論文中使用Tweaked CNN的5點模型初始化CLNF的68點模型,我就大致看下這篇論文。
這篇paper是基於 Constrained Local Model (CLM)方法的改進:首先提出了 local neural filed patch expert (LNF), 與傳統的patch experts不同的是,LNF能夠通過學習相似性和長距離的稀疏約束,捕捉到領域和較遠距離像素間的關係;其次又提出了Non-uniform RLMS,與 CLM中使用的 RLMS相比,它未將每個patch進行同等權值處理,而是加入了一個經過訓練集學習的對角權值矩陣。實驗證明了CLNF 方法取得了當時的state-of-the-art的結果,特別是在光照較差的情況下。PS: 速度稍慢, Multi-PIE圖片 0.1s;與SDM相比,似乎不需要嚴格的mean shape來進行初始化,就可以使用其它的方法得到的shape輸入CLNF,從而將精度更進一步的提高。20161009 1、Bulat A, Tzimiropoulos G. Two-stage Convolutional Part Heatmap Regression for the 1st 3D Face Alignment in the Wild (3DFAW) Challenge[J]. arXiv preprint arXiv:1609.09545, 2016.這篇文章描述的演算法在第一屆3DFAW競賽上取得了第一名的成績。3DFAW是一個3D人臉關鍵點檢測的競賽,提供了比賽用的訓練資料庫(包括人臉圖片和3D人臉關鍵點標註信息)。這個方法基於convolutional part heatmap regression的工作來進行的,主要分為兩步:第1步,通過 convolutional part heatmap regression生成每個關鍵點區域 的 2D heatmap,估計每個關鍵點的2D坐標X、Y;第2步,將這些heatmap和RGB原圖輸入至殘差網路中回歸Z坐標。該方法比第二名得到的誤差率降低了22%。推薦閱讀: