【論文簡評】人臉關鍵點檢測

01-29

20160115

1. Jourabloo A, Liu X. Pose-invariant 3d face alignment[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3694-3702.

PIFA通過一個可變的人臉3D模型，在回歸過程中引入更多的變數，如攝像頭投影矩陣、3D關鍵點等，實現不同角度下（yaw大至90°）的人臉關鍵點檢測，同時能夠自動估計2D關鍵點的可見度。速度較慢。

2. Zhang Z, Luo P, Loy C C, et al. Facial landmark detection by deep multi-task learning[M]//Computer Vision–ECCV 2014. Springer International Publishing, 2014: 94-108.

TCDCN 未將關鍵點檢測看作是一個孤立的問題來解決，而是加入了其它相關屬性，如人臉姿態、性別、表情等屬性，通過多任務的深度學習網路來訓練，對大角度（yaw大至60°）、臉部有遮擋、表情等人臉的關鍵點的檢測準確率非常高，同時作為初始化也能提高其它演算法的性能。在GPU機器僅耗時1.5ms。

20160123

Zhang J, Kan M, Shan S, et al. Leveraging Datasets With Varying Annotations for Face Alignment via Deep Regression Network[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3801-3809.

網上人臉關鍵點的數據集很多，但標註標準卻往往不統一、標定點數也不盡相同。將這些數據合併起來非常重要，但是訓練一個統一的模型卻比較困難。這篇文章提出了一種基於深度回歸網路（deep regression network）和稀疏形狀回歸方法，能夠在不同點數的數據集上訓練一個統一的關鍵點檢測模型，同時能夠取得比單個訓練集更好的結果。

20160228

Wu Y, Ji Q. Robust Facial Landmark Detection under Significant Head Poses and Occlusion[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3658-3666.

作者提出了一種基於級聯回歸的人臉關鍵點檢測演算法，可以處理遮擋較為嚴重和大角度的人臉。在回歸過程中，迭代計算關鍵點的遮擋和關鍵點的位置的更新信息。在表示關鍵點的遮擋情況時，採用了概率而非二值向量。

關鍵點檢測精度比其它方法，如SDM/ESR等高；而在關鍵點遮擋方法對比中，precision與OC/RCPR持平，而recall會更高。在與其它方法對比中單核電腦，Matlab檢測一張人臉耗時約為0.5s。

20160331

1、Zhang Z, Luo P, Loy C C, et al. Learning deep representation for face alignment with auxiliary attributes[J]. 2015.

在論文「Facial landmark detection by deep multi-task learning」上的改進（見20160115 部分）。不同的是，通過引入動態任務係數（Dynamic Task Coefficients），提高多任務學習時的收斂度。與之前的方法相比，關鍵點檢測精度有所提高，特別是對於有遮擋的人臉和大角度的人臉；減少了模型的複雜度。

2、Wu Y, Hassner T. Facial Landmark Detection with Tweaked Convolutional Neural Networks[J]. arXiv preprint arXiv:1511.04031, 2015.

作者分析了用於關鍵點檢測的CNN模型，將各層的輸出特徵分別進行聚類，發現特定角度、表情的人臉的特徵更容易聚為一類。基於這一發現，作者將最後一層全連接層的特徵聚類後，分別再進行針對的優化訓練，也就是提到的Tweaked CNN。這種模型在AFLW、AFW、300W等數據集上都取得了state-of-the-art的結果。

20160411

1、Baltrusaitis T, Robinson P, Morency L P. Constrained local neural fields for robust facial landmark detection in the wild[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. 2013: 354-361.

在20160331中[2]的論文中使用Tweaked CNN的5點模型初始化CLNF的68點模型，我就大致看下這篇論文。

這篇paper是基於 Constrained Local Model (CLM)方法的改進：首先提出了 local neural filed patch expert (LNF)，與傳統的patch experts不同的是，LNF能夠通過學習相似性和長距離的稀疏約束，捕捉到領域和較遠距離像素間的關係；其次又提出了Non-uniform RLMS，與 CLM中使用的 RLMS相比，它未將每個patch進行同等權值處理，而是加入了一個經過訓練集學習的對角權值矩陣。實驗證明了CLNF 方法取得了當時的state-of-the-art的結果，特別是在光照較差的情況下。

PS: 速度稍慢， Multi-PIE圖片 0.1s；與SDM相比，似乎不需要嚴格的mean shape來進行初始化，就可以使用其它的方法得到的shape輸入CLNF，從而將精度更進一步的提高。

20161009

1、Bulat A, Tzimiropoulos G. Two-stage Convolutional Part Heatmap Regression for the 1st 3D Face Alignment in the Wild (3DFAW) Challenge[J]. arXiv preprint arXiv:1609.09545, 2016.

這篇文章描述的演算法在第一屆3DFAW競賽上取得了第一名的成績。3DFAW是一個3D人臉關鍵點檢測的競賽，提供了比賽用的訓練資料庫（包括人臉圖片和3D人臉關鍵點標註信息）。

這個方法基於convolutional part heatmap regression的工作來進行的，主要分為兩步：第1步，通過 convolutional part heatmap regression生成每個關鍵點區域的 2D heatmap，估計每個關鍵點的2D坐標X、Y；第2步，將這些heatmap和RGB原圖輸入至殘差網路中回歸Z坐標。該方法比第二名得到的誤差率降低了22%。