基於回歸的統一關鍵點檢測模型

01-27

目前網上公布的人臉關鍵點的數據集很多，但標註標準卻往往不統一、標定點數也不盡相同。將這些數據合併起來非常重要，但是訓練一個統一的模型卻比較困難。ICCV 2015的這篇文章提出了一種基於深度回歸網路（deep regression network）和稀疏形狀回歸方法，能夠在不同點數的數據集上訓練一個統一的關鍵點檢測模型，同時能夠取得比單個訓練集更好的結果。

演算法簡介

1. 演算法流程

假設有若干不同點數、不同圖片的人臉關鍵點數據集，

（1）H 表示稀疏形狀回歸模型，它能將估計每個數據集中相對於所有數據集關鍵點類型總和的未標註的關鍵點;

（2）將每個數據集的關鍵點個數通過 H 補齊後, F 表示深度回歸網路，訓練和檢測圖片中所有的關鍵點的檢測模型。

（1）（2）過程是一個反覆迭代更新的過程。通過這樣的一個訓練過程，就能訓練一個能夠合併所有不同數據集的人臉關鍵點檢測模型。

假設有 n 個人臉關鍵點數據集{D1,D2,...,Dn}，每個數據集包含了不同點數pi的關鍵點 Si∈Rpi×2。作者目標是建立一個深度回歸網路 F，可以檢測所有關鍵點類型的合集 S=S1∪S2∪...∪Sn。這樣就需要根據ground truth和初始化形狀 Sˉ，求解滿足以下公式的 F:

F?=argmin F∑I∈D||S?(F(?(I,Sˉ))+Sˉ)||22，其中 I 為數據集D D 中的人臉圖片，? 為特徵提取函數。

數據集 Di 只有第 i類型的關鍵點，其它類型的關鍵點並不存在。但是可以根據不同類型關鍵點之間的相關性，使用其它數據集的關鍵點來估計當前數據集的關鍵點。作者使用了稀疏表達模型 H 來估計這些並不存在的關鍵點，因此以上公式就演變為：

{F?,H?}=argminF∑I∈D||SH(I)?(F(?(I,Sˉ))+Sˉ)||22

當 I∈Di時，H 第 i 種類型的關鍵點是已經標註好的，而其它 n?1 種類型的關鍵點則使用 H 估計生成。

方法流程細節

2.1 深度回歸模型

與 SDM/LBF類似，作者也使用了回歸方法訓練和測試圖像特徵到關鍵點位置的映射，區別是使用深度回歸網路從初始形狀開始回歸：

ΔS=F(I)=(fl(fl?1(...f1(?(I,Sˉ)))))

其中 fl 為深度回歸網路的第l 層隱層。

2.2 稀疏回歸模型

雖然各個數據集 Di的關鍵點定義並不相同，但是之間有著很強的關聯，作者使用了稀疏矩陣根據其它數據集的關鍵點類型來估計當前數據集上未標記的關鍵點，

H=[S?1;S?2;???;S?i?1;Si;S?i+1;???;S?n]∈Rp×2：Sj?=Hij?Si

其中 Hij∈Rpj×pi是一個估計 Di 數據集中未標記的關鍵點 Sj^∈Rpj×2 的稀疏矩陣。

這樣總流程的公式，可以寫為另一種形式：

{F?,H?}=argminF,H∑ni=1∑I∈Di||Hi?Si(I)?(F(?(I,Sˉ))+Sˉ)||22

2.3 訓練模型

上述公式有兩個模型參數需要訓練，作者採用了固定一個參數，訓練另一個的迭代循環直到收斂的方法來求最優解。

每次迭代過程，作者採用了 L-BFGS 方法（On optimization methods for deep learning）解決。

與以往演算法的不同

(1)「Collaborative facial landmark localization for transferring annotations across datasets」論文中提到的演算法，需要根據訓練集和測試集所有圖片的關係估計映射關係，再對測試集所有圖片進行關鍵點檢測，而且訓練過程中，也是針對各個數據集分別訓練不同的模型。而本論文演算法是將所有的數據集整合進行統一關鍵點數模型的訓練，最終得到一個檢測模型，能夠方便地對一張圖片進行單獨檢測。

(2)「Transferring landmark annotations for cross-dataset face alignment」論文中的演算法 transductive alignment method （TCR）需要不同數據集的關鍵點的交集作為相互關聯，而且在估計未標記的關鍵點之後，不會再有更新。而本文則不需要關鍵點的交集作為關聯，而且在模型參數訓練的過程中，估計的關鍵點在每次迭代過程中都會隨著模型的變化而更新，因而也更加準確。

實驗結果

1、作者將不同的數據集相整合進行模型訓練，比基於不同的訓練集單獨訓練的模型的精度有所提高，但比真實的數據略差些（情理之中）：

2、作者將DRN和SSR方法相結合，進一步提高了DRN的準確率：

3、作者又將DRN-SSR與之前的SDM、RCPR進行了比較，實驗結果均優於這些演算法：

總結

作者通過 DRN和SSR將多類人臉關鍵點數據融合，取得了比單個數據集訓練模型更好的結果，最終的模型也較為實用。

參考文獻

Zhang J, Kan M, Shan S, et al. Leveraging Datasets With Varying Annotations for Face Alignment via Deep Regression Network[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3801-3809.