深度學習網路用於面部表情特徵學習
最近看了一篇關於面部表情特徵學習的文章,感覺整體框架和構思特別好,就總結了下,和大家分享。希望得到大家的支持和認可,後期大家互相討論,互相學習!謝謝!O(∩_∩)O謝謝!
AU-inspired Deep Networks for Facial Expression Feature Learning受AU啟發的深層網路面部表情特徵學習
文章的主要貢獻如下:
- 受AU啟發,將表情分解成多個面部動作單元,構建特徵學習框架去提取特有的特徵;
- 構建不同的感受野構造和子網路學習方案。
文章簡單介紹:
現存大多數面部表情識別的技術,利用現成的特徵提取方法去進行分類。為了學習更好的具體表情特徵的表達,本文提出構建一個深層的結構,受AU啟發的深層網路(AUDN),其表情可以分解成多個面部動作單元(AUs)。為了充分利用這一影響,本文提出自動學習:
(1)可提供信息的局部外觀變化;
(2)優化方法去結合局部變化;
(3)最後表情識別的高層表達。
所提出的AUDN由三個連續的模塊組成,主要為微動作模式(MAP)表達學習、感受野構造和group-wise子網路學習。實驗在CK+、MNI和SFEW三個表情資料庫進行,學習的特徵通過採用線性分類器,在所有資料庫中都到達了最先進的結果且驗證了AUDN的有效性。
文章的主要工作:
設計三個模塊為了幫助自動學習去學習具體表情特徵,如下:
- 微動作模式(MAP)表達學習;
- 感受野構造;
- Group-wise子網路學習。
首先給出實驗結果,有一個明顯對比吧!
1) 與人工製作特徵比較
2) 與先進方法的比較
文章的整體構架
現在我開始詳細的總結各個細節環節:
一、微動作模式(MAP)表達學習
面部動作編碼(FACS)理論的關鍵成分是一個觀察到的表情可以被分解成若干個局部外觀的變化。為了學習高層表情具體特徵,應該先編碼這些後續使用的局部變化。考慮到AU的局部性,本文從所有的訓練表情圖像中密集採樣大量的小塊(即MAP原型),去共同表達由面部表情引起的所有局部變化。
假設塊的大小為像素,為了獲得一個過完備表達,設置在K-means聚類中,並且學習所有塊歸一化和白化後的K個質心,,其被認為是上面提到的MAP原型。然後每一個MAP原型被作為一個濾波器在整個面部圖像中去和其他塊卷積,為了計算到這個MAP(濾波器)的「響應」。對於一個像素輸入圖像有個塊(其中),每個響應的2D網格用於一個單一濾波器通常被稱為一個「特徵映射」。最後在卷基層之後我們會得到一個維的表達。為了實現平移不變性,我們進一步在相鄰處應用最大池化,不相交的個塊在每一個映射上去獲得最後的MAP表達用於每個表情圖像。
二、感受野構造
在這個模型中,本文專註在最大池化層輸出(如MAP表達)的感受野構造,每個對應一個通過MAPs描述的局部外觀變化的複雜組合。
兩個主要問題已被考慮:在每個感受野的特徵冗餘和特徵關聯到表情類別。首先,如果特徵是高度冗餘的,單一的感受野可能無法提供足夠的信息對於隨後的特徵學習。其次,應考慮特徵和表情類別之間的相關性,以提高每個感受野的描述。
假定一個MAP的子集S(形成感受野)有m個特徵
給出表情標籤c,監督信息可以通過測量整體標籤相關性來表達:如果沒有監督,自信息熵可以代替:
在接受域內每一對MAP特徵之間的整體冗餘定義如下:
在先前的深度網路,感受野通常是手動設計作為局部空間區域,其中的特徵是高度冗餘。本文認為這種感受野不能提供足夠的信息為隨後的特徵學習。為了探索每個感受野的特徵是否應該是更冗餘,評估了2個相互衝突的標準:最大化和最小化。通過將其與上述資訊理論的條件結合,分別設計了四個標準。
表1 方案的MAP分組及其公式的對應關係
為了顯示在每個感受野的不同方案下所選擇的特徵差異,一些局部塊對應於MAPs的例子在圖3中被可視化。我們可以清楚地發現,「R」方案傾向於在局部空間區域MAPs的分組,而「NR」方案可以分組一些分離的塊。「S」很容易選擇眼睛或嘴巴的特徵,其有更多可提供的信息用於特徵表情。
圖3 在不同方案下對應分組特徵塊的實例:(a)NS+R,(b)NS+NR,(c)S+R,(d)S+NR
三、Group-wise子網路學習
對於多層的group-wise子網路學習,我們研究了2個主流演算法:多層感知器(MLP),其是通過充分監督梯度下降訓練;深度信念網路(DBN),其包括一個無監督的預訓練步驟和一個有監督的微調步驟。
多層感知器(MLP)
去訓練一個MLP,採用小塊的隨機梯度下降學習所有模型的參數。梯度可以使用反向傳播演算法計算。
深度信念網路(DBN)
受限玻爾茲曼機(RBM)可以堆疊建立一個DBN。因為RBM通常是作為一種無監督的「預訓練」工具,本文在堆疊RBMs後執行監督「微調」去細化參數。這個程序相當於用權重和堆疊RBMs獲得隱層偏置去初始化一個MLP的參數。
四、資料庫介紹
CK+資料庫
CK+數據來自123個對象的593個序列,這是一個擴展版本的Cohn-Kanade(CK)資料庫(一些例子如圖4所示)。7個標準的情緒(憤怒、輕視、厭惡,恐懼,開心,悲傷和驚訝)。
MMI資料庫
MMI資料庫包括來自不同性別且年齡在19到62歲之間的30個對象。在數據集,213個序列已被標記的六種基本表情,在這205個序列是正面拍攝的。我們使用的數據來自所有這205個序列。與CK+對比,MMI更具有挑戰性的條件:對象的表情不一致,且許多人佩戴飾品(如眼鏡、鬍鬚)。
SFEW資料庫
為了進一步驗證,我們評估我們的方法在一個更困難的場景:在野外的面部表情。野外的靜態表情(SFEW)資料庫,其從電影中提取的(例子見圖5)。
五、跨資料庫評價
作為一種基於學習的方法,它的泛化能力是普遍的擔心。對這一點,我們還進行跨資料庫實驗,即在一個資料庫訓練特徵模型和在另兩資料庫測試。結果顯示在表4,這表明,我們的方法也可以實現非常有前途的結果。具體而言,該模型在實驗室數據CK+訓練,可以獲得相似的性能相比於在SFEW自己資料庫中訓練。這些結果證明了所提出的方法很強大。
六、總結
在本文中提出構建一個深層結構去學習面部表情特徵,被稱為「AUDN」。通過AU解釋的啟發,提出了一種計算表達MAP去捕捉由面部表情引起的局部外觀變化,並構建自適應感受野去模擬不同MAP的分組。子網路的學習過程可以進一步產生高層的特徵,其特別有益於表情的識別。所提出的AUDN在三個人臉表情資料庫中包括實驗室控制和野生場景下實現了最佳性能。
推薦閱讀:
※計算機視覺技術
※智慧春運時代:迅通人臉識別儀「刷」新你的春運印象
※【技術綜述】一文道盡softmax loss及其變種
※一門跟四億人相關的生意
※我們為何會對形似「臉」的非動物體產生錯覺?
TAG:人臉識別 | 深度學習DeepLearning |