標籤:

人臉識別:回顧與展望

人臉識別是人工智慧在智能感知領域的一項重要任務,同時也具備巨大的實用價值。本 文回顧人臉識別技術在過去幾十年來的發展歷程及主要成就,並對新近發展起來的基於深度學習的人臉識別方法進行闡述和討論,最後對基於深度學習的人臉識別的未來研究方向做出展望。

英文摘要:Facerecognition is an important perception technology in artificial intelligence.Meanwhile, it has great practical values. This paper recalls the developmentsand achievements of face recognition technology over the past few decades,summarizes the latest progress of deep learning based methods and points outthe possible future directions of deep learning based face recognition methods.

關鍵詞:人臉識別;人工智慧

1 引言

人工智慧是人類長期以來一直追求的目標。如何創造出智能的機器(intelligent machines),以期其能擁有知識(knowledge),具備推理(reasoning)、計劃(planning)、學習(learning)、感知(perception)、交流(communication)、以及移動和操縱物體的能力[1,2,3,4],是人工智慧一直以來不懈努力的方向。人臉識別[5]作為人工智慧的一項重要任務,是人工智慧技術在智能感知方向上的一個重要領域。同時,人臉識別具備巨大的實用價值。傳統的ID卡和密碼等個人身份鑒別手段極易被模仿、複製、盜竊,系統難以區分實際使用者,很難區分真正的用戶。而利用人體固有的、具備唯一性的人臉特徵,人臉識別為真正有效可靠的身份鑒別帶來了可能性[6]。也因此,人臉識別幾十年來受到眾多研究學者的關注,並被廣泛應用於視頻監控、訪問控制等眾多信息安全領域甚至娛樂領域。

一個完整的人臉識別系統大致分為五個部分(如圖1):人臉圖像採集、人臉檢測、人臉圖像預處理、人臉圖像特徵提取、人臉識別或匹配。但建造一個高性能高魯棒的自動人臉識別系統是一個極其複雜和困難的事情。實際應用中的姿態、表情、光照、模糊、遮擋、對比度、抖動等因素[7],都會引起人臉面部特徵發生很大改變。因此幾十年來,為了在各種複雜情況下得到人臉圖像的最優描述,研究者們提出了一系列的理論與演算法。

人臉識別大致經歷了四個發展階段。第一個階段(1964年–1991年)屬於人臉識別的起步探索階段,人們使用一些簡單的演算法來初步嘗試人臉的機器自動識別。第二階段(1991年–1998年)是人臉識別的快速發展時期,在條件嚴格控制的人臉識別任務上取得了一些初步的成果,也湧現出了一些對後一階段極具影響力的演算法與理論。第三階段(1998年–2014年)的人臉識別在上一階段的基礎上,針對姿態、光照、表情、遮擋等外界影響因素,提出了一系列的改進演算法與新的理論。這一階段,人臉識別開始逐漸成熟,一些實用的系統開始誕生。然而,這前三個階段的人臉識別演算法(如SVM、Boosting)實質上大多數都是一種可以看成一層隱層節點的淺層學習(Shallow Learning) 模型[8]。淺層模型在理論和應用中雖然獲得了巨大成功,但存在著一定的局限性。如,表示複雜函數的能力有限[9]。因此在第四階段(2014年–至今),人臉識別的主流演算法開始轉為深度學習[10],深度學習的典型代表便是含有多層隱含節點的深度神經網路(Deep Neural Networks, DNN),大計算、大數據、大模型則是深度神經網路的三大支柱與基礎。第四階段大量實用的系統與成功的應用案例出現,許多新興的人臉識別公司也開始誕生。

本文將以人臉識別面臨的挑戰和演算法為主線,回顧人臉識別技術在過去幾十年來的發展歷程及主要成就,並對新近發展起來的深度學習人臉識別方法進行闡述和討論,最後對基於深度學習的人臉識別的未來研究方向做出展望。

2 第一階段(1964年 -- 1991年)

Francis Galton於1888年[11]和1910年[12]在 Nature 上發表了兩篇使用人臉圖像用於身份驗證的文章,可謂是人臉識別技術研究的最早追溯。但學術界認為真正意義上的人臉識別工作應該開始於Bledsoe和Chan於1965年[13]在 PanoramicResearch Inc 上發表的人臉自動識別的技術報告。自此,人臉識別技術開啟了第一階段的研究。這一階段的人臉識別被當作一個一般性的模式識別問題來研究[14],所採用的技術主要圍繞人臉面部器官之間(如眼鏡、鼻子、下巴等)的幾何結構特徵進行展開[15,16,17],因此這一技術也被稱為基於幾何特徵(Geometric Feature)的方法。

1966年,美國德克薩斯大學的Bledsoe[18,19]利用幾何特徵方法,研製出了第一個半自動的人臉識別系統。該系統首先手動選擇眼睛、鼻子、嘴部以及下頜等特徵點,然後根據這些特徵點計算出距離或角度參數值,如兩眼瞳孔之間的距離、兩眼瞳孔與鼻尖點的角度、鼻尖與兩嘴角間的距離等。同時,為了能夠比較不同尺度下的人臉圖像,該系統還將所得到的特徵向量進行了標準化的處理。其後,貝爾實驗室的Harmon、Goldstein等人[20]開發出了一個基於特徵比較的互動式人臉識別系統。該系統使用21個特徵值來構建人臉識別的參數向量。雖然其識別效果較好,但特徵點的選擇還是人工進行的。1973年,卡耐基梅隆大學的Kanade[21]提出了基於距離比例的自動特徵提取方法,開發出了第一個自動的人臉識別系統。該人臉圖像識別系統使用投影法來確定人臉圖像的眼睛、鼻子、嘴部等局部特徵,通過計算不同特徵點之間組成的距離、角度、面積等參數值來得到人臉的特徵向量,從而用於人臉圖像的比較與識別。然而,上述基於幾何特徵的方法對人臉圖像有嚴格的要求,比如人臉圖像必須為正面人臉圖像,也不能出現形變或旋轉。針對這些缺陷,哈佛大學Yuille等人[22,23]基於Fischler和Elschlager[24]的工作,提出了使用可變化的參數模型來表示人臉特徵的方法。其中,每個特徵都對應於一個參數模型,每個模型構造相應的能量函數,最後利用梯度下降法來尋找能量函數的最優值,進而查找出各部分的人臉特徵。

總的來說,基於幾何特徵的人臉識別方法由於其描述圖像的特徵向量十分簡潔,而且物理意義明確,所以識別速度快,並易於理解和應用。但又由於這種演算法過於簡單,忽略了局部特徵以及紋理信息,而僅僅利用了面部結構信息,因此必要信息有所丟失,人臉表達比較粗獷,識別精度不高。

3 第二階段(1991年--1998年)

第二階段人臉識別快速發展,出現了一系列經典的理論與演算法,是人臉識別技術的快速發展期 [14]。

1991 年,美國麻省理工學院的Turk、Pentland 及其他學者[25,26]將主成分分析(Principal Component Analysis, PCA)方法引入到人臉識別,提出了著名的Eigenface方法。PCA也稱為KL變換(Karhunenand Loeve Transformation)[27],其原理簡單,容易編程,速度較快,且識別效果好,可以解決一定實際問題。至今,依然有許多人臉識別方法在特徵提取預處理階段將PCA作為一個重要步驟。然而PCA方法也存在著一些不足。1、PCA本質上依賴於圖像的灰度相關性,所以對姿態變化、亮度、背景、偏移等的適應性較差;2、PCA適用於對小樣本的特徵提取效果,對大樣本的提取結果並不理想。為了克服PCA的缺陷,Belhumeur等[28,29]於1996年提出了基於線性判別分析(Linear DiscriminantAnalysis, LDA)的Fisherface方法。不同於無監督的PCA,LDA[28]通過考慮數據自身攜帶的類別標籤信息進行特徵提取,是一種有監督的方法。LDA的目標,是尋找一組投影向量,使得數據投影到低維空間後,具有最大類間散列度和最小類內散列度。因為考慮到了高維數據所攜帶的標籤信息,LDA往往能優化圖像數據的低維表示[30,31],更好應對光照、姿態等問題。但LDA方法依然有一些不足:1,LDA方法要求數據符合高斯分布,然而實際情況下的人臉數據未必都滿足高斯分布;2,類間散列度矩陣中的非零特徵值最多只能有C?1個(C為訓練樣本的類別數),LDA方法只能將原始數據最多降到C?1維,也因此LDA不能直接使用,往往結合PCA進行特徵提取;3,小樣本問題:在實際應用領域中,訓練樣本的特徵維度D遠大於訓練樣本的數量N,即D ? N ,從而容易導致類內散列度為奇異矩陣。然而毫無疑問,PCA和LDA是當時重要的理論成果。隨後大量沿著PCA和LDA的思想路徑的新方法被提出,比如基於非負矩陣分解(Non-negativeMatrix Factorization, NMF)[32,33]、基於核(Kernel)方法[34,35,36]等的多種子空間人臉識別演算法。

在此階段,還湧現了其他一些重要的理論與技術。1996年,洛克菲勒大學的Penev和Atick[37]提出了局部特徵分析(Local FeatureAnalysis, LFA)方法,該方法首先利用PCA建立一組局部的特徵向量,然後利用稀疏化(Sparsification)技術來得到一組相關性最少且附加有拓撲索引的特徵集合,最後選擇一組核函數來表徵人臉的局部特徵。LFA方法的優點是,它不僅能用低維的數據表示人臉空間,而且克服了PCA等方法只關注全局而忽略人臉圖像拓撲結構以及忽略人臉局部特徵(如眼鏡、鼻子、嘴部等)的問題。彈性圖匹配(Elastic GraphMatching, EGM)[38,39,40]在這一階段也被提出。通過二維結構的Gabor小波,EGM將人臉圖像表達成若干特徵點組成的人臉拓撲結構彈性圖。彈性圖的頂點代表面部關鍵特徵點,邊則代表不同特徵點之間的幾何關係。在進行圖匹配時,要在待識別的人臉圖像上進行點格陣的全局搜索和局部搜索,查找最相似的點格陣的匹配。該方法既建模了人臉的全局結構特徵,還能保留圖像中關鍵的局部特徵。同時,小波變換受光照、表情、圖像尺寸等因素的干擾較少,因此具備一定的魯棒性。但該方法也存在著不足,因為匹配過程需要反覆比較,所以計算量較大,識別速度較慢。另外,柔性形狀模型(FlexibleAppearance Model)[41,42,43,44,45]作為人臉建模上的重要模型,也在這一階段被提出。人臉的形狀不是一成不變的,同一個人的人臉形狀在不同時期、不同姿態下都會有所變化,而固定的人臉模型很難建模、表示出這些人臉變化。因此,Yuille等人[41,42]提出了使用參數化的可變模型技術來表示人臉各部分的局部特徵,通過模板的偏移、旋轉或者形變等操作,來得到模板的最佳匹配。而Lanitis等人[43,44,45]基於Yuille等人的思想,提出了成熟的柔性形狀模型技術。該技術由兩個階段組成:建模階段和識別階段。建模階段首先得到人臉的形狀模型和人臉的灰度值分布模型,然後在識別階段,利用上一階段得到的形狀和灰度值分布,進行身份的識別。

4 第三階段(1998年--2014年)

這一階段是人臉識別技術的成熟期,主要針對人臉識別中姿態、光照、表情、雜訊、遮擋等 外界因素變化,以及第二階段湧現的演算法的問題,提出了一系列新的演算法與理論。

在Eigenface的基礎上,為了解決光照、表情等的問題,Moghaddam和Pentland等[46,47]提出了概率主成分分析(ProbabilisticPCA) 方法。PPCA在計算兩幅人臉圖像之間的差異時,既考慮了人臉的不同導致圖像差異的可能性,也考慮了光照、表情等因素所引起的差異的可能性。因此該方法對人臉表情和光照的變化具有更好的魯棒性。另外,一些研究者注意到特徵值大的特徵向量可能並不是特徵提取最好的方向。Cappelli等[48]於是提出了多空間KL變換,把訓練集分割成多個不同的子集,這些子集採用不同的KL變換構造不同的子空間來表示不同的子模式。另外,傳統PCA方法是一種線性方法,難以發現高維非線性結構數據的內在結構。Kim等[34]據此提出了核主成分分析(Kernel PCA) 方法,通過非線性變換轉換人臉圖像的特徵空間,以此挖掘高維數據內在的非線性結構。隨後,另外一些PCA的擴展方法也相繼提出。Vasilescu和Terzopoulos[49]提出了多線性子空間(Multi-linear Space,MLS) 方法,在一種多線性框架下進行子空間分析,利用張量分解演算法N-nodeSVD,在多個相互關聯的特徵空間上進行維數約簡。Yang和Zhang[50]提出了二維PCA(Two-dimensional PCA)的人臉識別方法,該方法首先將人臉表示為二維圖像矩陣,並構建相應的協方差矩陣,再利用協方差矩陣的主要特徵向量來表徵人臉特徵。Cavalcanti等[51]提出了Eigenbands的人臉識別演算法,首先將人臉圖像分解成水平和垂直的條帶,然後採用PCA方法為每一條帶抽取特徵信息。甚至在近幾年,PCA方法仍然持續有人研究。Kadam[27]將PCA和離散餘弦轉換(Discrete Cosine Transform, DCT) 結合起來用於人臉數據降維,實驗結果顯示這種混合方法保證識別速度的同時,能獲得比簡單PCA更高的準確率。Bakhshi等人[52]先使用SIFT(Scale Invariant FeatureTransform)[53]和SURF(SpeededUp Robust Features)[54]提取人臉圖像的特徵,之後使用PCA處理圖像,能在光照、姿態、旋轉等條件下獲得更高的識別率。Poon等[55]通過實驗檢驗了各種不同的光照不變技術(illumination invariant techniques),發現其中一種Gradientfaces的技術在數據預處理階段結合PCA,能顯著提升人臉識別準確率。Barnouti和N.H.[56]提出了一種BP神經網路、PCA和DCT的混合方法。其中,BP神經網路結合PCA能更容易識別人臉,DCT能壓縮人臉數據並提升識別速度。

在Fisherface的基礎上,為了解決LDA的小樣本問題,Chen等[57]提出了一種新的LDA演算法用於求取類內散列度矩陣零空間中的最優判別矢量(optimal discriminant vector),並取得了較好的效果。Wang和Tang[58]採用隨機子空間和融合的方法用於改進Fisherface和N-LDA(Nullspace LDA) 演算法。他們還提出基於一種概率視覺模型的雙重空間LDA演算法[59],用於解決小樣本問題。Howland和Ye等人[60,61]採用GSVD(GeneralizedSingular Value Decomposition)演算法來解決傳統LDA演算法中的散列度矩陣奇異的問題。Lu等[62,63,64]將核方法引入到LDA中,提出了基於核的LDA演算法用於解決人臉識別中的人臉模式分布的非線性和小樣本問題。Jing等[65]將非相關最優判別矢量和Fisherface結合,用於改進傳統的LDA演算法。Yang等[66]提出了一種局部特徵判別分析的方法來解決小樣本問題。Liu等[35,67,68]採用餘弦核函數來提高判別分類的能力,同時採用基於幾何的特徵向量選擇機制來減少和判別分析演算法的計算複雜度。近幾年也提出了一些LDA的改進演算法。如,Murtaza等人[69]提出了AMFC-LDA(Adaptive Margin Fisher』s Criterion Linear Discriminant Analysis) 演算法來克服傳統 LDA 和最大間距準則 (Maximum Margin Criterion, MMC) 的問題。AMFC-LDA 演算法不再存在小樣本問題,不僅擁有較低的錯誤拒絕率(false rejection rate) 和錯誤接受率 (false acceptance rate),而且計算複雜度也得到一定程度的降低,同時收斂速度更快。

2000年開始,逐漸有研究表明人臉圖像並不滿足傳統演算法要求的線性可分的假設前提,而是處於或近似地處於嵌入到高維空間的低維流形上[70,71,72,73]。傳統人臉識別方法不能表達出人臉空間的凸起與凹進,這成為當時人臉識別突破的瓶頸問題。於是,流形學習(ManifoldLearning)[74,75]被開始引入到人臉識別中。基於流形學習的人臉識別方法可分為無監督、有監督和半監督三類。表1列出了一些基於流形學習的代表演算法[76]。流形學習的本質是挖掘高維數據的內在規律以及本徵結構。它假設所處理的高維數據實際上嵌入了一種低維的流形結構。如果能找到高維到低維的嵌入映射,便可抓住數據中的內在規律,實現維數約簡。相比於PCA、LDA等線性空間方法,流形學習所得到的子空間是一種非線性空間。非線性空間往往對人臉的特徵具有更好的表達,更能建模樣本的全局與局部拓撲結構[76]。

Table 1 Representation Algorithmsbased on Manifold Learning

表1 基於流形學習的代表性演算法

  • 類別1:無監督

    • 等距離特徵映射(Isometric Feature Mapping,ISOMAP)[71]
    • 局部線性嵌入(Locally Linear Embedding,LLE)[72]
    • 拉普拉斯特徵映射(Laplacian Eigenmaps,LE)[77]
    • 局部保持投影(Local Preserving Projections,LPP)[78]
    • 局部切空間排列(Local Tangent Space Alignment,LTSA)[79]
    • 鄰域保持嵌入(Neighborhood Preserving Eebedding,NPE)[80]
    • 無監督判別投影(Unsupervised Discriminant Projection,UDP)[81]
    • 正交鄰域保持投影(Orthogonal Neighborhood Preserving Projections,ONPP)[82]
    • 黎曼流形學習(Riemannian Manifold Learning,RML)[83]
    • 多視角鄰域保持投影(Multi-View Neighborhood Preserving Projections)[84]
    • 稀疏保持投影(Sparsity Preserving Projections,SPP)[85]
  • 半監督
    • 半監督判別分析(Semi-supervised Discriminant Analysis,SDA )[86]
    • 半監督子流形判別分析(Semi-supervised Sub-manifold Discriminant Analysis)[87]
    • 半監督局部費舍爾判別分析(Semi-supervised Local Fisher Discriminant Analysis)[88]
    • 多流形半監督學習(Multi-manifold Semi-supervised Learning,MMSSL)[89]
  • 有監督
    • 有監督局部線性嵌入(Supervised Locally Linear Embedding, SLLE)[90]
    • 有監督等距離特徵映射 (Supervised Isomap, SIsomap)[91]
    • 有監督局部切空間排列(Supervised Local Tangent Space Alignment,S-LTSA)[92]
    • 費舍爾判別分析 (Fisher Discriminant Analysis,FDA)[93]
    • 邊緣費舍爾分析(Marginal Fisher Analysis,MFA)[94]最大邊緣準則(Maximum Margin Criterion,MMC)[95]
    • 局部敏感判別分析(Locality Sensitive Discriminant Analysis,LSDA)[96]
    • 局部判別嵌入(Local Discriminant Embedding,LDE)[97]
    • 局部判別投影(Local Discriminant Projections,LDP)[98]
    • 監督局部保持投影(Supervised Localitiy Preserving Projections,SLPP)[99]
    • 多流形判別分析(Multi-Manifold Discriminant Analysis,MMDA)[100]
    • 判別多流形分析(Discriminative Multimanifold Analysis,MDA)[101]
    • 多流形局部線性嵌入(Multiple Manifold Locally Linear Embedding,MM-LLE)[102]

本質上來說,上述方法都是基於人臉全局信息的人臉識別方法,得到的人臉描述特徵被為全局特徵。全局特徵反映人臉的整體屬性,因為其特徵向量的每一維都包含了人臉圖像上所有部分甚至所有像素的信息[103]。與此相反,另一類人臉識別方法得到的人臉描述特徵被稱為局部特徵。局部特徵的每一維只包含人臉圖像上的一個局部的信息,相比與全局特徵,其側重於提取細節特徵,對姿態、光照、表情和遮擋等的變化不敏感[103],因此被逐漸廣泛應用在人臉識別上。Gottumukkal等[104]提出模塊化主成分分析(Modular PCA,ModPCA),其首先將人臉圖像劃分為若干個小的子模式或子圖像,然後所有子模式被當作整體,利用PCA提取其特徵,最後所有子模式集的特徵整合成全局特徵用於人臉的識別。但ModPCA忽略了子模式空間結構的位置信息,因此Chen和Zhu[105]提出了子模塊主成分分析(Sub-pattern based PCA, SpPCA)。不同於ModPCA將所有子模式看成整體,SpPCA將人臉圖像在相同區域下的所有子圖像劃分為子模式集,之後利用PCA對每個子模式集提取特徵向量。後續還提出了自適應加權子模式主成分分析(AdaptivelyWeighted Sub-pattern PCA)[106]和交叉子模式相關主成分分析(Cross-sub-patternbased PCA)[107]用於SpPCA方法的改進。當然除了PCA,另外一些常用的局部特徵方法有:局部二值模式(LocalBinary Pattern, LBP)[108]、Gabor小波[109,110,111]、局部非負矩陣分解(Local Non-negativeMatrix Factorization, LNMF)[112,113]等。另外,基於Gabor小波的人臉識別方法(如Gabor-Fisher Classifier[109], Local Gabor BinaryPattern[110], Weighted Sub-Gabor[111]等)在當時重多的公開資料庫和評測上都取得了很好的結果,因此被認為是一種非常有效的人臉表示方法,受到了眾多研究者的關注。

2009年,Wright等[114]結合壓縮感知(Compressive Sensing,CS) 理論[115]提出了稀疏表示分類(Sparse Representationbased Classification,SRC)的人臉識別方法。隨後,大量稀疏編碼(SparseCoding)方法開始被提出。基於稀疏編碼的人臉識別方法從另外一個新的角度來看待和處理人臉識別問題,其基本思想為:人臉測試樣本可以由若干個訓練樣本近似表達,且測試樣本屬於該近似表達中佔比最大的類別的概率最大。由於在測試樣本和訓練樣本之間架設了一座橋樑,這類方法往往能取得很好的性能,即使面臨臉部存在遮擋等複雜情況。也正因此,該方法被評價為當時人臉識別的重大突破之一。稀疏編碼演算法大致分為五類[116]:重構稀疏編碼(Reconstructive SparseCoding),有監督稀疏編碼(Supervised SparseCoding), 判別稀疏編碼(Discriminative SparseCoding), 結構稀疏編碼(Structured SparseCoding)和圖正則化稀疏編碼(Graph RegularizedSparse Coding)。表2列出了相應類別的一些代表演算法。稀疏編碼方法與傳統降維方法具有實質上一致的目標。即,為樣本提供一個某種意義上的最優描述,用於獲得較高分類正確率。但稀疏編碼方法與傳統降維方法的不同在於,傳統降維方法僅僅依據訓練樣本來為訓練樣本產生最優描述,而據此對測試樣本產生的描述結果卻不一定最優;而稀疏編碼方法則同時利用訓練樣本與當前測試樣本來為測試樣本提供一個最優描述。

Table 2 Representation Algorithmsbased on Sparse Coding

表2 基於稀疏編碼的代表性演算法

  • 重構稀疏編碼
    • 匹配追蹤 (Matching Pursuit, MP)[117]
    • 正交匹配追蹤 (Orthogonal Matching Pursuit, OMP)[118]
    • 基追蹤 (Basis Pursuit, BP)[119]
  • 監督稀疏編碼
    • Matching Pursuits with Time-Frequency Dictionaries[120]
    • 判別 KSVD(discriminative K-SVD, D-KSVD)[121]
    • 標籤一致 KSVD(label consistent KSVD, LC-KSVD)[122]
  • 判別稀疏編碼
    • 費舍爾判別字典學習(Fisher Discrimination Dictionary Learning)[124]
    • 最大間隔字典學習(Max-Margin Dictionary Learning)[125]
  • 結構稀疏編碼
    • 結構稀疏編碼(Structured Sparsity Coding)[126]
    • 組稀疏 (Group Sparse)[127]
    • 層次稀疏(Hierarchical Sparse)[128]
    • 聯合動態稀疏表示(Joint Dynamic Sparse Representation,JDSR)[129]
    • 圖正則化稀疏編碼
    • 圖拉普拉斯正則項稀疏編碼 (Graph Laplacian Regularization Sparse Coding)[130]
    • 海森稀疏編碼 (Hessian Sparse Coding)[131]
    • 超圖拉普拉斯正則化稀疏編碼 (Hypergraph Laplacian Sparse Coding)[132]

3 第四階段(2014年 -- 至今)

在2014年之前,人臉識別的主要技術路線是「人造或基於學習的局部描述子(如LBP,Gabor)+度量學習(distancemetric learning, DML)」。但從2014年開始,大量基於深度學習的人臉識別方法被相繼提出,人臉識別技術的主流技術路線開始轉為「深度學習+人臉圖像大數據」。基於深度學習的人臉識別方法近年來呈現出三種重要的趨勢。一是大模型,深度學習網路不斷變大變深;二是大數據,帶標註的人臉訓練數據不斷擴大,大數據成為性能提升的關鍵;三是大計算,GPU計算速度與內存的需求不斷加大。

2014年,Facebook公司Taigman等[133]提出了DeepFace網路,在LFW(Labeled Faces in theWild)[134]上取得了97.25%的準確率,首次接近人類水平,可謂是基於深度學習的人臉識別方法的奠基之作。DeepFace一共八層網路結構;前三層是傳統的CNN結構,用於提取低層次邊和紋理等特徵;接下來三層的卷積核用於提取人臉圖像的不同區域的不同的統計特徵;最後兩層是全連接層,用於建模處於不同位置的統計特徵之間的相關性。DeepFace在訓練時使用了4000個人的總共4百萬張圖片。同時,DeepFace在訓練神經網路前使用了3D對齊方法來解決傳統2D對齊不能解決的面外旋轉(out-of-planerotations)問題。另外,香港中文大學孫禕等人從2014年開始提出了一個系列的深度學習人臉識別方法[135,136,137,138]。與DeepFace不同的是,這類網路由一系列相同的小網路融合而成。每個小網路的輸入都是人臉圖像經過多尺度多通道多區域切分後的一個patch,之後每個patch學到的特徵向量通過整合最後得到整體人臉圖像的特徵向量。在他們最先提出的DeepID(Deep HiddenIDentity features) 網路[135]中,每個小網路由4個卷積層、3個pooling層和兩個全連接層組成,總共100個小網路。LFW數據集上的準確率為97.45%。DeepID2網路[136]沿襲了DeepID的基本思路,但在學習特徵的時候,除了考慮分類準確率,還加入了類間差距。在網路訓練時,一要最小化類內變化,二要最大化類間差別。DeepID2一共200個小網路,在LFW數據集上取得了99.15%的準確率。在DeepID2+[137]中,孫禕等人增加了對卷積神經網路的大量的分析,發現卷積神經網路對人臉圖像具有適度稀疏性、特徵選擇性和遮擋魯棒性等特性。DeepID2+由25個小網路組成,在LFW數據集上獲得了99.47%的準確率。隨後提出的DeepID3[138]相對於DeepID2+,借鑒了VGG-Net[139]的思想,網路層數更多,變得更深;引入了Inception[140]結構,整個網路感受野更大和非線性轉化更複雜。DeepID3也由25個網路組成,在LWF數據集取得了99.53%的成績。另外,這一系列網路都在訓練時通過使用外部數據集CelebFaces+來加大訓練數據。

2015年,谷歌公司的Schroff等[141]提出了FaceNet演算法。該演算法利用三元組損失函數進行網路訓練以直接將人臉圖像映射到歐幾里得空間,空間的距離代表了人臉圖像的相似性。人臉識別、驗證和聚類等任務都可以在該映射空間中完成。FaceNet使用了2億張人臉圖像進行訓練,在LFW測試集上,該演算法取得了99.63%的精度。同年,百度公司Liu等人[142]提出了一種兩步學習方法,首先利用multi-path深度CNN網路在人臉不同區域進行特徵提取,然後利用深度度量學習(Deep Metric Learning) 將前一階段學到的特徵向量降到128維。該演算法在18000人的120萬人臉數據上進行訓練,取得了LFW數據集99.77%的準確率。另外,騰訊公司[143]、曠視公司[144]等也都提出了自己的基於深度學習的演算法。

上述這些成果,幾乎宣告了LFW數據集從2008年到2015年以來長達八年的性能競賽的結束。LFW資料庫是真實條件下的人臉識別問題的測試基準,但對於實際應用中的遮擋、解析度、光照、對比度、抖動等影響人臉識別的複雜因素[7]依然沒有得到很好的覆蓋。因此,近年來一些更具有挑戰性的人臉資料庫開始發布,如IJB-A數據[145]、MegaFace資料庫[146]和微軟百萬名人資料庫[147]等。近年來的人臉識別的研究也開始逐漸聚焦於這些更具挑戰性的實際應用場景。比如,2016年南加州大學Iacopo Masi等人[148]提出了解決大姿態變化的方法,中科院計算所闞美娜等[149]提出了解決人臉跨視圖或跨姿態問題的MvDN方法。

總體說來,這一階段的人臉識別因為深度學習開始進入了一個新的時代。

4 總結與展望

作為生物特徵識別的典範,人臉識別經過幾十年的發展,已得到了廣泛的應用,基於人臉識別的商業公司也層出不窮。本文回顧了人臉識別在過去五十多年的發展歷史,介紹了人臉識別在各階段所取得的成果和面臨的挑戰。特別是近年來深度學習的興起使得人臉識別的準確率達到了新的高度。但未來基於深度學習的人臉識別的研究還有許多亟須待解決的問題與挑戰,分別表現在深度學習的三大支柱大數據、大模型、大計算上。

(1)從小數據甚至無數據中學習

大數據已經成為基於深度學習的人臉識別的標配,上百萬的人工標註的數據已經成為人臉識別性能提升的必要條件。但標註數據的獲取往往十分困難,而且代價昂貴。因此,如何讓機器從小樣本甚至是從無標註的數據里進行學習,即小樣本學習或無監督學習,是人臉識別的研究需要繼續突破的方向。

(2)從小模型中獲得高準確率

目前,基於深度學習的人臉識別模型大小一般在幾百兆甚至是上G的大小。這樣的模型難以在手機等移動設備上使用。因此,基於深度學習的人臉識別不僅要追求準確率,還要追求有效性。如何降低模型的大小,以降低設備的內存和存儲空間的佔用率,同時還保證模型的高準確率,是當前的一個努力的方向。

(3)從小計算中得到有效訓練

大數據與大模型是深度學習人臉識別方法的支柱,而大數據與大模型往往需要大計算。這種龐大的演算法計算量往往需要幾塊甚至上十塊最先進的GPU學習訓練幾周甚至上月的時間完成。這一方面增加了基於深度學習的人臉識別技術的准入門檻,同時對模型的調參帶來了極大的挑戰與困難。因此,如何設計出更高效、快速的訓練演算法,以期在小計算、小內存中也能進行模型計算,是基於深度學習的人臉識別演算法的又一挑戰。

參考文獻:

[1]Stuart Russell, Peter Norvig, and Artificial Intelligence. A modern approach.Artificial Intelligence. Prentice- Hall, Egnlewood Cliffs, 25:27, 1995.

[2]Nils J Nilsson. Artificial intelligence: a new synthesis. Elsevier, 1998.

[3]David Lynton Poole, Alan K Mackworth, and Randy Goebel. Computationalintelligence: a logical approach, volume 1. Oxford University Press New York,1998.

[4]George F Luger. Artificialintelligence: structures and strategiesfor complex problem solving. Pearsoneducation, 2005.

[5] AnilK Jain and Stan Z Li. Handbook of face recognition. Springer, 2011.

[6]Salil Prabhakar, Josef Kittler, Davide Maltoni, Lawrence O』Gorman, and TieniuTan. Introduction to the special issue on biometrics: Progress and directions.IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(4):513–516,2007.

[7]Ayman Abaza, Mary Ann F. Harrison, and Thirimachos Bourlai. Quality metrics forpractical face recognition.

In ICPR, 2012.

[8] 郭麗麗 and 丁世飛. 深度學習研究進展. 計算機科學, 42(5):28–33, 2015.

[9] YoshuaBengio et al. Learning deeparchitectures for ai. Foundations andtrends? in Machine Learning, 2(1):1–127, 2009.

[10]Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. Nature, 521(7553):436–444,2015.

[11]Francis Galton. Personal identification and description. Journal ofAnthropological Institute of Great Britain and Ireland, pages 177–191, 1889.

[12]Francis Galton. Numeralised profiles for classification and recognition. Nature,83:127–130, 1910.

[13]Woodrow W Bledsoe and Helen Chan. A man-machine facial recognition system—somepreliminary results.

Panoramic Research, Inc, Palo Alto, California.,Technical Report PRI A, 19:1965, 1965.

[14] 山世光. 人臉識別中若干關鍵問題的研究. 博士學位論文. 北京: 中國科學院計算技術研究所, 2004.

[15]Michael David Kelly. Visual identification of people by computer. Technicalreport, DTIC Document, 1970. [16] Leon D Harmon and Willard F Hunt. Automaticrecognition of human face profiles. Computer Graphics and Image Processing,6(2):135–156, 1977.

[17] LDHarmon, MK Khan, Richard Lasch, and PF Ramig. Machine identification of human faces. Pattern Recognition, 13(2):97–110, 1981.

[18]Woodrow W Bledsoe. The model method in facial recognition. Panoramic ResearchInc., Palo Alto, CA, Rep.

PR1, 15:47, 1966.

[19]Woodrow Wilson Bledsoe. Man-machine facial recognition. Rep. PRi, 22, 1966.

[20] AJay Goldstein, Leon D Harmon, and Ann B Lesk. Identification of human faces.Proceedings of the IEEE, 59(5):748–760, 1971.

[21]Takeo Kanade. Picture processing system by computer complex and recognition ofhuman faces. Doctoral dissertation, Kyoto University, 3952:83–97, 1973.

[22]Alan L Yuille, Peter W Hallinan, and David S Cohen. Feature extraction fromfaces using deformable tem- plates. International journal of computer vision,8(2):99–111, 1992.

[23]Alan L Yuille. Deformable templates for face recognition. Journal of CognitiveNeuroscience, 3(1):59–70, 1991.

[24]Martin A Fischler and Robert A Elschlager. The representation and matching ofpictorial structures. IEEE Transactions on computers, 100(1):67–92, 1973.

[25]Ian Jolliffe. Principal component analysis. Wiley Online Library, 2002.

[26]Matthew Turk and Alex Pentland. Eigenfaces for recognition. Journal ofcognitive neuroscience, 3(1):71–86, 1991.

[27]Kiran D Kadam. Face recognition using principal component analysis with dct.International Journal of Engineering Research and General Science, ISSN, pages2091–2730, 2014.

[28]Anil K Jain, Robert P. W. Duin, and Jianchang Mao. Statistical patternrecognition: A review. IEEE Trans- actions on pattern analysis and machineintelligence, 22(1):4–37, 2000.

[29]Peter N. Belhumeur, Jo?o P Hespanha, and David J. Kriegman. Eigenfaces vs.fisherfaces: Recognition using class specific linear projection. IEEETransactions on pattern analysis and machine intelligence, 19(7):711– 720,1997.

[30]Suman Kumar Bhattacharyya and Kumar Rahul. Face recognition by lineardiscriminant analysis. International Journal of Communication Network Security,2(2):31–35, 2013.

[31]Nawaf Hazim Barnouti, Sinan Sameer Mahmood Al-Dabbagh, Wael Esam Matti, andMustafa Abdul Sahib Naser. Face detection and recognition using viola-joneswith pca-lda and square euclidean distance. Interna- tional Journal of AdvancedComputer Science and Applications (IJACSA), 7(5), 2016.

[32]Daniel D Lee and H Sebastian Seung. Learning the parts of objects by non-negative matrix factorization.

Nature, 401(6755):788–791, 1999.

[33]Yuan Wang, Yunde Jia, Changbo Hu, and Matthew Turk. Non-negative matrixfactorization framework for face recognition. International Journal of PatternRecognition and Artificial Intelligence, 19(04):495–511, 2005.

[34]Kwang In Kim, Keechul Jung, and Hang Joon Kim. Face recognition using kernelprincipal component anal- ysis. IEEE signal processing letters, 9(2):40–42,2002.

[35]Qingshan Liu, Hanqing Lu, and Songde Ma. Improving kernel fisher discriminantanalysis for face recognition.

IEEE transactions on circuits and systems for videotechnology, 14(1):42–49, 2004.

[36]Francis R Bach and Michael I Jordan. Kernel independent component analysis.Journal of machine learning research, 3(Jul):1–48, 2002.

[37]Roberto Brunelli and Tomaso Poggio. Face recognition: Features versustemplates. IEEE transactions on pattern analysis and machine intelligence,15(10):1042–1052, 1993.

[38]Joachim Buhmann, Martin Lades, and Christoph von der Malsburg. Size anddistortion invariant object recog- nition by hierarchical graph matching. In NeuralNetworks, 1990., 1990 IJCNN International Joint Conference on, pages 411–416.IEEE, 1990.

[39]Martin Lades, Jan C Vorbruggen, Joachim Buhmann, J?rg Lange, Christoph von derMalsburg, Rolf P Wurtz, and Wolfgang Konen. Distortion invariant object recognitionin the dynamic link architecture. IEEE Trans- actions on computers,42(3):300–311, 1993.

[40]Laurenz Wiskott, Norbert Krüger, N Kuiger, and Christoph Von Der Malsburg. Facerecognition by elastic bunch graph matching. IEEE Transactions on pattern analysisand machine intelligence, 19(7):775–779, 1997.

[41] AL Yuille. Deformable templates for face recognition. Journal of cognitiveneuroscience, 3 1:59–70, 1991.

[42] AlanL. Yuille, Peter W. Hallinan, and David S. Cohen. Feature extraction from faces usingdeformable

templates. International Journal of Computer Vision,8:99–111, 1992.

[43] ALanitis, CJ Taylor, and TF Cootes. Automatic tracking, coding andreconstruction of human faces, using flexible appearance models. ElectronicsLetters, 30(19):1587–1588, 1994.

[44]Andreas Lanitis, Christopher J Taylor, and Timothy F Cootes. Automatic faceidentification system using flexible appearance models. Image and visioncomputing, 13(5):393–401, 1995.

[45]Andreas Lanitis, Christopher J. Taylor, and Timothy F. Cootes. Automaticinterpretation and coding of face images using flexible models. IEEETransactions on Pattern Analysis and machine intelligence, 19(7):743– 756,1997.

[46]Baback Moghaddam and Alex Pentland. Probabilistic visual learning for objectrepresentation. IEEE Trans- actions on pattern analysis and machineintelligence, 19(7):696–710, 1997.

[47]Baback Moghaddam, Tony Jebara, and Alex Pentland. Bayesian face recognition.Pattern Recognition, 33(11):1771–1782, 2000.

[48]Raffaele Cappelli and Davide Maltoni. Multispace kl for pattern representationand classification. IEEE Transactions on Pattern Analysis and MachineIntelligence, 23(9):977–996, 2001.

[49] MAlex O Vasilescu and Demetri Terzopoulos. Multilinear subspace analysis ofimage ensembles. In Computer Vision and Pattern Recognition, 2003. Proceedings.2003 IEEE Computer Society Conference on, volume 2, pages II–93. IEEE, 2003.

[50]Jian Yang, David Zhang, Alejandro F Frangi, and Jing-yu Yang. Two-dimensionalpca: a new approach to appearance-based face representation and recognition.IEEE transactions on pattern analysis and machine intelligence, 26(1):131–137,2004.

[51]George DC Cavalcanti et al. Eigenbands fusion for frontal face recognition. InImage Processing, 2003. ICIP 2003. Proceedings. 2003 International Conferenceon, volume 1, pages I–665. IEEE, 2003.

[52] YuktiBakhshi, Sukhvir Kaur, and Prince Verma. An improvement in face recognition for invariant faces.

International Journal of Current Engineering andTechnology, 6(2):423–426, 2016.

[53]David G Lowe. Distinctive image features from scale-invariant keypoints.International journal of computer vision, 60(2):91–110, 2004.

[54]Herbert Bay, Tinne Tuytelaars, and Luc Van Gool. Surf: Speeded up robustfeatures. In European conference on computer vision, pages 404–417. Springer,2006.

[55]Bruce Poon, M Ashraful Amin, and Hong Yan. Improved methods on pca based humanface recognition for distorted images. In Proceedings of the InternationalMultiConference of Engineers and Computer Scientists, volume 1, 2016.

[56]Nawaf Hazim Barnouti. Face recognition using pca-bpnn with dct implemented onface94 and grimace databases. METHODOLOGY, 2:0.

[57]Li-Fen Chen, Hong-Yuan Mark Liao, Ming-Tat Ko, Ja-Chen Lin, and Gwo-Jong Yu. Anew lda-based face recognition system which can solve the small sample sizeproblem. Pattern Recognition, 33:1713–1726, 2000.

[58]Xiaogang Wang and Xiaoou Tang. Random sampling lda for face recognition. InProceedings of the 2004 IEEE Computer Society Conference on Computer Vision andPattern Recognition, 2004. CVPR 2004., 2004.

[59]Xiaogang Wang and Xiaoou Tang. Dual-space linear discriminant analysis for facerecognition. In Proceedings of the 2004 IEEE Computer Society Conference onComputer Vision and Pattern Recognition, 2004. CVPR 2004., 2004.

[60]Peg Howland and Haesun Park. Generalizing discriminant analysis using thegeneralized singular value de- composition. IEEE transactions on patternanalysis and machine intelligence, 26(8):995–1006, 2004.

[61]Jieping Ye, Ravi Janardan, Cheong Hee Park, and Haesun Park. An optimizationcriterion for generalized discriminant analysis on undersampled problems. IEEETrans. Pattern Anal. Mach. Intell., 26:982–994, 2004.

[62]Juwei Lu, Konstantinos N. Plataniotis, and Anastasios N. Venetsanopoulos. Facerecognition using kernel direct discriminant analysis algorithms. IEEE Trans.Neural Networks, 14:117–126, 2003.

[63]Juwei Lu, Konstantinos N Plataniotis, and Anastasios N Venetsanopoulos.Regularized d-lda for face recogni- tion. In Acoustics, Speech, and SignalProcessing, 2003. Proceedings.(ICASSP』03). 2003 IEEE International Conferenceon, volume 3, pages III–125. IEEE, 2003.

[64]Juwei Lu, Konstantinos N. Plataniotis, and Anastasios N. Venetsanopoulos. Facerecognition using lda-based algorithms. IEEE Trans. Neural Networks,14:195–200, 2003.

[65]Xiao-Yuan Jing, David Zhang, and Yuan Yan Tang. An improved lda approach. IEEETrans. Systems, Man, and Cybernetics, Part B, 34:1942–1951, 2004.

[66]Qiong Yang, Xiaoqing Ding, and Z Chen. Discriminant local feature analysis offacial images. In Image Processing, 2003. ICIP 2003. Proceedings. 2003International Conference on, volume 2, pages II–863. IEEE, 2003.

[67]Wei Liu, Yunhong Wang, Stan Z. Li, and Tieniu Tan. Null space-based kernelfisher discriminant analysis for face recognition. In FGR, 2004.

[68]Qingshan Liu, Xiaoou Tang, Hanqing Lu, and Songde Ma. Kernel scatter-differencebased discriminant anal- ysis for face recognition. In ICPR, 2004.

[69]Marryam Murtaza, Muhammad Sharif, Mudassar Raza, and J Shah. Face recognitionusing adaptive margin fisher』s criterion and linear discriminant analysis. International Arab Journal of InformationTechnology,

11(2):1–11, 2014.

[70] HSebastian Seung and Daniel D Lee. The manifold ways of perception. science,290(5500):2268–2269, 2000.

[71]Joshua B Tenenbaum, Vin De Silva, and John C Langford. A global geometric framework for nonlinear

dimensionality reduction. science, 290(5500):2319–2323,2000.

[72]Sam T Roweis and Lawrence K Saul. Nonlinear dimensionality reduction by locallylinear embedding. science, 290(5500):2323–2326, 2000.

[73] YaChang, Changbo Hu, and Matthew Turk. Manifold of facial expression. In AMFG,2003.

[74] JB Tenenbaum, V de Silva, and J C Langford. A global geometric framework fornonlinear dimensionality reduction. Science, 290 5500:2319–23, 2000.

[75]Lawrence Cayton. Algorithms for manifold learning. Univ. of California at SanDiego Tech. Rep, pages 1–17, 2005.

[76] 易玉根. 基於全局與局部信息的人臉識別研究. PhD thesis, 東北師範大學, 2015.

[77]Mikhail Belkin and Partha Niyogi. Laplacian eigenmaps and spectral techniquesfor embedding and clustering.

In NIPS, 2001.

[78]Xiaofei He and Partha Niyogi. Locality preserving projections. In NIPS, 2003.

[79]Zhenyue Zhang and Hongyuan Zha. Principal manifolds and nonlineardimensionality reduction via tangent space alignment. SIAM journal onscientific computing, 26(1):313–338, 2004.

[80]Xiaofei He, Deng Cai, Shuicheng Yan, and HongJiang Zhang. Neighborhoodpreserving embedding. In Tenth IEEE International Conference on Computer Vision(ICCV』05) Volume 1, 2005.

[81]Jian Yang, David Zhang, Jing-Yu Yang, and Ben Niu. Globally maximizing, locallyminimizing: Unsupervised discriminant projection with applications to face andpalm biometrics. IEEE Trans. Pattern Anal. Mach. Intell., 29:650–664, 2007.

[82]Effrosini Kokiopoulou and Yousef Saad. Orthogonal neighborhood preservingprojections: A projection-based dimensionality reduction technique. IEEE Trans.Pattern Anal. Mach. Intell., 29:2143–2156, 2007.

[83]Tony Lin, Hongbin Zha, and Sang Uk Lee. Riemannian manifold learning fornonlinear dimensionality re- duction. In European Conference on ComputerVision, pages 44–55. Springer, 2006.

[84]Novi Quadrianto and Christoph H. Lampert. Learning multi-view neighborhoodpreserving projections. In ICML, 2011.

[85]Lishan Qiao, Songcan Chen, and Xiaoyang Tan. Sparsity preserving projectionswith applications to face recognition. Pattern Recognition, 43:331–341, 2010.

[86]Deng Cai, Xiaofei He, and Jiawei Han. Semi-supervised discriminant analysis. In2007 IEEE 11th International Conference on Computer Vision, 2007.

[87]Yangqiu Song, Feiping Nie, and Changshui Zhang. Semi-supervised sub-manifold discriminant analysis.

Pattern Recognition Letters, 29:1806–1813, 2008.

[88]Masashi Sugiyama, Tsuyoshi Idé, Shinichi Nakajima, and Jun Sese.Semi-supervised local fisher discriminant analysis for dimensionalityreduction. In PAKDD, 2008.

[89]Andrew B. Goldberg, Xiaojin Zhu, Aarti Singh, Zhiting Xu, and Robert D. Nowak.Multi-manifold semi- supervised learning. In AISTATS, 2009.

[90]Dick De Ridder, Olga Kouropteva, Oleg Okun, Matti Pietik?inen, and Robert Duin.Supervised locally linear embedding. Artificial Neural Networks and NeuralInformation Processing—ICANN/ICONIP 2003, pages

175–175, 2003.

[91]Xin Geng, De-Chuan Zhan, and Zhi-Hua Zhou. Supervised nonlinear dimensionality reduction for visu- alization andclassification. IEEE Transactions on Systems, Man, and Cybernetics, Part B(Cybernetics), 35(6):1098–1107, 2005.

[92]Hongyu Li, Wenbin Chen, and I-Fan Shen. Supervised local tangent spacealignment for classification. In IJCAI, pages 1620–1621, 2005.

[93]Ming-Hsuan Yang. Extended isomap for pattern classification. In AAAI/IAAI,pages 224–229, 2002.

[94]Shuicheng Yan, Dong Xu, Benyu Zhang, HongJiang Zhang, Qiang Yang, and StephenLin. Graph embedding and extensions: A general framework for dimensionalityreduction. IEEE Trans. Pattern Anal. Mach. Intell., 29:40–51, 2007.

[95]Haifeng Li, Tao Jiang, and Keshu Zhang. Efficient and robust feature extractionby maximum margin criterion.

In IEEE Transactions on Neural Networks, 2003.

[96]Deng Cai, Xiaofei He, Kun Zhou, Jiawei Han, and Hujun Bao. Locality sensitivediscriminant analysis. In IJCAI, 2007.

[97]Hwann-Tzong Chen, Huang-Wei Chang, and Tyng-Luh Liu. Local discriminantembedding and its variants.

In 2005 IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR』05), 2005.

[98]Jiani Hu, Weihong Deng, Jun Guo, and Weiran Xu. Learning a localitydiscriminating projection for classifi- cation. Knowl.-Based Syst., 22:562–568,2009.

[99]Jian Cheng, Qingshan Liu, Hanqing Lu, and Yen-Wei Chen. Supervised kernellocality preserving projections for face recognition. Neurocomputing,67:443–449, 2005.

[100]Wankou Yang, Changyin Sun, and Lei Zhang. A multi-manifold discriminantanalysis method for image feature extraction. Pattern Recognition,44:1649–1657, 2011.

[101]Jiwen Lu, Yap-Peng Tan, and Gang Wang. Discriminative multimanifold analysisfor face recognition from a single training sample per person. In IEEETransactions on Pattern Analysis and Machine Intelligence, 2011.

[102]R. Hettiarachchi and James F. Peters. Multi-manifold lle learning in patternrecognition. Pattern Recognition, 48:2947–2960, 2015.

[103] 蘇煜, 山世光, 陳熙霖, and 高文. 基於全局和局部特徵集成的人臉識別. 軟體學報, 21(8):1849–1862, 2010.

[104]Rajkiran Gottumukkal and Vijayan K. Asari. An improved face recognitiontechnique based on modular pca approach. Pattern Recognition Letters, 25:429–436,2004.

[105]Songcan Chen and Yulian Zhu. Subpattern-based principal component analysis.2004.

[106]Keren Tan and Songcan Chen. Adaptively weighted sub-pattern pca for facerecognition. Neurocomputing, 64:505–511, 2005.

[107]Kadappagari Vijaya Kumar and Atul Negi. Subxpca and a generalized featurepartitioning approach to prin- cipal component analysis. Pattern Recognition,41:1398–1409, 2008.

[108]Timo Ahonen, Abdenour Hadid, and Matti Pietik?inen. Face recognition with localbinary patterns. In ECCV, 2004.

[109]Chengjun Liu and Harry Wechsler. Gabor feature based classification using theenhanced fisher linear dis- criminant model for face recognition. IEEE Trans.Image Processing, 11:467–476, 2002.

[110]Wenchao Zhang, Shiguang Shan, Wen Gao, Xilin Chen, and Hongming Zhang. Localgabor binary pattern histogram sequence (lgbphs): a novel non-statistical modelfor face representation and recognition. In Tenth IEEE International Conferenceon Computer Vision (ICCV』05) Volume 1, 2005.

[111]Loris Nanni and Dario Maio. Weighted sub-gabor for face recognition. PatternRecognition Letters, 28:487– 492, 2007.

[112]Stan Z. Li, XinWen Hou, HongJiang Zhang, and QianSheng Cheng. Learningspatially localized, parts-based representation. In CVPR, 2001.

[113] Yu-LianZhu. Sub-pattern non-negative matrix factorization based on random subspace forface recognition. In Wavelet Analysis and Pattern Recognition, 2007. ICWAPR』07.International Conference on, volume 3, pages 1356–1360. IEEE, 2007.

[114]John Wright, Allen Y Yang, Arvind Ganesh, S Shankar Sastry, and Yi Ma. Robustface recognition via sparse representation. IEEE transactions on patternanalysis and machine intelligence, 31(2):210–227, 2009.

[115]David L Donoho. Compressed sensing. IEEE Transactions on information theory,52(4):1289–1306, 2006. [116] WeifengLiu, Dacheng Tao, Jun Cheng, and Yuanyan Tang. Multiview hessian discriminativesparse coding for image annotation. Computer Vision and Image Understanding,118:50–60, 2014.

[117]Stéphane Mallat and Zhifeng Zhang. Matching pursuits with time-frequencydictionaries. IEEE Trans. Signal Processing, 41:3397–3415, 1993.

[118]Y. C. PATI and R. REZAIIFAR. Orthogonal matching pursuit: Recursive functionapproximat ion with appli- cations to wavelet decomposition. 1993.

[119] Scott Saobing Chen, David L. Donoho, andMichael A. Saunders. Atomicdecomposition by basis pursuit.

SIAM Review, 43:129–159, 1998.

[120]Duc-Son Pham and Svetha Venkatesh. Joint learning and dictionary constructionfor pattern recognition. In 2008 IEEE Conference on Computer Vision and PatternRecognition, 2008.

[121]Qiang Zhang and Baoxin Li. Discriminative k-svd for dictionary learning in facerecognition. In 2010 IEEE Computer Society Conference on Computer Vision andPattern Recognition, 2010.

[122]Zhuolin Jiang, Zhe L. Lin, and Larry S. Davis. Learning a discriminativedictionary for sparse coding via label consistent k-svd. In CVPR, 2011.

[123]Julien Mairal, Francis R. Bach, Jean Ponce, Guillermo Sapiro, and AndrewZisserman. Discriminative learned dictionaries for local image analysis. In2008 IEEE Conference on Computer Vision and Pattern Recognition, 2008.

[124]Meng Yang, Lei Zhang, Xiangchu Feng, and David Zhang. Fisher discriminationdictionary learning for sparse representation. In 2011 International Conferenceon Computer Vision, 2011.

[125]Xiao-Chen Lian, Zhiwei Li, Bao-Liang Lu, and Lei Zhang. Max-margin dictionarylearning for multiclass image categorization. In ECCV, 2010.

[126]Junzhou Huang, Tong Zhang, and Dimitris Metaxas. Learning with structuredsparsity. Journal of Machine Learning Research, 12(Nov):3371–3412, 2011.

[127]Ming Yuan and Yi Lin. Model selection and estimation in regression with groupedvariables. Journal of the Royal Statistical Society: Series B (StatisticalMethodology), 68(1):49–67, 2006.

[128]Rodolphe Jenatton, Julien Mairal, Francis R Bach, and Guillaume R Obozinski.Proximal methods for sparse hierarchical dictionary learning. In Proceedings ofthe 27th international conference on machine learning (ICML-10), pages 487–494,2010.

[129]Haichao Zhang, Nasser M Nasrabadi, Yanning Zhang, and Thomas S Huang. Jointdynamic sparse represen- tation for multi-view face recognition. PatternRecognition, 45(4):1290–1298, 2012.

[130]Miao Zheng, Jiajun Bu, Chun Chen, Can Wang, Lijun Zhang, Guang Qiu, and DengCai. Graph regularized sparse coding for image representation. IEEE Trans.Image Processing, 20:1327–1336, 2011.

[131]Miao Zheng, Jiajun Bu, and Chun Chen. Hessian sparse coding. Neurocomputing, 123:247–254,2014.

[132]Shenghua Gao, Ivor W. Tsang, and Liang-Tien Chia. Laplacian sparse coding,hypergraph laplacian sparse coding, and applications. IEEE Trans. Pattern Anal.Mach. Intell., 35:92–104, 2013.

[133]Yaniv Taigman, Ming Yang, Marc』Aurelio Ranzato, and Lior Wolf. Deepface:Closing the gap to human-level performance in face verification. In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition, pages1701–1708, 2014.

[134]Gary B Huang, Manu Ramesh, Tamara Berg, and Erik Learned-Miller. Labeled facesin the wild: A sdatabase for studying face recognition in unconstrainedenvironments. Technical report, Technical Report 07-49, Uni- versity ofMassachusetts, Amherst, 2007.

[135]Yi Sun, Xiaogang Wang, and Xiaoou Tang. Deep learning face representation frompredicting 10,000 classes.

In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition, pages 1891–1898, 2014.

[136]Yi Sun, Yuheng Chen, Xiaogang Wang, and Xiaoou Tang. Deep learning facerepresentation by joint identification-verification. In Advances in neuralinformation processing systems, pages 1988–1996, 2014.

[137]Yi Sun, Xiaogang Wang, and Xiaoou Tang. Deeply learned face representations aresparse, selective, and robust. In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, pages 2892– 2900, 2015.

[138]Yi Sun, Ding Liang, Xiaogang Wang, and Xiaoou Tang. Deepid3: Face recognitionwith very deep neural networks. arXiv preprint arXiv:1502.00873, 2015.

[139]Karen Simonyan and Andrew Zisserman. Very deep convolutional networks forlarge-scale image recognition.

CoRR, abs/1409.1556, 2014.

[140]Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott E. Reed,Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich.Going deeper with convolutions. CoRR, abs/1409.4842, 2015.

[141]Florian Schroff, Dmitry Kalenichenko, and James Philbin. Facenet: A unifiedembedding for face recognition and clustering. In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, pages 815–823, 2015.

[142]Jingtuo Liu, Yafeng Deng, Tao Bai, and Chang Huang. Targeting ultimateaccuracy: Face recognition via deep embedding. CoRR, abs/1506.07310, 2015.

[143] BileiZhu and Hong Liu. Mirex 2015 qbsh task: Tencent bestimage』s solution. 2015.

[144]Erjin Zhou, Zhimin Cao, and Qi Yin. Naive-deep face recognition: Touching thelimit of lfw benchmark or not? CoRR, abs/1501.04690, 2015.

[145]Brendan Klare, Benjamin Klein, Emma Taborsky, Austin Blanton, Jordan Cheney,Kristen Allen, Patrick Grother, Alan Mah, Mark Burge, and Anil K. Jain. Pushingthe frontiers of unconstrained face detection and recognition: Iarpa janusbenchmark a. In 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015.

[146]Ira Kemelmacher-Shlizerman, Steven M. Seitz, Daniel Miller, and Evan Brossard.The megaface benchmark: 1 million faces for recognition at scale. In 2016 IEEEConference on Computer Vision and Pattern Recognition (CVPR), 2016.

[147]Yandong Guo, Lei Zhang, Yuxiao Hu, Xiaodong He, and Jianfeng Gao. Ms-celeb-1m:A dataset and bench- mark for large-scale face recognition. In ECCV, 2016.

[148]Iacopo Masi, Stephen Rawls, Gérard G. Medioni, and Premkumar Natarajan.Pose-aware face recognition in the wild. In 2016 IEEE Conference on ComputerVision and Pattern Recognition (CVPR), 2016.

[149]Meina Kan, Shiguang Shan, and Xilin Chen. Multi-view deep network forcross-view classification. In 2016 IEEE Conference on Computer Vision andPattern Recognition (CVPR), 2016.


推薦閱讀:

平台現漏洞被盜刷28萬,「人臉識別」真的這麼容易被破解?
【技術綜述】一文道盡softmax loss及其變種
麻省理工媒體實驗室:面部識別軟體「更喜歡」白人男性用戶
人臉辨識技術也存在膚色和性別歧視?

TAG:人臉識別 |