【深度】申省梅顏水成團隊獲國際非受限人臉識別競賽IJB-A冠軍，主要負責人熊霖技術分享

07-06

【新智元導讀】開發出精確的和可擴展的無約束人臉識別演算法，是生物識別和計算機視覺領域長期以來不斷追求的目標。為了促進非受限條件下的人臉識別，美國國家技術標準局（NIST）主辦了IJB-A競賽。新加坡松下研究院與新加坡國立大學LV組去年兩次奪得冠軍，項目負責人新加坡松下研究院的研究工程師熊霖進行了專訪，分享技術細節以及參賽經驗。

開發出精確的和可擴展的無約束人臉識別演算法，是生物識別和計算機視覺領域長期以來不斷追求的目標。然而，實現這一點難度非常大，因為「無約束」需要人臉識別系統能在各種面部圖像採集條件下（不同的光照、不同的感測器，以及是否進行了壓縮），或者在被拍攝者各種主觀條件下（面部的不同姿態、不同表情以及是否有遮擋），都能成功進行驗證與識別。

去年3月，新加坡松下研究院與新加坡國立大學LV組參加了美國國家技術標準局（NIST）主辦的非受限條件下人臉識別競賽IJB-A，之後收到通知，獲得了人臉驗證（verification）與人臉辨認（identification）的雙項冠軍。

不過，他們在位居榜首三個月後被一家商業機構超越。但是，團隊繼續努力，找到差距，彌補不足，最終再次拿到目前已發表文章及arXiv技術報告中的最好性能。

在這樣的背景下，新智元對項目負責人新加坡松下研究院的研究工程師熊霖進行了專訪，分享技術細節以及參賽經驗。

不過，你首先可能會問：IJB-A人臉識別競賽是怎樣的一個比賽？

早在2007年，Huang等人在一篇技術報告[1]提出並發布了後來非常著名的LFW人臉數據集，該數據集確實為後來推動無約束人臉識別演算法起到了很大的作用。這個數據集包括在不受控或「自然環境下」採集的被拍攝者的靜態圖像。

自LFW數據集發布以來，許多類似的人臉數據集被相繼發布，比如PubFig[2]和YouTube Faces（YTF）[3]。LFW和PubFig僅包含被拍攝者的靜態圖像，而YTF人臉數據則包含被拍攝者的一段視頻。LFW和YTF等數據發布後，吸引了大量的學術機構和工業界團隊去提升演算法在這些數據集上的性能。

如今，尤其在LFW數據集上，已經有許多人臉識別演算法的性能接近[4][5]甚至超越了人類的水平[6][7]。然而，無約束人臉識別演算法的性能在很多實際的應用場景（比如監控系統），仍需亟待提高。究其原因，部分是因為所採用的評估協議沒有充分考慮到無約束場景中圖像實際採集的需求[8]，但可能更多的原因，來自於數據集，比如LFW和YTF等都不完全是在無約束環境下採集的。

基於上面的這些原因，美國國家標準與技術研究院（National Institute of Standards andTechnology，NIST）於2015年發起了一項旨在推動無約束人臉檢測與識別的挑戰賽，並將相關的數據集IARPAJanus Benchmark A（IJB-A）發布在當年CVPR的論文中[9]。

不同於LFW和YTF，IJB-A具有如下新特點：

不僅包括被拍攝者的靜態圖像，也包括被拍攝者的視頻片段。因為這個特點，論文引入了「模板」的概念，也即在無約束條件下採集的、所有感興趣面部媒體的一個集合，這個媒體集合不僅包括被拍攝者的靜態圖像，也包括視頻片段。
所有媒體都是在完全無約束環境下採集的。很多被拍攝者的面部姿態變化巨大，光照變化劇烈以及擁有不同的圖像解析度。
因為一個模板代表一個集合，所以最終的人臉驗證與識別不是基於單個圖像，而是基於集合對集合。此外，被拍攝者也來自世界不同國家、地區和種族，具有廣泛的地域性。

正是因為IJB-A數據集擁有以上這三方面的新特點，使得該數據集非常符合實際的應用場景。當然，隨之帶來的也是巨大的挑戰。在論文[9]中, 作者擴展了現有的評估協議到基於模板的場景，並針對人臉識別任務設計了開集（open-set）和閉集的評測協議（所謂開集評測協議，就是測試圖像 [probe] 可能並不在註冊集中出現）。

這些新特點就成為新加坡松下研究院和新加坡國立大學LV組參加 NIST IJB-A 人臉挑戰賽的主要動機。團隊成員表示，希望他們提出的演算法能夠在完全無約束環境下更加魯棒，性能得到顯著提升。

新加坡松下研究院與新加坡國立大學LV組合作論文，非受限條件人臉識別目前已發表文章及arXiv技術報告中的最好性能。

從三處尋找突破口，提出冠軍模型「深度遷移特徵融合聯合學習框架」

新智元：這次獲勝的具體演算法/模型是什麼？相較於其他參賽解決方案的優勢在哪裡？

NIST 在2015年召開的CVPR上發布了IJB-A人臉驗證與識別數據集，並同時拉開了圍繞該數據集的人臉挑戰賽的帷幕，我們於2016年10月正式決定參加該挑戰賽並於2017年4月的NIST官方報告中，分別在驗證1:1和識別1:N上都取得了第一的成績，這不是僅僅依靠單個演算法或模型所能做到的。我們的聯合學習框架稱之為遷移深度特徵融合，具體可參見我們的arXiv預印版論文[1]，我們的最新結果將在即將更新的arXiv預印版論文里展示。

不同於其他挑戰賽所提供的數據集，例如COCO、ImageNet 以及MS-Celeb-1M等都提供了動輒幾十萬，幾百萬甚至上千萬的數據，IJB-A數據則只包含來自500個對象的5396副靜態圖像和20412幀的視頻數據，顯然這樣規模的數據是無法直接用來訓練一個深層網路模型的。所以絕大部分的參賽方案都會使用外部數據並設計部署深層模型進行訓練，然後在IJB-A數據上進行微調或在低維嵌入空間再訓練另一個簡單的模型以此來獲得一個不錯的成績。簡而言之，我們要想提出針對IJB-A人臉挑戰賽的解決方案，那必然要從以下三處尋找突破口：外部數據、設計並部署深層模型和受遷移學習思想的啟發是微調網路還是在低維嵌入空間再訓練一個簡單的模型。

具體來說，通過比較眾多論文中IJB-A的結果，大多數方法都是基於深層網路的單一演算法或單一模型，我們將這些演算法總結為兩類：一類是基於深層網路的單一演算法或單一模型並輔以增加判別性信息的損失函數，好處是可以進行端到端的訓練，但還需要在IJB-A原始數據上微調深層網路來獲得一個不錯的成績；另一類也是基於深層網路的單一演算法或模型但並非端到端的訓練，前段基於深度模型，後段則通過將前段訓練的深層網路作為特徵提取器來提取IJB-A原始數據的低維特徵，並對這些低維特徵在低維嵌入空間進行測度學習來提升系統整體的判別性，最終獲得一個不錯的性能。這種分開的訓練，好處是後段測度學習可以靈活選擇，並且訓練的代價要比微調深層網路小不少，但不能利用端到端訓練的優勢。在NIST的官方報告中，只有結果的比拼也未透露參賽者具體的演算法和模型。

在外部數據方面，我們除了收集公共的人臉識別數據集外，也在網上爬取和採集各種符合項目要求的人臉數據，這其中涵蓋了不同性別、不同年齡段、不同種族和不同地域的被拍攝對象。我們採集不同表情、不同光照條件和不同面部姿態的人臉數據，除了靜態圖像也包含攝像頭捕捉的動態視頻數據。

在設計並部署深層模型方面，縱觀各種挑戰賽，比如ImageNet, MS-Celeb-1M 以及 COCO等，要想衝擊更高的性能，參賽的團隊都會考慮多模型融合或集成的策略。我們吸取了這樣的經驗，但與通常採用的同構多模型融合策略（同一深層模型，同一訓練數據）不同，我們的聯合學習框架中則採用了異構多模型的融合策略。具體來說，我們知道，不同的深層模型由於設計思路的不同（卷積核的大小，是否考慮空間尺度信息，網路的深度和寬度的差異，各通道間的關係等等）其表達能力也大不同，但這些表達能力之間有沒有互補性？我們早期通過初步的實驗發現，確實存在這樣的互補性，尤其網路結構差別越大，這種互補性也就越強。那麼不同的訓練數據呢？我們通過實驗發現，即便採用相同的深層模型訓練，在同一目標數據上，其低維的特徵同樣也有互補性。為了充分挖掘和利用這樣的互補性，我們在聯合學習框架中部署了兩路具有巨大結構差異的深層網路並使用不同的大規模數據進行訓練。

在利用遷移學習的思想時，我們同時採用了兩種策略，即在低維嵌入空間再訓練一個簡單的測度學習模型和微調網路但不在局限於原始的IJB-A數據。對於第一種策略，我們通過模板自適應的思想設計了使用特定模板（IJB-A數據里引入了模板的概念，所謂模板是指一個集合，這個集合不僅包括被攝對象的靜態圖像也包括視頻片段）來訓練支撐矢量機以得到特定的測度信息，目的就是為了增強系統的判別性，這其中我們針對支撐矢量機也巧妙的設計了訓練集和測試集，並且採用了兩段融合的思想（特徵融合與相似度分數融合），詳細信息可以參見[1]。

對於第二種策略，我們並不滿足於原始的IJB-A數據，因為我們通過分析原始IJB-A數據發現，由於數據本身的面部多姿態性，面部姿態（比如偏向角）的分布是極不均衡的，尤其在大角度視角下具有長尾效應，如果直接使用IJB-A數據進行網路微調，勢必最終的演算法性能會是有偏的（受佔主要正面或接近正面視角數據的影響），受蘋果在CVPR 2017上獲得最佳論文獎的工作[4]啟發，我們提出了雙代理的對抗生成網路用來生成逼真的多視角的面部姿態以獲得均衡分布的IJB-A面部姿態數據。我們的方法可以看作是針對特定問題的數據增強方法並且可以推廣到用於俯仰角的分析，詳細信息可以參見[3]。

設計思路與關鍵：數據與基線深層網路模型的設計與部署

新智元：設計思路是怎樣的？關鍵點在哪裡？

正如我在前面分析的，我們的參賽方案著眼於三點：數據（包括外部數據和經過我們設計的增強方法而得到的增強版的IJB-A數據）、基線深層網路模型和受遷移學習思想啟發的利用增強版IJB-A數據微調網路，以及在低維嵌入空間訓練測度學習模型。這裡的每一點都對我們最終能夠在驗證1:1和識別1:N上都取得第一都至關重要。這其中關鍵的還是數據與基線深層網路模型的設計與部署。

對於外部數據，我們不但使用了公開的人臉識別數據集，比如VGG 人臉數據集[5]，其中包括2622 個對象且每個對象擁有約1000副靜態圖像，而且也使用了我們自己採集並整理的人臉數據。對所有人臉數據我們都進行了數據清理，人臉檢測、人臉對齊以及標準化等預處理。其中我們自行設計的數據清理和標準化等預處理方法同樣用到了早先我們參加的微軟的百萬名人識別競賽MS-Celeb-1M，詳細信息可以參見[2]。

對於增強版的IJB-A數據，最令人自豪的是，我們提出的雙代理對抗生成網路是第一個針對人臉面部姿態（不同偏向角）做數據增強的模型，並且這種模型是可控的並能產生逼真的人臉面部姿態，尤其在完全無約束環境下我們的通過生成識別（recognition via generation）框架能夠極大改善演算法的性能。相關成果已經發表在NIPS 2017。

雙代理對抗生成網路論文，已經在NIPS 2017發表，是第一個針對人臉面部姿態（不同偏向角）做數據增強的模型

對於基線深層網路模型，我們採用了異構多模型的融合策略。就是為了充分挖掘和利用不同深層網路結構和不同數據間的互補性，我們在聯合學習框架中部署了兩路具有巨大結構差異的深層網路並使用不同的大規模數據進行訓練。當然，在訓練深層網路模型時有效的數據增強方法也很重要，需要針對IJB-A數據的特點做出相應設計，比如光照的劇烈變化。

此外，我們的聯合學習框架包含兩階段的融合，即特徵融合與相似度分數融合。

無約束人臉識別難點與挑戰：同一對象面部姿態變化劇烈

新智元：針對無約束人臉識別，當前主流的方法是什麼（有哪些）？這些方法存在哪些問題或局限？存在這些局限的原因是什麼？

針對完全無約束環境下的人臉識別，特別是在面部姿態變化劇烈的場景下的人臉識別，有研究論文[6]指出，當應用場景從正面-正面轉換到正面-側面或側面-正面後，大多數人臉驗證演算法的性能會有超過10%的性能損失。這表明，面部姿態的劇烈變化仍然是今後人臉識別演算法需要亟待解決的問題。這主要是因為同一對象的面部姿態的劇烈變化遠超過不同對象間內在的面部外觀的變化。

為了克服上面的挑戰，根據最近提出的多種方法，我們可以歸結為兩大類。第一類是從各種面部姿態數據中直接學習姿態不變的判別性表示，我們提出的遷移深度特徵融合的聯合學習框架也屬於這一類。具體方法包括我們前面提到的基於深層網路的單一演算法或單一模型並輔以增加判別性信息的損失函數[5][7]，以及基於多模態或多姿態的方法[8][9]。前者的局限在於僅考慮的單一的訓練數據和單一的深層網路模型，並且網路的層數與現在主流的深層模型相比還不夠深，比如[5]中使用了VGG16或VGG19 的網路結構，[7]中使用了類似GoogLeNet的22層結構。作者做出這樣的選擇，一是更高效的反向傳播梯度信息流的網路結構還未被提出，對於更深的網路結構還無法有效探求，二是可能也由於當時硬體算力的制約。Triplet Loss 損失函數在這些方法中的得到使用，使得其被大家所熟知，但所帶來的演算法性能的提升有限，更多的性能提升還是來自於大規模的訓練數據和有效的深層模型。後者的局限在於需要針對不同模態不同姿態去分別學習各自的深層網路模型，當模態數量和姿態數量增加，此外如果訓練數據本身非常龐大，那訓練多模態和多姿態所需的訓練數據也將線性增加，這都將使得訓練多個深層神經網路所帶來的時間和計算成本非常巨大。在對抗生成網路誕生之前，生成特定姿態的人臉數據仍然有不少問題需要解決，比如使用3D模型，但生成的面部數據尤其是大姿態下會出現面部紋理細節丟失的現象，而我們提出的方法[3]可以有效解決這個問題。

第二類是通過人臉合成的方法將大姿態的人臉（比如大偏向角的側臉）正面化（frontalization）為正臉，然後再用標準的人臉驗證與識別演算法去做最終的判斷。最具代表性的方法是TP-GAN (Two-Pathway Generative Adversarial Network)[10],論文中展示的將側臉生成正臉的可視化結果是讓人震撼的，這足以顯示出對抗生成網路具有強大的生命力。但經我們模擬復現該方法時發現，TP-GAN對Multi-PIE[12]數據有嚴重的過擬合問題，特別是想推廣該方法到IJB-A數據時。這當然與該模型就是在Multi-PIE數據上訓練有直接關係。更主要的原因是要想訓練TP-GAN，針對數據的要求是比較嚴格的（需要有成對的正臉和側臉數據，側臉相應的標註點信息，如眼睛、鼻子和嘴巴的位置信息），能符合條件的數據很少，如果想將演算法推廣到IJB-A數據，那Multi-PIE幾乎是唯一選擇。

最近，L.Tran等人[11]提出的DR-GAN (Disentangled Representation learning-Generative Adversarial Network)，為試圖將前兩類方法結合起來做了初步的嘗試。但DR-GAN在Multi-PIE上的性能與TP-GAN相比還是有差距。雖然DR-GAN在IJB-A上表現出不錯的性能，但與第一類方法相比還有很大的提升空間。

截止發稿前，我們通過改進基線深層網路模型、增加了新的外部訓練數據以及增加了一些訓練技巧，使得我們的演算法在IJB-A數據上的性能又被刷到了歷史新高，同時我們對人臉合成的方法同樣也抱有濃厚的興趣，也希望充分利用前兩類方法的優勢做出新的演算法突破，相關的論文我們會陸續放出。

意外：驗證數據出現在了訓練數據里

新智元：比賽中有遇到意外嗎？如何解決的？

任何科學實驗都可能伴隨著意外情況，近期我們在做相關實驗時確實遇到了一個意外情況。為了進一步提高我們演算法在IJB-A數據上的性能，使其有更大的突破，我們組織實習生在互聯網上爬取相關的人臉數據，根據[5]的建議，我們主要選擇抓取名人的圖片以及大量公開的照片其中包括著名的運動員，影視歌演員以及政治家和國家領導人等，且希望儘可能覆蓋不同性別、不同年齡段、不同種族、不同地域、不同表情、不同光照條件和不同面部姿態的人臉數據，以求滿足IJB-A數據所具有的完全無約束條件。這樣，我們就得到了一個人名列表和對應的靜態圖片集，為了保證每個對象至少包含100副變化多樣的面部數據，我們做了適當篩選。

整個過程我們花費了前後1個多月的時間。然後我們也收集了已經公布的最新的人臉識別數據集，光將兩者整合和做數據清洗等預處理也花費了近3個月時間。這包括使用多個人臉檢測演算法，多級的檢測靜態圖片集以防止漏檢，針對誤檢和檢測出多張人臉的情況，我們使用在其他數據集上預訓練好的超過百層的深層神經網路提取特徵並計算相似性分數，再經過選擇適當閾值進行篩選，最後我們得到了約1萬個對象，近400萬副圖片的資料庫。

我們使用這個數據集來訓練經改進的基線深層網路模型，在IJB-A數據集上來驗證我們的演算法的性能，最後確實獲得了意想不到的高性能。當看到我們的演算法性能有了很大突破，正為此而歡呼雀躍時，突然我們研究人員發現忘記將新獲得的數據集與IJB-A數據集做去重處理。

這個消息確實給了我們當頭一棒，因為驗證數據出現在了訓練數據里，即便佔比很少在機器學習方法論里也是不被允許的。為了追求嚴謹和公平的科研精神，我們根據人名列表重新設計了工具用於做IJB-A數據的去重處理。最後雖然性能上有輕微的降低，但我們最大程度上保證了嚴謹和公平。

參賽的硬體條件/配置如何？在過去一年，硬體或者說晶元的發展，對你們的工作是否有影響？

我們研究院對深度學習的項目都是大力支持的，這保證了我們可以使用到最新的GPU。我們在設計第一版演算法時，訓練兩個都是百萬數據的深層網路時（網路深度最多也就50層），使用的是英偉達麥斯威爾(Maxwell)核心的Tesla M40 GPU，每個網路的訓練都使用4塊卡，一個模型完整的訓練最長需要12天。後面有了英偉達帕斯卡(Pascal)核心的GTX Titan X。我們加深了網路結構，同樣每個網路的訓練都使用4塊卡，一個模型完整的訓練最長甚至需要18天。而最近我們使用了更大的數據集，並使用超過一百層的深度網路結構，通過英偉達的DGX-1的Tesla P100 4塊GPU，一個有效模型的訓練可以縮短到8天。如果使用最新的Tesla V100的GPU，或許還可以繼續降低模型訓練的時間成本。隨著GPU晶元的飛速發展，有了這樣的算力，確實為我們進行調參提供了很大便利也提升了效率。當然，谷歌專門為人工智慧和機器學習而研發的專用晶元TPU極大的推動了谷歌AI項目的進展，只是我們還無法獲得谷歌的TPU來加速我們的項目開發。

為了更好的人臉識別，我們還需要更加符合實際場景的數據集

新智元：從LFW到IJB-A，為了更好的人臉識別，我們還需要怎樣的數據集？

自2007年，Huang 等人在一篇技術報告[13]中就提出並發布了後來非常著名的LFW人臉數據集，該數據集確實為後來推動無約束人臉識別演算法起到了很大的作用。這個數據集包括在不受控或「自然環境下」採集的被拍攝者的靜態圖像。自LFW數據集發布以來，許多類似的人臉數據集被相繼發布，如PubFig [14]和 YouTube Faces （YTF）[15]。不同於LFW 和 PubFig 僅包含被拍攝者的靜態圖像，YTF人臉數據則包含被拍攝者的一段視頻。LFW和YTF等數據發布後，吸引了大量的學術機構和工業界去提升演算法在這些數據集上的性能。然而，無約束人臉識別演算法的性能在很多實際的應用場景比如監控系統中仍需亟待提高。

究其原因，可能更多的原因來自於數據集，比如LFW和YTF等都不完全是無約束環境下採集的。2014年，CASIA-WebFace [16]數據集發布，其中包括10575個對象和約50萬的人臉圖像,該數據儘管對象數過萬，但是數據分布極不平衡，平均每個對象僅擁有46.8副圖像。一年後，VGG 人臉數據[5]被發布，其中包括2622個對象和約2.6百萬張人臉圖像，平均每個對象平均擁有1000副人臉圖像。但CASIA-WebFace 和 VGG 人臉數據中大姿態的面部數據佔比非常少且光照變化不大。同年，美國國家標準與技術研究院 National Institute of Standards and Technology （NIST）發起了一項旨在推動無約束人臉檢測與識別的挑戰賽，並將相關的數據集IARPA Janus Benchmark A （IJB-A）發布在當年CVPR的論文中[19], IJB-A數據集中不僅包括被攝對象的靜態圖像而且同時也包括被攝者的視頻片段。因為這個特點，論文種引入了模板的概念，這裡所謂的模板是指在無約束條件下採集的所有感興趣面部媒體的一個集合，這個媒體集合不僅包括被拍攝者的靜態圖像也包括視頻片段，而且數據集中的所有媒體都是在完全無約束環境下採集的。很多被拍攝者的面部姿態變化巨大，光照變化劇烈以及擁有不同的圖像解析度，唯一的不足是該數據集的規模小。

2016年，更大的百萬級人臉數據MegaFace[17]在當年的CVPR被發布，其中包括690572個對象和約4.7百萬張人臉圖像，將人臉數據的規模推向了一個高度。而美國華盛頓大學發布的這個數據集方針設定不同，其內容是幾十位互聯網名人的圖片再加上普通人的1百萬張圖片作為干擾數據，相比人臉識別，更傾向於在大雜訊情況下的人臉驗證，並且數據的分布同樣不平衡，平均每個對象只有7副圖像，同一對象內人臉數據的變化小。同年，微軟發布了MS-Celeb-1M[18]數據集，該數據集包含10萬個對象和約1千萬張人臉圖像。這是迄今最大規模的人臉識別數據集，儘管規模很大但數據分布不平衡且大姿態的面部數據佔比少且存在不少的雜訊數據。

針對IJB-A 數據這種完全無約束環境下採集的數據，我們當然還需要更符合實際場景（比如包括更多的面部姿態變化、更多的光照變化甚至還有解析度變化）的大規模人臉數據集。如果在沒有合作，僅考慮自己採集數據的情況下，權衡成本，採集的對象數量不必非常大，萬級別的就夠用但應盡量保證所採集數據的分布盡量均衡，即每個對象平均要有至少100副以上的面部圖像，目的是儘可能涵蓋更多的面部變化信息，這其中也要考慮面部姿態分布的均衡性，以及要有更多的光照變化，甚至也儘可能包括不同解析度的情況。同時也要考慮儘可能覆蓋不同性別、不同年齡段、不同種族和不同地域的對象，數據集盡量乾淨，少量的雜訊數據在深層模型下是可接受的。當然，未來還是需要工業界與學術界甚至和政府部門建立緊密的合作，有助於更高效的人臉數據採集與共享，共同推動完全無約束條件下的人臉驗證與識別演算法的性能。

如果要投入實用，作為入口的人臉檢測將更加重要

新智元：獲勝的技術投入實用還有多大距離？還需要解決哪些問題？

這個問題非常好，也非常具有實際意義。目前，我們研究院參加IJB-A 的人臉驗證與識別挑戰賽的目的，從技術角度上是希望我們提出的學習演算法或框架能夠在IJB-A數據上從驗證到識別都能取得最高的精度，有些類似學術研究的性質，追求的是精度的極限。而從研究院的角度是希望通過在IJB-A的挑戰上有更大的突破，來提升松下新加坡研究院人臉識別技術水平，進而為我們相應產品的更新換代打下堅實的技術基礎，也同時為整個松下集團帶來商業上的積極影響。並且IJB-A的人臉驗證與識別挑戰賽更關注的還是性能和精度，儘管該挑戰賽目前已經落下帷幕，但是在該數據集上對性能和精度的追逐不會就此停歇。然而，僅僅在性能和精度上的精益求精並不能表示該技術能很快落地並投入實用。這其中還有很多需要優化和改進的空間，根據360公司首席科學家顏水成教授談到的四元分析法，即演算法、算力、數據和場景，IJB-A 的人臉驗證與識別挑戰賽的特點是數據和場景都是固定的，剩下的就是用盡量多的計算資源，設計和部署不同的演算法，甚至使用更多網路和更多外部數據的異構多模型融合策略，其目的就是為了追求精度的極限，但這裡面很多的成果是無法短時間投入實用的。不僅僅我們提出的模型，很多存在於論文上的演算法同樣也會面臨這樣的實際問題。要想投入實用，那就面臨的是場景和算力的固定，在這樣的情況下怎樣去提升演算法和收集新數據，這與場景和數據固定是完全不一樣的。比如，我們會遇到很多實際的問題，模型太大那就需要進行壓縮，算力有限有時甚至只有CPU的資源，你的演算法還能否滿足性能要求，滿足不了那如何去平衡，這些都是需要逐個優化的。並且很多時候，在滿足這個條件後又會有一些新的問題出來。

此外，IJB-A的人臉驗證與識別挑戰賽，核心目標是驗證與識別，但要知道，人臉識別系統除了驗證與識別，還有一個重要的模塊那就是人臉檢測。人臉檢測從某種意義上將更重要，這解決的是驗證與識別的入口問題，人臉檢測同樣會遇到不同面部姿態、不同光照、不同解析度、不同大小甚至人臉部分被遮擋的挑戰，這都是需要特定的技術比如多尺度感受野、注意力機制和通用目標檢測的方法來協同來解決。甚至是否可以藉助身體的信息幫助我們做面部檢測，這都是很有意思的研究方向。我們松下研究院在人臉檢測方向也有長期的技術積累，這次參賽所用的人臉檢測演算法部分就來自於自己的研究成果。

活體檢測是下一個目標

新智元：團隊接下來的工作和計劃？哪些問題/特定任務/挑戰賽讓你們感興趣？

在IJB-A的人臉驗證與識別挑戰賽落下帷幕之際，我們最終能將演算法在IJB-A上的性能做到很大提升，這當然值得整個團隊既振奮又高興，但在喜悅之後我們並沒有停下腳步。首先，我在前面提到，我們對人臉合成的方法同樣也抱有濃厚的興趣，也希望充分利用從各種面部姿態數據中直接學習姿態不變的判別性表示和通過人臉合成的方法將大姿態的人臉正面化這兩類方法的優勢，做出新的演算法突破，相關的論文我們已經在準備，在合適的時機會陸續放出。其次，除了IJB-A的挑戰賽，NIST還舉辦了其他的人臉識別挑戰其具有不同的設計目標，有的在注重性能的同時還要兼顧效率，這對演算法的設計提出的更高的要求，有的應用場景更特殊，甚至需要重新採集新的數據，而現有的模型和演算法能否推廣到新的應用場景，這些都需要慎重思考和周密計劃。此外MegaFace的挑戰賽吸引了很多學術界和工業界的機構參與，我們也會考慮將我們的演算法在該數據集上做內部評估。

長遠來看，我們將會考慮整個人臉識別系統的設計，即包括人臉檢測、人臉對齊（有些學者認為不重要，但我們覺得還是要取決於實際應用場景，有的可能根本不需要68個標定點，但有的場景可能需要的更多）和人臉檢測與識別的整套系統。最終目標是開發出人臉識別領域有突破的產品。此外，人臉識別最大的挑戰就是對雙胞胎的識別，然而這方面的數據並不太容易收集，我們對嘗試解決這個挑戰有非常大的興趣。

最後，一個讓整套人臉檢測與識別系統變得真實可用的技術就是活體檢測，比較成熟和落地的方法是需要被檢測對象配合的互動式動作活體檢測，如點頭，眨眼甚至唇語加語音數據聯合判斷。而靜默活體檢測則包括基於全局和局部特徵分析、基於特徵點對齊、基於微紋理、基於微表情，還有通過增加紅外攝像頭捕獲材質表面的反射特性。最近，由騰訊提出的光線活體檢測又將靜默活體檢測技術向前推進了一步，採用了和蘋果公司相同的3D結構光原理，不同的是三維重構的方式不同。我們研究院也很關注這方面的進展，但並無相關技術積累，這也正好為我們尋求外部合作提供了可能。

解決人臉識別，對於性能和精度的追求將永不停歇

新智元：最後問一個比較大的問題：距離解決人臉識別，我們還有多久？人臉識別子任務中，哪些可以算已經解決，接下來最有可能被解救的是什麼？為此需要做什麼？

距離解決人臉識別問題，我們還有多久？這個問題確實不好回答，我們無法給出具體期限，因為每當解決一個子問題的時候，你會發現又有新的子問題產生，但我們相信這一天不會多遙遠，或許很快就能來臨。事實上，對於可控的約束條件下，在被攝者完全配合的場景中，如正面證件照、正面的大頭照以及正面的網路攝像頭採集的面部照片，對於1:1的人臉驗證問題，很多基於深度學習的演算法都已經可以獲得接近99.9%甚至100%的性能，並且也都已經落地到成熟的產品中，如現今火熱的手機刷臉解鎖、機場或車站的刷臉進站以及刷臉支付，刷臉時代確確實實離我們越來越近。

對於無約束條件下，在被攝者不完全配合的場景中，接近正面的面部照片如LFW人臉數據，對於1:1的人臉驗證問題，同樣很多基於深度學習的演算法都超過了人類97.53%的水平達到99.83%的新高度。這也證明在無約束條件下，對於接近正面的人臉驗證問題也基本得到了解決。但是對於像IJB-A這樣的人臉數據，在完全無約束條件下，被攝者完全不配合的場景中，很多被拍攝者的面部姿態變化巨大，光照變化劇烈以及由於採集裝置的多樣性導致具有不同的解析度，面對這些挑戰，很多基於深度學習的演算法都還有進一步提升的空間。

這也是我前面說的，儘管該挑戰賽目前已經落下帷幕，但是在該數據集上對性能和精度的追逐不會就此停歇，希望這將是下一個被拯救的子問題。我們希望對人工智慧深度學習的研究，尤其人臉驗證與識別這個子任務，工業界與學術界一起合作，共同推動人臉識別乃至整個人工智慧領域到另一個新高度。

熊霖 Panasonic R&D Center Singapore 研究工程師，西安電子科技大學模式識別與智能系統專業博士，專註於無約束/大規模人臉識別，深度學習架構工程，遷移學習等方面的研究。https://github.com/bruinxiong，https://www.researchgate.net/profile/Lin_Xiong4/contributions

趙健NUS LV Group 在讀博士，專註於以人為中心的基於深度神經網路模型與演算法的圖像理解方面的研究，包括人臉識別、圖像生成以及細粒度人物圖像解析等。http://www.lv-nus.org/，https://zhaoj9014.github.io

徐炎Panasonic R&D Center Singapore 研究工程師，西安電子科技大學電子與通信工程專業碩士，專註於人臉檢測、配准及識別模塊的研究與設計。

新加坡松下研究院成立於1990年，致力於多媒體和網路，機器學習，人工智慧，計算機視覺及3D技術演算法的軟硬體的研發。在申省梅的帶領下，我們在人工智慧特別是人臉識別領域積累了多年的技術和大量的數據。

新加坡國立大學學習與視覺組（NUS LV Group）由顏水成教授創建，馮佳時教授領軍，是目前各大學術機構在深度學習與計算機視覺領域的頂級團隊之一。其人臉識別團隊一直是LV組中不可或缺的頂樑柱並屢創佳績。

[1] L. Xiong, J. Karlekar, J. Zhao et al. A Good Practice Towards Top Performance of Face Recognition: Transferred Deep Feature Fusion. arXiv preprint arXiv: 1704.00438, 2017.

[2] Y. Xu, Y. Cheng, J. Zhao Z. Wang, L. Xiong et al. High Performance Large Scale Face Recognition with Multi-Cognition Softmax and Feature Retrieval. ICCV 2017 Workshop.

[3] J. Zhao, L. Xiong et al. Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis. NIPS 2017.

[4] A. Shrivastava, et el. Learning from simulated and unsupervised images through adversarial training. CVPR 2017.

[5] O. M. Parkhi, et al. Deep Face Recognition. BMVC 2015.

[6] S. Sengupta, et al. Frontal to profile face verification in the wild. WACV 2016.

[7] F. Schroff, et al. FaceNet: A Unified Embedding for Face Recognition and Clustering. CVPR 2015.

[8] C. Ding, et al. Robust Face Recognition via Multimodal Deep Face Representation. IEEE TMM 2015

[9] I. Masi, et al. Pose-Aware Face Recognition in the Wild. CVPR 2016.

[10] R. Huang, et al. Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis. ICCV 2017.

[11] L. Tran, et al. Representation Learning by Rotating Your Faces. IEEE TPAMI 2017.

[12] R. Gross, et al. Multi-PIE. IVC 2010.

[13] G. B. Huang, et al. Labeled Faces in the Wild: A Database for Studying Face Recognition in Unconstrained Environments. Technical Report 07-49, University of Massachusetts, Amherst, October 2007.

[14] N. Kumar, et al. Attribute and simile classifiers for face verification. In Computer Vision, 2009 IEEE 12th International Conference on, pages 365-372. IEEE, 2009.

[15] L. Wolf, et al. Face recognition in unconstrained videos with matched background similarity. In IEEE Computer Vision and Pattern Recognition, pages 529-534. IEEE, 2011.

[16] D. Yi, et al. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014.

[17] I. Kemelmacher-Shlizerman, et al. The megaface benchmark: 1 million faces for recognition at scale. CVPR 2016.

[18] Y. Guo, et al. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. ECCV 2016.

[19] B. F. Klare, et al. Pushing the frontiers of unconstrained face detection and recognition: IARPA Janus Benchmark A. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015.