只有好看的人才能刷臉?那TM是以前

那年,刷臉還只是好看的人的專利。年少無知的新司機也是從那時開始知道,臉與臉的差距還可以那麼大。

今天,刷臉通行、刷臉登錄、刷臉支付等「刷臉+」已經廣泛地出現在我們的生活中。如果沒有刷過幾次臉,似乎都不好意思說自己混跡在科技行業。

這前後的間隔不過兩三年而已。而讓這一切發生的,就是我們今天所要聊的主題——人臉識別。

計算機視覺與人臉識別

對話式人機交互之所以被期待,很大程度是因為對話是人類最自然的交流方式。而人類除了交流之外,還需要對外界的信息進行獲取,這時最自然的方式則是通過眼睛去看。所以,視覺也正逐漸成為機器獲取外界信息的一種主要途徑。

機器通過視覺獲取外界信息時,通常會利用攝像頭來獲得有關外界的圖片或視頻(一幀幀的圖片),然後對圖片中的內容進行識別與分析。研究機器如何通過視覺獲取並處理外界信息的學科被稱為計算機視覺(Computer Vision,CV)

在計算機視覺的各細分領域中,人臉識別擁有相對較高的技術成熟度和商業化程度。原因主要有兩方面:一是因為人臉是一種非常有效的身份驗證的信息,在大量的場景下(如安防、金融與商業領域的身份驗證)存在應用價值;二是因為不同的人臉有很多共性(即人臉數據的特徵相對集中),且人臉數據容易獲取,從而相對易於開展研究。

人臉識別原理

人臉識別一般分為四個步驟:人臉捕獲特徵提取分類檢索。人臉捕獲是從攝像頭拍攝的一幀幀圖片中獲取一張質量符合要求的人臉;特徵提取與分類也被合稱為人臉比對,它們將捕獲得到的人臉與機器所儲存的人臉進行比較,然後再通過檢索給出識別結果。

↑↑↑人臉識別的過程↑↑↑

進行人臉捕獲時,捕獲模型會對攝像頭拍攝的每一幀圖片中的人臉進行質量檢測,包括人臉是否存在遮擋,尺寸、角度以及光照是否滿足要求等;一旦發現滿足要求的人臉則會進行獲取。人臉捕獲在獲取人臉的同時也對它進行了「質量控制」,以確保所獲取人臉的質量可以用於後續的處理。

特徵提取是指根據某種規則提取出人臉的特徵(如五官間的幾何關係等),將其變成一個特徵向量。特徵提取被廣泛應用於模式識別的處理過程中,核心在於從全量信息中提取出一定量的關鍵信息,以便於後續的處理。

分類是將待識別人臉的特徵向量與機器所儲存的人臉圖片的特徵向量進行比較並分別計算它們之間的相似度。分類模型會設定一個閾值,當待識別人臉與機器所儲存人臉的特徵向量的相似度超過這個閾值時,則會判斷為同一

檢索則是根據分類結果,找出與待識別人臉屬於同一類且相似度最高的人臉圖片作為識別結果。如果待識別人臉和任何一張機器儲存的人臉圖片都不屬於同一類,則算作識別失敗。

人臉識別的關鍵在於特徵提取,能否提取到高質量的特徵直接影響後續的分類結果;而這取決於特徵提取的規則是否有效。傳統人臉識別的特徵提取規則往往由人工制定,故存在一定的局限;近幾年興起的卷積神經網路(CNN)可以將特徵提取和分類步驟集成,以更加「端到端」的方式完成。

↑↑↑卷積神經網路對圖片的處理↑↑↑

卷積神經網路前若干層的各種卷積採樣可以看作是對圖片特徵的逐層提取,最終變成一個特徵向量再進行分類。神經網路的連接權可以通過數據進行訓練,這相當於特徵提取的規則也可以通過大量數據不斷訓練和完善,從而規避了人工制定規則帶來的局限。

人臉識別應用

人臉識別目前主要應用於安防、金融等領域,其目的一般都在於通過人臉來確定身份,從而進行相應的後續操作。人臉識別在應用中一般分為靜態人臉識別動態人臉識別

(1)靜態人臉識別

靜態人臉識別的典型應用之一是人臉識別門禁。門禁中儲存著可通行者的面部照片,通過自帶的攝像頭拍攝試圖通行者的照片,並通過人臉捕獲與比對模型進行識別。當試圖通行者被識別為可通行者中的一位時,門禁就會發出信號將門打開,否則不予開門。

像人臉識別門禁這樣將一張人臉圖片與多張人臉圖片進行比對識別,稱為1:N。而將一張人臉圖片與另一張人臉圖片進行比對識別則稱為1:1。1:1可以看作1:N的特殊情況,也就是判斷一個人是不是某個特定的人。

然而1:1的典型應用場景卻和1:N不同,1:1一般被作為「人證合一」(驗證一個人與他攜帶的證件是否為同一個人)的手段。這在檢查站、安檢通道、賓館前台、開戶身份驗證等場景下有一定需求,其價值在於替代人工的身份核驗,更加高效與準確。

↑↑↑人證合一的典型流程↑↑↑

無論是1:1還是1:N,一般都用通過率誤報率兩個指標來進行評價。通過率指被識別者本身就屬於可通行者時,識別成功(即讓應該通過的人通過)的概率;誤報率指當被識別者不屬於可通行者時,被錯誤的識別而「識別成功」(即讓不該通過的人通過)的概率。

通過率與誤報率是一對互相制衡的指標,與人臉識別分類模型中的閾值有關。當閾值較高(非常相似的人臉才判斷為同一個人)時,誤報率低而通過率也較低;當閾值較低時,通過率高而誤報率也較高。閾值的高低需要根據實際需求來合理設定。

對於門禁或人證合一而言,沒有讓應該通過的人通過會造成一些不便,而讓不該通過的人通過則會造成安全隱患。所以這些產品往往優先保證極低的誤報率,然後希望有儘可能高的通過率;業內一般稱作「在XX誤報率下的通過率為XX」。

(2)動態人臉識別

動態人臉識別通常應用於安防領域,典型應用包括對可疑人員進行布控以及追蹤

布控通常會選定一些可疑人員(如在逃的犯罪嫌疑人、潛在的恐怖分子等,他們的照片一般來自公安系統),並選定一個布控區域(如某個火車站與附近的街區等),布控區域內的攝像頭就會對來往的人員進行抓拍並將圖片傳到後台進行識別。一旦識別判定某個人是可疑人員之一,系統就會在後台報警。

布控的評價指標通常為召回率誤報率。召回率指正確的報警次數占應該報警次數(即該報警時報了警)的概率,誤報率指錯誤報警次數占不該報警次數(即不該報警時報了警)的概率。

召回率與誤報率也是一對相互制衡的指標,它們的側重往往根據布控的目的來確定。如果布控是為了防範於未然(比如防止潛在的恐怖分子進入某個場所),則寧可多花一些精力去排查也不能放過一個,所以會對召回率要求很高,而可以接受由此帶來的誤報率升高。反之如果是追查在逃多年的嫌疑人,則可能會追求較低的誤報率而接受召回率的降低,避免擾民與資源浪費。

追蹤通常用於案件發生過後對嫌疑人的追捕。進行追蹤時,通常以嫌疑人的作案地點為中心選定一個區域,該區域內曾經拍攝到嫌疑人(同樣通過人臉識別來判斷)的攝像頭則被系統「標記」。根據這些攝像頭的位置以及拍攝到嫌疑人的時間,就可以復原嫌疑人逃跑的軌跡從而進行追蹤。

追蹤的評價指標通常為召回率準確率。召回率指拍攝到了嫌疑人的攝像頭占所有應該拍攝到嫌疑人(處於嫌疑人實際出逃軌跡上)的攝像頭的比例;準確率指系統判斷為拍攝到了嫌疑人的攝像頭中,拍攝到的確實是嫌疑人(即沒有認錯人)的比例。它們同樣是一組相互制衡的指標。

追蹤往往更側重於準確率而非召回率。一般情況下,召回率降低對嫌疑人出逃軌跡的復原造成的障礙遠不如準確率降低所造成的。

↑↑↑召回率和準確率對追蹤的影響↑↑↑

人臉識別難點

人臉識別技術經過了數十年的發展,目前已經達到了商業可用的程度,靜態人像識別的通過率往往可以在很低(如1/10k)的誤報率下達到95%以上。可以說,機器識別人臉的效果在很多情況下已經超過了人類,而且帶來了識別效率的極大提升。

↑↑↑你能很快區分開嗎?但機器可以↑↑↑

由於人臉識別還存在一些尚未完全攻克的難點,所以在實際任務中仍然會出現不少識別錯誤的情況。人臉識別的難點主要來源於三個方面:環境條件識別對象的配合程度以及識別對象面部的變化

環境條件中對人臉識別影響最大的通常是光照,如強光、背光、昏暗等情況。不同的光照會使相同的人臉看起來大不相同,甚至掩蓋掉人臉的很多特徵從而影響識別。

↑↑↑不同光照下的同一張人臉↑↑↑

識別對象的配合程度是指TA是否會主動面向攝像頭,去配合人臉識別過程。在識別對象配合的情況下,獲得高質量的人臉圖片就會相對容易,反之就會比較困難。非配合情況下的人臉識別在動態人臉識別中尤為常見,因為攝像頭的拍攝往往都是在人們不知情的情況下完成的。

此外,識別對象的面部也可能因為年齡、妝容、生活環境等因素而發生變化,畢竟歲月是把殺豬刀。但即便如此,也仍然存在一定的概率被識別出來。

↑↑↑天網恢恢,有了人臉識別的天網更恢恢↑↑↑

總結

視覺是人類獲取外界信息最自然的途徑,也正逐漸成為機器獲取外界信息的一種主要方式。機器通過視覺獲取外界信息時,通常利用攝像頭拍攝有關外界的圖片或視頻,然後對其中的內容進行識別與分析。在計算機視覺的各細分領域中,人臉識別擁有較高的技術成熟度和商業化程度。

人臉識別分為人臉捕獲、特徵提取、比對與檢索四個步驟。其中人臉捕獲在獲取人臉圖片的同時也會對其進行「質量控制」;特徵提取與比對兩個步驟可以通過卷積神經網路進行集成,使得特徵提取的規則也可以通過大量數據來不斷訓練完善。

人臉識別目前主要應用在安防、金融等領域,其目的一般在於通過人臉確定身份,從而進行相應的後續操作。人臉識別在應用中一般分為靜態人臉識別與動態人臉識別,前者主要應用於人臉識別門禁與人證合一,後者主要應用於可疑人員的布控與追蹤。

目前,機器識別人臉達到的效果已經在很多情況下超過人類,但仍然存在一些尚未完全解決的難點。這些難點主要來源於環境條件、識別對象的配合程度以及識別對象面部的變化三方面。

隨著人臉識別的發展,人臉的「身份標識」屬性會越來越強,「刷臉」也會得到越來越多的應用,而不再是好看的人的專利。老規矩,用一張圖總結人臉識別的類型、應用與評價指標。

歡迎關注微信公眾號「AI從入門到xx」,用一看就懂的語言分享AI知識與見解,篇篇原創。


推薦閱讀:

一夜之間傾家蕩產!面對瘋狂的通信劫案,我們如何保護自己?
【技術貼】手機掉廁所裡面如何補救?
為什麼表情圖片只有動態的沒有語音的?如果能把語音結合在一起那一定很有趣。
如何看待某美國投行願零費用承銷中國鐵塔IPO?

TAG:人工智能 | 科技 | 科普 |