為什麼香港中文大學研發的人臉識別演算法能夠擊敗人類?

這裡的擊敗是全面超越,包括之前某些不如人類的特殊情況下:

&> The best systems can beat human performance in ideal conditions. But their performance drops dramatically as conditions get worse. So computer scientists would dearly love to develop an algorithm that can take the crown in the most challenging conditions too.

&> Today, Chaochao Lu and Xiaoou Tang at the Chinese University of Hong Kong say they』ve done just that. These guys have developed a face recognition algorithm called GaussianFace that outperforms humans for the first time.


Source: The Face Recognition Algorithm That Finally Outperforms Humans

相關問題:人腦對人的面部識別用的是什麼「演算法」?


@大碗 和 @笨貓豬 提到的清華2006年那個系統的完成人是我同實驗室的直系師兄。這個系統09年以後一直是我負責改進。還參加了最新的frvt2012。此外題主說的那篇paper我上周組會剛講過。因此自認為有點發言權。

先給出觀點,如果數據沒有注水的話,這個絕對是突破性的成果。lfw上超過人臉意味著在人臉識別80%的應用環境下機器的性能可以超過人臉。而06年的結果只意味著在身份證比對、小型辦公場所簽到等極少應用下機器的性能超過人臉。

1.2006年全面超過人臉時的條件是實驗室內部拍攝條件、正面姿態、正面光照。這種條件下的人臉識別錯誤率的進展大約是每3年下降10倍。FRVT2012中期結果中最好的單位(不出意外應該是日本的NEC公司)的錯誤率已經達到了我們06年系統的1%左右。而我手上的系統相比06年大約提升了十幾倍,目前在中期結果中排名6-7名。

2.lfw資料庫直接是從雅虎網上抓的照片。難度在業界屬於頂尖。該庫09年公布後至今沒有難度更大的靜態照片庫出現。難度相當但數據量更大的庫倒是有兩三個。我們06年的系統跑lfw也就70+的水平。而我們實驗室的最高水平(也是國內除face++外的最高水平)大約是92左右。大概相當於2012年底的state-of-the-art。

3.2014年的三個逆天結果,deepface的97.25%、face++的97.27%、gaussianface的98.52%,前兩者都用了deep learning。第一個訓練數據400萬。第二個演算法細節不明,但deeplearning向來吃樣本,想來訓練庫也是百萬量級。唯有gaussianface的訓練庫僅2萬餘。

4.arxiv和CVPR等頂會完全不矛盾。先發上來只是為了不讓別人搶先。估計未來的頂刊頂會上很快會出現這個結果。

5.演算法細節太過技術,難以在這裡深入淺出,就不多介紹了。只提一篇paper。Blei的latent dirichlet allocation,2003年的jmlr,引用量近萬。本文對人臉的貢獻方式大概相當於lda對文檔分類的貢獻方式,懂行的人自然知道這句話的分量。當然lda珠玉在前,deep learning風頭正勁,所以真正的歷史地位,本文自然不可能趕上lda。但一篇正常pami的水準肯定是有的。

=============================5月21日更新================================
居然上了知乎日報好激動~那就再說一下我對GaussianFace的理解了。只說我認為最有突破性的地方吧。具體推導過程一來論文中有,二來比較複雜,三來我自己還沒重複實驗不確保細節理解都正確,這裡就從略了。
1.解決的問題是模式認證問題,就是說輸入兩個向量x_1x_2(可以是人臉照片或別的),輸出相似度s(x_1,x_2)表示這兩個向量屬於同一類的概率。(人臉識別中就是兩張照片是同一個人的概率)。訓練集有一堆向量,有些屬於同一類,有些不屬於同一類。目標就是根據訓練集來猜這個函數s(x_1,x_2).
2.GaussianFace以前成功的演算法分兩類:metric learning和bayesian framework。它們都是假設這個函數具有一個參數的形式s_	heta (x_1,x_2)。然後利用訓練集估計出一個最好的	heta
2.1 metric learning中s_	heta (x_1,x_2)是顯式的,比如是二次型的形式,	heta就是中間的那個矩陣。
2.2 bayesian frameworks_	heta (x_1,x_2)是隱式的,認為訓練、測試樣本都有同一個隨機model生成,	heta代表這個model的各種參數,由訓練集根據最大似然/最大後驗/beyesian方法估計得到。然後在給定model的情況下推導s_	heta (x_1,x_2)的最優表達式。
3.這兩類問題都有一個硬傷:訓練集樣本和測試集樣本分布情況不同(比如拍攝條件不同、人種不同等等)時,由訓練集估計的	heta對測試集不適用,這樣這些訓練集就用不上了,只會添亂。
4.GaussianFace聲稱的牛逼之處在於,用他們的演算法,訓練集只需少量和測試集分布一致的樣本+大量其他樣本,演算法就能從這些其他樣本中獲益。
5.他們的關鍵在於,不認為s(x_1,x_2)具有參數形式,而是認為它是一個隨機函數。
6.一個函數,在不嚴謹的說法下,可以看成一個無窮維的向量。
7.一個有限維隨機向量可以假設符合多維正態分布-即gaussian分布。類似的,一個無窮維向量,或一個函數,可以假設服從無窮維正態分布-即gaussian過程。
8.決定gaussian分布的參數為均值mu和協方差矩陣Sigma。同樣,決定gaussian過程的參數為均值函數mu(cdot )和協方差函數Sigma(cdot,cdot)。文章中假設mu(cdot)equiv 0,因此參數只剩協方差函數。
9.通過訓練集估計Sigma(cdot,cdot)的演算法是個優化過程,定性的說,就是盡量同時讓1.那個和測試集分布一致的少量訓練集的出現概率儘可能高。2.其他訓練集對這個訓練集提供的信息儘可能多。整個優化過程相當麻煩,我也不確保細節都理解正確。總之這個Sigma(cdot,cdot)是可以估計出結果的。
10.有了Sigma(cdot,cdot)s(x_1,x_2)就有了明確的先驗分布,接著就用普通Bayesian方法,給定測試樣本時可以將不相關的變數都積分消除,得到最終的相似度。這一步用了些近似處理,細節不表。
11.GaussianFace相比與之前演算法最大的區別在於,認為相似度函數是隨機的而非確定的。這樣從模型上認可了不同樣本可能具有不同的相似度函數。因此從原理上克服了第3點提到的問題。
12.缺點在於,Sigma(cdot,cdot)的估計只能通過kernel的形式,空間複雜度為樣本數的平方,這個限定了在一般實驗室中,訓練樣本數只能限制在10^4量級。


謝邀。
文章細節 @梁亦聰 和 @鄒哥亮 有分析了。
重點是強調了訓練的generalization,通俗來講就是在A資料庫上訓練的模型,在B資料庫上測試毫無壓力。關於這個「訓練的問題」有篇很有意思的論文:
Unbiased Look at Dataset Bias 之前有人討論過: 轉:賣萌的大牛你桑不起啊 ——記CVPR2011一篇極品文章

演算法的細節以後看了再評論。我主要想答「計算機超過人類」這點。
其實個人感覺這個「outperforms humans for the first time」 有點標題黨。
實際上在2006年的大規模人臉測試 Face Recognition Vendor Test 2006 上,來自清華丁曉青老師研究組的TS2-NORM演算法就已經超過人的識別率了。測試報告參見:http://www.nist.gov/customcf/get_pdf.cfm?pub_id=51131


如圖所示,曲線越往左下角靠表示性能越好。黑色的是人類,可以看出有兩個演算法(V-NORM,ST-NORM)已經很接近人類的性能,而TS2-NORM就已經比人類好了。
這個實驗採用的是80對人臉圖像,分別是在可控光照和不可控光照下拍攝的,人需要在兩秒之內判斷每一對人臉是否來自同一個人(給出1到5的打分,1表示十分確定是同一個人,5表示十分確定不是同一個人)。一共有26個參與者參加了實驗。
需要注意的是,這些圖片僅包含光照變化,而且都是高清的。本題報道的論文是在LFW(http://vis-www.cs.umass.edu/lfw/)這個庫上測試的。這個庫是「非約束人臉識別」的一個最著名的標準庫。庫里的圖像參見http://vis-www.cs.umass.edu/lfw/sets_1.html ,這些圖像是網路上收集的,包含了很大的變數,例如光照、姿勢、表情、遮擋、解析度。可以說這個實驗比2006那個要難很多

但是,題主問的這篇也不是「第一篇」聲稱自己超過人類的。之前Facebook的Deepface也聲稱自己超過了人類:https://www.facebook.com/publications/546316888800776/

我個人感覺這些演算法聲稱「超過人類」,都有點為了奪眼球的意思(但是引發大眾關注、討論是很好的)。從LFW的結果頁面來看:http://vis-www.cs.umass.edu/lfw/results.html#Human

人類在LFW庫上最好的識別結果是99.2%,題主提到的論文對比的是97.53%那個結果。兩者不同是因為採用的圖像裁剪、對齊方法不同(僅僅裁剪出含人臉的部分)。這個對齊方法對識別的影響是很大的。

人類在LFW庫上最好的識別結果是99.2%,題主提到的論文對比的是97.53%那個結果。兩者不同是因為採用的圖像裁剪、對齊方法不同(僅僅裁剪出含人臉的部分)。這個對齊方法對識別的影響是很大的。

那麼回到問題上來,現在的人臉識別演算法是否已經超越了人類呢
我個人覺得還沒有那麼樂觀。
正如題目這篇論文 Surpassing Human-Level Face Verification Performance on LFW with GaussianFace http://arxiv.org/abs/1404.3840 的討論部分提到的,人臉其實比較善於識別「熟悉人臉」,比如一個人可以在很昏暗的環境下快速認出自己的朋友、可以從人群里快速找到自己的家人……2006年的那個測試和LFW上的這些測試,對於人類來講,都是「不熟悉的人臉」,其實是很不公平的。有點像用計算機的長處去比了人類的短處

自動人臉識別技術發展了40多年,False reject rate從1993年的79%降到2010年的0.3%(false accept rate=0.1%),LFW庫上的演算法識別率從2007年的60%升到2014年的97~98%,可見是取得了巨大進步的。
現在人類到底是如何識別人臉的,機制還不是很清楚。但是,總體來說人臉識別演算法還是在一步一步接近人類識別的

----- 補充回答 ----------
在這裡要提供一些 真正的人類識別人臉 的能力的資料!!!
關於人類對人臉識別的一些有趣現象,大家可以看這篇科普性的文章:Face Recognition by Humans: Nineteen Results All Computer Vision Researchers Should Know About IEEE Xplore Abstract

人對於「熟悉」人臉的識別能力可以看一個例子(圖來自於上面這篇文章):


即便是在解析度如此低的情況下,要認出4是柯林頓,10是查爾斯王子 也不是很難吧?
這篇綜述有講關於「熟悉人臉」識別的研究: Familiar and unfamiliar face recognition: A review http://www.tandfonline.com/doi/pdf/10.1080/09658210902976969

另外,總是有人提到自己是臉盲,可以到這裡測試一下自己認臉的能力:http://www.testmybrain.org/tests/start
嚴重的臉盲是連自己的臉也認不出的,據一個嚴重的患者說每次在公共衛生間大家排著隊等時,從鏡子里看到很多人臉,不知道哪一張是自己的,需要先做一個鬼臉才知道哪個是自己的人臉……

與此相對的,是一些 超級認臉者,就是從來不會忘記曾經見過的人臉!!!(這樣其實也很痛苦吧……) 英國的Channel 4曾經做過一檔節目,在請了一些這樣的超級認臉者來PK,在英國一個火車站,找了一些志願者穿上一模一樣的套頭衫,戴上套頭然後混在火車站人群裡面,請這些認臉者來觀察;觀察結束後,這些志願者混入一些沒有出現在火車站的志願者中,脫去套頭衫,然後請認臉者把他們挑出來~
https://hiddentalent.channel4.com/c4/tests/recognizer


謝邀!
文章剛出來時,叫一實習生業餘去研究番,但到目前他還沒來得及做報告,這裡僅以我有限的了解回答下。(多圖)
暫不究演算法細節,就此新聞,需要發問的是「文章中的識別準確度98.52%是怎麼得來」以及「人類的人臉識別能力(Human-Level Face Verification Performance)是如何度量的」,要查清這些問題,還得從LFW說起。

1、LFW數據集及人臉識別實驗設計

1.1 LFW人臉數據集
LFW(Labeled faces in the wild[1])是人臉識別研究領域比較有名的人臉圖像集合,其圖像採集自Yahoo! News,共13233幅圖像,其中5749個人,其中1680人有兩幅及以上的圖像,4069人只有一幅圖像;大多數圖像都是由Viola-Jones人臉檢測器得到之後,被裁剪為固定大小,有少量的人為地從false positive中得到[2]。所有圖像均產生於現實場景(有別於實驗室場景),具備自然的光線,表情,姿勢和遮擋,且涉及人物多為公物人物,這將帶來化妝,聚光燈等更加複雜的干擾因素。因此,在該數據集上驗證的人臉識別演算法,理論上更貼近現實應用,這也給研究人員帶來巨大的挑戰。

圖1. LFW人臉圖像示例

圖1. LFW人臉圖像示例

1.2 LFW數據集上的識別實驗設計

官方文檔[2]詳細給出了待測演算法在LFW上實驗的規範,以便於不同演算法間的比較。
識別演算法要完成的工作是人臉驗證(Face verification),即判斷給定的兩張圖片(一對)中的人臉是否來自同一個人。
LFW將數據集分作兩大塊,[View 1]用做供研究人員選擇其演算法模型所用,包括一個訓練集和一個測試集,不管是訓練集還是測試集,其圖片都是由M對來自同一人臉的圖像和N對來自不同人臉的圖像構成;當確定了模型後,演算法將在[View 2]上實驗,[View 2]包含10個子集,每個子集構成規則同剛講到的訓練集或測試集,實驗過程大抵為:
A、每次從10個子集中選一個做為測試集,其餘9個做為訓練集;
B、通過訓練集確定模型的參數;
C、對測試集進行預測;
D、計算預測的準確度;
進行十次之後,平均的準確度即為該演算法在LFW上的識別準確度,GaussianFace的98.52%即是如此計算的。

圖2. 訓練集示例

圖2. 訓練集示例


1.3 其他的人臉資料庫

這裡順帶把文章[0]中用到的兩個公開數據集在這說下:
A、Multi-PIE[3]
在可控環境下人為產生的337個人的750,000張圖片,包含15個視角及19種光照變化。

圖3. Multi-PIE圖像示例

圖3. Multi-PIE圖像示例

B、MORPH[4]
多種族多年齡段圖像集,成像條件類似證件照過程。

圖4. MORPH圖像示例

圖4. MORPH圖像示例

圖5.MORPH圖像集統計信息

圖5.MORPH圖像集統計信息

粗略看來,LFW較之上面二者,更貼近人類活動的現實場景,在LFW上驗證的識別演算法理論上可能應對現實中特定的或基本的人臉識別應用。
當然,還有其他諸多公共數據集,在[2]中有詳細列表,或在http://www.face-rec.org/databases/獲知。


2、 人類的人臉識別能力
最讓人類糾結的事情莫過於明知自身有著高度的智慧,卻不知這種智慧的運作機理,難道這種智慧裡面就不包含了解這種智慧運作機理的智慧嗎?人類想創造出擁有同等智慧的物體卻始終不能得償所願。
對人臉的識別能力是人類智慧中的一種,確切地說是人類視覺認知能力之一。如果說不能了解這種能力的運作機理,那是否可以對這種能力進行度量呢?比如說,人類在體育競技上取得的成績即可以認為是人類所具備的那些能力的度量,同理,也可以設計類似的分值以粗略量化人類對人臉的識別能力。
文章[0]中提到的人類的人臉識別能力(Human-Level Face Verification Performance)是引自文章[5]的。
作者利用Amazon眾包服務[6],對選自LFW的6000對圖片,平均每對圖片進行10人(不同人)次的識別,大約分配給了240000個用戶去進行人臉識別的測試,準則如下圖:

此項實驗其考察了人類在三種情形下對人臉的識別能力:

此項實驗其考察了人類在三種情形下對人臉的識別能力:

  • 對包含人臉的圖像整體的識別能力,也就是說,不只是人臉,其他諸如體態、服飾,場景等也可能做為識別成功的因素,自然這種情形的準確度是最高--99.20%;
  • 對人臉部圖像的識別能力,也是一般人臉識別演算法的處理對象,準確度為97.53%;
  • 對不包含人臉的圖像整體的識別能力,也就是說,遮上人臉,只通過諸如體態、服飾,場景等信息進行識別,自然這種情形的準確度要低--94.27%;

好了,被打敗的人類識別能力就是這樣定義的,做為人類一分子的你,不管是拖了後腿還是低估了你,你就是這樣被演算法打敗的!不服?你上最吊大腦秀去啊。。。

好了,被打敗的人類識別能力就是這樣定義的,做為人類一分子的你,不管是拖了後腿還是低估了你,你就是這樣被演算法打敗的!不服?你上最吊大腦秀去啊。。。


當然,所謂的人類識別能力也不是只有這家子的定義,還有好幾個呢,當然,它們都不出意外地被這個或那個演算法打敗了!!!所以,媒體宣傳說人類識別能力首次被超越是不嚴肅的。


我們過一下文章[0]提到的那幾個被打敗的人類識別能力的定義:

  • [7]中的人類代表是作者在AiT(現3M)公司的同事,共21男(16男5女),年齡在20-40;
  • [8]中的人類代表是Texas大學的91名學生;
  • [9]中的人類代表是43名在校大學生;

3、關於GaussianFace


終於輪到主角出場了,是不是等了好久了,倫家可是打敗了人類,上了頭條的X星人。。。你這麼吊你家裡人知道嗎!知道嗎!


關於演算法, @梁亦聰 已經細讀了文章,也給了詳細的解釋; @笨貓豬 也提到多任務學習(multi-task learning),這方法是用做得到模型,提升性能而已;

GaussianFace(下面用GF表示)的核心在於高斯過程(Gaussian Processes,GPs)[10]的應用,包括Gaussian Processes for classification和Gaussian Process Latent Variable Model (高斯過程隱變數模型,GPLVM),其優點如下:

  • 高斯過程是一種基於核函數的方法,是一種非參數概率模型,具有完全的貝葉斯公式化表示;根據訓練樣本,可以從先驗分布轉換到後驗分布,不僅能對未知輸入做輸出預測,同時也能給出該預測的精度參數。(原文描述為:Moreover, the GaussianFace model is a reformulation based on the Gaussian Processes (GPs), which is a non-parametric Bayesian kernel method)
  • GPLVM的特性在於,當觀測數據的樣本個數比較少時,仍然可以用來尋找觀測數據的低維流形,也就是說GPLVM非常適合處理小樣本的高維數據。這就是GF只需要少量樣本(約40000),便在LFW上取得 了良好的結果;
  • 相比於SVM的參數需要通過交叉驗證方法或者經驗法得到,高斯過程隱變數模型中需要確定的模型參數包括核函數中的超參數((hyper parameter)和隱變數Z,採用的方法是共扼梯度優化法( Conjugate Gradient);至於神經網路或深度學習,那更是門調參數的藝術;

與其說GF打敗了人類,不如說其打敗了深度學習,至少目前在LFW是這樣,FaceBook的DeepFace或是Face++的人臉DL表述都得屈居其後。同時不負責任地說句,這可不是GPs首次打敗神經網路,就在DeepLearning就要一統江湖的時候,GF是不是讓還沒攤DL這趟渾水的同學看到了希望呀。

那是不是說GF就是人臉識別的終極方案呢?


4、人臉識別碎碎念


說到人臉識別,很多人都要說這不很成熟的玩意嘛。確實,畢竟大年輕的人工智慧歷程上有著悠久的歷史,隨便找個這方向的研究生,甚至是做過這方向畢設的本科生,也能搗鼓出將一宿舍人識別出來的程序,EignFace/FisherFace,PCA/LDA,或是LBP/Gabor/HOG/MBLBP/SIFT...扔到SVM/LR/Adaboost...里去,或是趕趕DL的時髦,哥也是搞過智能的,人臉識別有那麼難嗎,騙誰呢,當我沒上過大學是吧。。。

大伙兒接觸到的人臉識別場景大致如下:

  • 人臉考勤:當然要求正臉了,光照較穩定;
  • 智能設備的人臉登錄:正臉,光照可能有變化,但識別不出來也不負責;
  • 安檢(室內):固定的機位得到合適的人臉,採用近紅外攝像頭可一定程度避免光照影響;

總之,都不是將被識別對象放置於生活場景的應用,而且不容許被動失敗,這樣,大家當然覺得人臉識別還挺成熟。但當我們考慮到全網人臉搜索,SNS上人臉識別的時候,問題的難度便呈幾何級增長;

5、參考
[0].Surpassing Human-Level Face Verification Performance on LFW with GaussianFace.[PDF]
[1]. http://vis-www.cs.umass.edu/lfw
[2]. Labeled Faces in the Wild: A Database for Studying Face Recognition in Unconstrained Environments.[pdf]
[3].MULTIPIE.ORG
[4]. MORPH Database
[5]. Attribute and Simile Classifiers for Face Verification
[6]. AWS | Amazon Mechanical Turk
[7].Comparing Human and Automatic Face Recognition Performance.
[8].Face Recognition Algorithms Surpass Humans Matching Faces over Changes in Illumination.
[9].Comparing Face Recognition Algorithms to Humans on Challenging Tasks.
[10]. The Gaussian Processes Web Site


謝邀!
我是半個專家,所以,可能有一半是錯的。
Surpassing the human-level performance may only be symbolically signi?cant。
就這句就比國內的無腦媒體記者實在好太多了,也是對全文的總結。

首先,要理解這種測試的場景,跟我們日常環境下所說的識別場景是不同的。大家想像下,我們拍兩張照片,切割掉衣服、肩膀,就剩一張臉——你甚至連喉結都看不到。
然後呢,人識別兩張照片是一個0/1選項,是或者不是;但是計算機不一樣啊,它識別的是兩張照片的相似度,比如相似度60%,或者相似度76%。換句話說,人天然不適合定量,你看兩張照片,作為人類,你不好判斷說,嘿,這兩張照片有87.456%的相似度,所以是一個人!但是計算機很流氓啊,他先驗知識可以知道,某種類型的照片,當相似度超過AAA的時候有99.9999%的置信度是同一個人。計算機得到相似度就能判斷是不是一個人。
第三呢,我們人類的識別能力受很多因素的影響——比如你昨晚擼過頭了、比如識別的是漢族人還是藏族人還是黑人。想想大家看外國電影的時候,各種分不清演員就很容易理解了——我小時候經常覺得曼德拉跟弗里德曼是一個人——還都有個曼字呢?

所以,說計算機識別能力超越人類,是一個有極大局限條件下的結論;
第一是特定類型的照片,而不是日常我們經常會遇到識別的場景
第二是平均而言,假設在上述特定類型照片下,我們如果只識別本民族的人,不見得比演算法差——我個人判斷會好很多
第三計算機預先對某種類型的照片的相似度有先驗判斷,如果你隨機拿潮女自拍效果的照片過去,可能當前所有演算法都會吐血身亡,不具備穩定性和普遍適用性。因為有些照片我們判斷是同一個人的相似度閾值是60的時候置信度就夠高,有些相似度閾值要90才可靠。

換個環境,就廢了,這個問題可能會在模式識別領域未來很長時間內無法解決。
但是,在特定環境下,計算機識別人臉比人類更有優勢,這個結論在2006年的FRVT就已經存在了——莫非那個時代科技博客還不流行現在的科技博客就可以亂說了?

如圖是2006的數據啊,看起來至少清華當時是全面超過人眼啊。

我說的一半可能是錯了,我也不知道錯的是哪一半。

我說的一半可能是錯了,我也不知道錯的是哪一半。

PS:關於題主關注的這個演算法是不是出類拔萃的問題,我個人持保留態度。我個人估計是因為他擁有巨大的一個訓練庫,20000個人,接近100000張照片。而其他人可能只有LFW的訓練集。在高度依賴數據的時代,這20000個人會帶來較高的提升。並不能證明演算法的鶴立雞群。


個人認為這篇文章的訓練要優於之前世界前幾名的facebook或face++,不得不承認,沒有一個大的資料庫會使認證率降低,但是這篇文章的訓練庫數量級遠小於facebook和face++的數量級,這是一個很大的進步。如果全球只有個別的實驗室可以做這些實驗,其他小型的實驗室的存在還有意義嗎?


補充個有趣的鏈接:人臉識別心理實驗(前面的介紹很全面)
後面的測試題到第3-4關難度就很高了。


deep learning的方法在LFW上已經到99.15%的正確率了
http://arxiv.org/abs/1406.4773
deep learning 又一次勝利 咩哈哈


1 作者個人能力很強,高斯過程在機器學習領域熱了2,3年即被拋棄。但作者能在這個冷方向作出突破,不易。
2 他們有一個很大的人臉庫做訓練,這對提高性能非常重要。這種庫一般組沒能力採集。


人臉識別

我們可以為您提供人臉識別服務,例如,計算兩張人臉的相似度,從特定的資料庫中找出與給定人臉匹配的人臉等,準確度高達99.65%。這項服務可以使用在門禁系統、考勤系統、攝像監控系統中,也可以應用在照片分類等場景中。

活體檢測

在金融等安全性要求高的使用場景下,您可能需要檢測當前用戶是否為真人。我們為您提供活體檢測功能,有效分辨照片、靜態#D模型、視頻等仿冒欺詐行為。獨創基於隨機驗證碼的唇語活體檢測,安全性遠遠高於眨眼、搖頭、去路等方案,用戶幾乎無法破解,也不受方言和語種的影響。


我覺得計算機與人類處理問題的方式根本不是一回事,人可以通過各方面判斷一個人是誰,比如背影,走路的動作,神態,這些東西貌似計算機判斷不出來。


surpass human level這篇文章,大多數引用被詳細的研究過的gaussian processes,連提取特徵子也是LBP,通篇沒有提出新的東西,只能算是一篇理論應用的文章。


好像很高深的樣子,我還停留在PCA+神經網路處理人臉


有人質疑這個papar,我說真的,唐笑鷗的水平我覺得他還是沒必要弄虛作假的。

為什麼?其實很難說清楚。講道理CNN的理論現在你可以認為是一片空白。比如為什麼在imageNet上CNN會做得比人好,我只能說,鬼知道。反正他試驗出來就是好。

還有為什麼發在Arxiv上。。。講道理,你看看google,microsoft這些公司,尤其是google,多少文章發在Arxiv上的,因為快啊。

還有,不用懷疑CNN在人臉識別上的能力,國內都有API了,叫face++,這還是我去年看到的。


更新:經過討論和看其他人的答案,我對這篇文章的判斷很可能是錯的
我現在是一個碼農,科研離我很遠了~
*****************************************************************************
這篇文章作為一個technical report發在arxiv上,其實沒有經過嚴格的同行評審;
文章的摘要里寫的很清楚,只針對LFW一個數據集,「第一次擊敗人類」的表述,不準確,不科學;
如果真的有那麼牛,這篇文章會出現在CVPR, ICCV, ECCV三大頂級會議上;
從摘要看,文章提出的方法和現有方法相比沒有本質的區別,也許有一些新feature可以在一些測試集上跑出比較好的結果;
Tang xiaoou是業內大牛,如果他認為這篇文章是technical report水平,那麼就是,否則他不會放過一篇CVPR的機會的。
******************************************************************************
關於「超越人類」,講一個CV圈裡老掉牙的故事吧。
CV的目標是摘月亮,現在我們爬到了樹上,然後我們說:「看!我們離目標又近了一步~」
共勉。


非專業, 不敢亂說. 但是看到這個標題後去讀了幾篇文獻.
簡單說感覺這1%的進步是overfitting的結果. 或者更嚴謹的說, 是把一個已經解決了的問題精益求精了, 沒有什麼特別大的意義. 如果換一個難度更大的dataset, 不一定拼的過deep learning.
至於超越人類啥的, @笨貓豬 同學也說了, 就是抓眼球用的.
我是boltzmann machine粉絲, 帶有偏見, 莫怪.


除非經過訓練,大部分的人腦對於細節並不是那麼注意。當然也有部分很有天賦的人可以發現很多常人不容易察覺的細節,例如說我的女朋友和福爾摩斯。。。
好吧我身上真沒有其他女人的頭髮。。。
跑題一下。另外,人腦的記憶,虛構成分太多。人容易往自己希望的方向去補充細節。例如我,每次照鏡子都覺得自己長得帥。
所以,有這麼不靠譜的大腦記憶機制下,演算法勝於不準確經驗,很正常。

再說一句,我是個輕度臉盲,求治療。
以上回回答非主流非專業,坐等摺疊


即使數據上擊敗了人類,但是也不能完全取代人類。


問題本身就是個偽命題,要想擊敗人臉認知水平,覺得還是先研究人臉大腦本身


這個問題引發的大家的討論是很好的,但是實際上就當看個笑話就行了。。。。。。。
機器永遠不可能取代人類,如果想利用」機器不會累,機器可以拚命學習,機器只要電費和砂子」這幾個優於人類的特點去提高經濟效益,或者干一些人幹不了的事情,那你就一定要看看他有什麼是幹不了像人能幹的事情了,衡量過後才決定是不是要去研究這個系統。
所謂的以現在的科技水平能製造出和人一樣的智慧,這和把核彈做成像鋼鐵俠里那樣小到能像一個煙盒大小是一樣難的。
大家不要傻了,天天聽這些新聞,不累么?
能以假亂真就不錯了,這個事情只能無限逼近人類,不可能等於人類。


推薦閱讀:

TAG:人臉識別 | 機器視覺 |