人類本身識別面部用的是什麼「演算法」?

有沒有可能用機器模擬?

本題已收錄至知乎圓桌:人工智慧 · 機器感知,更多「人工智慧」相關話題歡迎關注討論


如大多數人說的那樣,機制未完全清楚。我從一個外行人的角度將目前了解到的部分信息進行粗略整理及推測

1. 時間上:

2. 空間上:和以下兩個區域有關

2. 空間上:和以下兩個區域有關
FFA (Fusiform face area,不知道中文怎麼譯,梭形人臉識別區?)
ATL (anterior temporal lobe,前顳葉)

1. 時間上
  用經顱磁刺激(經顱磁刺激_百度百科)在識別材料出現後40~50毫秒對人進行刺激,發現這同等程度地影響 人臉識別vs.身體識別、人臉識別相關區域(rOFA) vs. 身體識別相關區域(rEBA) 4種組合下兩個相關區域的活動程度;由此推測在這個時間段內,人腦對材料進行無差別的預處理 (Goldhaber et al., 2012)
  用經顱磁刺激在識別材料出現後100~110毫秒對人進行刺激,發現隻影響人臉識別情況下rOFA的活動,以及身體識別情況下rEBA的活動 (Goldhaber et al., 2012)。另外,腦磁圖(腦磁圖_百度百科)研究發現,材料出現後100毫秒那一刻出現了一個和人臉識別相關的腦磁波(M100),它和材料分類的成功率相關,而和材料識別的成功率無顯著相關 (Liu, Harris Kanwisher, 2002)。由此推測在這個時間段內,人腦對材料進行分類處理
130~200毫秒這個階段,和它有關的就是比較有名的腦電波N170。研究發現這個腦電波和結構編碼有關 (Rossion Jacques, 2008);而它的強度在進行明星臉、陌生人臉時無顯著差異 (Gosling Eimer, 2011)。簡而言之,人腦在這個階段對人臉的結構進行處理,但沒有進行身份信息的處理
230~400毫秒階段出現的腦電波N250,研究發現它在進行明星臉孔識別時有更強的負向信號(對比在進行陌生人臉孔識別時);由此推測在這個階段,人腦對人臉進行身份信息的處理 (Gosling Eimer, 2011)
400~700毫秒階段,研究發現在對明星臉孔進行識別時,左腦區的P600f顯著更強(對比一在進行陌生人臉孔識別時);左腦區被認為有語言信息的特異性處理功能;由此推測在這個階段,人腦進行人臉和姓名的配對(Gosling Eimer, 2011)

2. 空間上
  FFA在人臉識別上的特異性已經得到比較廣泛的認可,最初發現這塊區域印象中是讓人看人臉和房子的圖片時做功能性磁共振成像,然後發現有一個區域只在看人臉時活動強度比看房子時大,這個區域後來被命名為FFA。大概位置看下面兩個圖

  最近幾年發現了一個新的區域(位於前顳葉ATL),這個區域同樣只在看到人臉時被激活(對比看房子)。另外研究還發現即使是看倒立臉孔時,FFA和ATL都被激活,而且識別成功率和ATL激活程度有顯著相關,但和FFA激活程度相關不顯著 (Nasr amp; Tootell, 2012)

  最近幾年發現了一個新的區域(位於前顳葉ATL),這個區域同樣只在看到人臉時被激活(對比看房子)。另外研究還發現即使是看倒立臉孔時,FFA和ATL都被激活,而且識別成功率和ATL激活程度有顯著相關,但和FFA激活程度相關不顯著 (Nasr Tootell, 2012)

參考資料

Goldhaber, T., Duchaine,
B., Walsh, V., Pitcher, D., Kanwisher, N. (2012). Two Critical and
Functionally Distinct Stages of Face and Body Perception.

Gosling, A., Eimer,
M. (2011). An event-related brain potential study of explicit face recognition. Neuropsychologia, 49(9), 2736-2745.

Liu, J., Harris, A.,
Kanwisher, N. (2002). Stages of processing in face perception: an MEG study. Nature
neuroscience
, 5(9), 910-916.

Nasr, S., Tootell,
R. B. (2012). Role of fusiform and anterior temporal cortical areas in facial
recognition. Neuroimage, 63(3), 1743-1753.

Rossion, B.,
Jacques, C. (2008). Does physical interstimulus variance account for early
electrophysiological face sensitive responses in the human brain? Ten lessons
on the N170. Neuroimage, 39(4), 1959-1979.


回頭來看這個問題,在不知不覺中,已經沒有人懷疑計算機在人臉識別方面能超越人類,也很少有人還會認為「計算機視覺的重大突破應該依賴於神經科學的重大突破」了。
知識的進步就是如此迅速。


是時候把這句話發出來了。

我大一的時候,史元春老師給我們上課時,曾經總結過,機器能做什麼。

機器可以做:1、人類可以做,也清楚怎麼做的事情。比如:解方程。
2、人類不能做,但是清楚怎麼做的。比如:輸出pi(=3.1415926.....)的第1億位。

機器不可以做:1、人類不能做,同時也不知道怎麼做。
2、人類能做,但是不知道怎麼做的。她當時(2006年)舉的例子就是人臉識別。

現在人臉識別技術已經進步很多了。參考Face++ 最好的免費人臉識別雲服務,這是我的同學和朋友 @唐文斌 等人創業的公司。可以邀請他來回答這個問題。

多說一句,face++多次被新聞聯播報道,比如其中的一次:

「刷臉神器」Face++登上《新聞聯播》


感謝 @劉柯邀請。

這是一個相當好的問題,我最近一直在思考一些新的論文,強調了面孔各個特徵之間的相互關係與鏈接。尤其是反思Calder Young (2005)的精彩綜述之後特意查閱了相關論文, 深感面孔處理的精妙,以及深藏的處理 『演算法』 之巧妙。盡讓我斗膽在此大致介紹下自己的理解,望批評指正。

(最近我有個Live,在周六,也是說關於面孔識別。有興趣可以來看看華沙的 Live—— 看臉的科學第二集 - 看臉的世界 - 知乎專欄)

按照David Marr等視覺研究大神的精彩觀點,我們任何的視覺處理都是信息處理(而非簡單地、粗暴地處理看到東西本身);很顯然面孔,這一種最為重要的、與社會生活息息相關的視覺信息不能免俗,也是一種信息處理過程。所以題主提到能不能用計算機模擬其實是個非常好的問題,馮諾依曼機作為以人類為原本的計算機,完全應該有人類的能力。不過,很抱歉,我們目前都沒有完全理解視覺過程,而目前計算機的很多CV研究並不完全按照人類的識別方法進行(老實說,可能計算機視覺和人類視覺的交際也就到70年代Hubel Wiseal的論文為止了吧)。所以我的觀點其實很簡單,計算機目前基於更強的計算能力,完全可以利用已知的一些大腦處理面孔方式對於面孔進行分析,但是效率和準確度和人類不好比(嚴格說是效率);當我們更加理解了大腦的原理之後,相信不在不遠的將來,計算機完全可以做到更好。

那麼人類本身用什麼演算法呢?

很簡單,整體識別

我先說下,面孔識別的相關大腦結構。按照經典的面孔識別模型(Bruce Young, 1986; Haxby, Hoffman, Gobbinni, 2000),我們大腦利用FFA(梭狀回面孔區;Kanwisher, McDermott, Chun, 1997),pSTS(後顳上溝皮層; Hoffman Haxby, 2000),OFA(枕葉面孔區; 如 Yovel, Kanwisher, 2005)這三個核心面孔處理區域以及 『借用』 其餘的視覺和高級處理皮層達到面孔的識別。這幾個腦區有多重要呢,我舉個不恰當的例子,人類的好朋友狗狗們,就是因為有類似人一樣的面孔識別區域(也在下顳葉,和人類位置很接近;Dilks et al., 2015),才能記住主人的面孔。

就如同Mishkin與Ungerleider教授(1982)的精彩研究結論一樣,我們處理面孔的時候也把信息分為了兩束進行分析。第一束往下顳葉走更加依賴於FFA,往往是處理面孔上不變的信息,比如身份(是誰);而另一束往頂葉走,依賴於pSTS,處理面孔上動態的信息,比如表情,面孔方向等。這就是面孔處理的一個基本演算法。也就是依賴核心腦區(佐以其餘神經系統幫助),把面孔信息進行粗略劃分之後進行分析。當然杏仁核等邊緣系統可以從上丘直接獲得輸出(此處不展開,可以看看我專欄提到的),但是大致途徑類似。總體而言,面孔上的信息會在FFA進行匯總(Yovel, Kanwisher, 2006),然後往更高級視覺皮層傳遞。那麼這部分信息到底是什麼呢?這就是整體識別的關鍵信息。

可能和大家想像的不一樣,我們識別面孔的時候其實並不是只依賴一些局部的信息,比如眼睛、嘴巴。而是把面孔上的信息匯總在一起,成為一個整體來進行分析(如Yin,1969發現的面孔倒置效應就是整體識別的一個好佐證)。這樣的分析高效快捷。那麼整體是怎麼分析的呢?這就得說道一個筆者特別喜歡的觀點:面孔模板假說。

我們對於面孔的理解和分析都基於我們所看到的面孔(Webster MacLeod, 2011)。倘若我們把所有面孔都假設存放與一張平面上,那就是一張面孔的地圖(Valentine, 1991)。這一章地圖就是反映我們識別面孔的方法:我們的演算法就是通過上述大腦區域的群體編碼,根據不同神經細胞的活動程度,我們可以在腦海中形成一個 『矩陣』,這個矩陣編碼了看到的圖片在某個判斷維度上(如表情)與模板(如表情模板)的距離;通過這個距離,我們可以清楚明白這張面孔傳遞的信息。因為通過模板,信息得到簡化,可以更高效分析。甚至可以說面孔的處理基本都是以這個方法進行,所以說面孔處理可以說在演算法層面互有重疊(Calder Young,2005)。

再具體一點,整體識別中的信息就是面孔上的二階關係信息(second-order rational information)比如說五官之間的距離,嘴角的彎曲程度之類的(Maurer, 2002)。這部分信息與模板的對比就是筆者所提到的 『矩陣』 (用矩陣更方便理解)。基於篇幅原因不展開討論。

簡而言之,大腦處理面孔信息的時候,往往提取出面孔上信息的相互關係,以與模板距離的方法整體識別面孔。這就是大腦處理面孔信息 『演算法』 的一個簡單介紹。


參考文獻
Bruce, V., Young, A. (1986). Understanding face recognition. British journal of psychology, 77(3), 305-327.
Burton, N., Jeffery, L., Calder, A. J., Rhodes, G. (2015). How is facial expression coded?. Journal of vision, 15(1), 1-1.
Calder, A. J., Young, A. W. (2005). Understanding the recognition of facial identity and facial expression. Nature Reviews Neuroscience, 6(8), 641-651.
Dilks, D. D., Cook, P., Weiller, S. K., Berns, H. P., Spivak, M., Berns, G. S. (2015). Awake fMRI reveals a specialized region in dog temporal cortex for face processing. PeerJ, 3, e1115.
Haxby, J. V., Hoffman, E. A., Gobbini, M. I. (2000). The distributed human neural system for face perception. Trends in cognitive sciences, 4(6), 223-233.
Hoffman, E. A., Haxby, J. V. (2000). Distinct representations of eye gaze and identity in the distributed human neural system for face perception.Nature neuroscience, 3(1), 80-84.
Kanwisher, N., Yovel, G. (2006). The fusiform face area: a cortical region specialized for the perception of faces. Philosophical Transactions of the Royal Society of London B: Biological Sciences, 361(1476), 2109-2128.
Kanwisher, N., McDermott, J., Chun, M. M. (1997). The fusiform face area: a module in human extrastriate cortex specialized for face perception. The Journal of neuroscience, 17(11), 4302-4311.
Valentine T. (1991). A unified account of the effects of distinctiveness, inversion, and race in face recognition. Quarterly Journal of Experimental Psychology, 43A, 161–240.
Webster, M. A., MacLeod, D. I. (2011). Visual adaptation and face perception. Philosophical Transactions of the Royal Society B: Biological Sciences, 366(1571), 1702-1725.
Yin, R. K. (1969). Looking at upside-down faces. Journal of experimental psychology, 81(1), 141.
Yovel, G., Kanwisher, N. (2005). The neural basis of the behavioral face-inversion effect. Current Biology, 15(24), 2256-2262.


目前還不知道,神經生物學家和計算機科學家正在努力研究(包括我自己也在09年的時候做了半年研究,不敢說自己呆的那個實驗室是神經科學裡做人臉方面的no.1,但是前10應該沒啥懸念)。
目前看來,學術圈五年之內是沒有希望解答樓主的問題了。

唯一知道的是,opencv的實現(Haar feature+adaboost)跟人腦一點關係都沒有(LDA是通用矩陣分解演算法,計算機做人臉識別跟這個都沒太大關係)。人腦的演算法比那個複雜許多許多倍。


wihoho/FaceRecognition · GitHub


從人腦方面講,經歷了怎樣的過程來進行面部識別,還是一個未知的問題,但是我們卻可以通過一些已經成熟度的演算法來模擬,不過話說回來,這就不是人腦進行面部識別了,而是通過某一些演算法,藉助計算機等工具進行的面部識別。
現階段,面部識別問題已經有專門研究分支,不管從簡單的LBP還是到複雜的深度學習,都是藉助特定的演算法或者說特定的規則實現的。
並且,現階段,對於面部識別,機器的識別能力已經可以超過人類,比如說,兩張可能是同一個人的照片,由於時間、光線、髮型、臉型等產生了比較嚴重的變化,機器在一定程度上能識別出來,而人類卻有時候無法識別是同一個人。


opencv用的是adaboost分類器演算法

轉載個人家寫的
http://m.blog.csdn.net/article/details?id=14103983


同意目前得分第一的:目前還不知道,神經生物學家和計算機科學家正在努力研究。但是得分第一的回答太早了,目前的話,deep learning深度學習是最接近人腦思維過程。(注意是最接近)
deep learning的多隱層感知器和人類思維非常相似,他的出發點就是模擬人的思維。和Shallow Learning淺層學習不同(就是上世紀80年代提出的人工神經網路,反向傳播演算法,多層感知機那些東西),以前的人工神經網路,也就可以看做三層,輸入輸出,還有中間的隱層(一層),所以叫淺層。
Deep learning雖然也採用了與Shallow Learning相似的分層結構,系統由包括輸入層、隱層(多層)、輸出層組成的多層網路,只有相鄰層節點之間有連接,同一層以及跨層節點之間相互無連接,每一層可以看作是一個logistic regression模型;這種分層結構,是比較接近人類大腦的結構的。如下圖:

此外,Shallow Learning用的是 back propagation,而Deep learning分為兩步,一是每次訓練一層網路,二是調優(2006年hinton提出的), 由於deep learning的效果很大程度歸功第一步的feature learning,所以google機智的決定花大錢1.25億美元買下了hinton和學生開的三個人公司DNNResearch,其實就是一方面是買下這個第一步的初始值,另一方面是要這三個人才。

此外,Shallow Learning用的是 back propagation,而Deep learning分為兩步,一是每次訓練一層網路,二是調優(2006年hinton提出的), 由於deep learning的效果很大程度歸功第一步的feature learning,所以google機智的決定花大錢1.25億美元買下了hinton和學生開的三個人公司DNNResearch,其實就是一方面是買下這個第一步的初始值,另一方面是要這三個人才。
在facabook前陣子剛出的deepface,也是基於deeplearning的,識別率達到97.53%跟人識別基本相似。(當然人家也不會公布初始值)。後來貌似上個月,我還看到一篇文章說竟然達到了98.52%,瞬間嚇尿,找來一看,是用高斯過程做的,但不會在海量數據集中得到的結果,只是在實驗常用的基準數據上的,雖然也很了不起,但是我覺得如果在海量數據集做估計趕不上deepface。
最後我想到國內一位大牛說的,忘了是南大的周志華,還是百度的余凱,反正是做報告時說的大意是:有了深度學習後,人工智慧才看到實現的曙光!
另外上面說到的高斯過程文章是Surpassing Human-Level Face Verification Performance on LFW with GaussianFace
deepface文章是DeepFace:Closing the Gap to Human-Level Performance in Face Verification
(CVPR的)


推薦你看《複雜》,目前很多學者認為人腦的思維是複雜系統的隨機嘗試加上有目的的反饋,就像蟻群尋找食物。

OpenCV 那種叫 ad-hoc 演算法。就像計算機模擬爆炸、火焰,Photoshop Adaptive Wide Angle 處理廣角,只是目的達到了,和人腦工作方式完全不同。


最近研究得出,對於媽媽和戀人等重要面孔,大腦會長出一個組織專門來識別它們的……


下面摘自:《近匠》Face++:漫談人臉識別-CSDN.NET
當今的人臉識別系統雖然包含無數細節和各種工程技巧,但大的系統框架不外乎如下圖所示的流程:一張人臉圖片輸入後,需要先找到人臉的位置(人臉檢測),然後在這個基礎上定位人臉關鍵點的位置(如眼睛中心或嘴角等),每個系統關鍵提取的數量相差很大,有的只有左右眼睛中心兩個點,有的可能多達近百個點。這些點的位置一是用來做人臉的幾何校正,即把人臉通過縮放、旋轉、拉伸等圖像變化變到一個比較標準的大小位置。這樣待識別的人臉區域會更加規整,便於後續進行匹配。同時,現在的實際系統一般也都配有人臉光學校正模塊,通過一些濾波的方法,去除一些對光照更加敏感的面部特徵。在做完這些預處理之後,就是從人臉區域提取各種特徵,包括LBP、HOG、Gabor等。最終相關的特徵會連接成一個長的特徵向量(Feature Vector),然後匹配出人臉的相似度,根據相似度的大小,系統會判定兩張圖片到底是不是一個人。不難看出,人臉識別技術還是一個系統鏈條較長,較為有技術門檻的領域。因為這條流水線的每個環節可能都會嚴重影響最終系統性能,所以一個好的人臉識別技術公司需要在各個環節上追求細節,建立自己的技術優勢,最終才有可能在最後的人臉識別精度上有出色的表現。


人對人的識別應該是根據遞進排除的,首先會將常見、或者覺得會見到的人形成一個集合,在這個集合裡面進行識別。
見面之後,未必是按照面部優先的順序,更多情況下,性別、姿態、年齡、膚色都有可能進行了信息篩選,進入更少的人選內容。
真正到了面部識別,基於對這個人的情緒表情記憶,可能會有一些表情識別,然後才是根據面部數據進行識別。


首先,辨別人臉是為了證明眼前的這個人是誰,而人比機器在「認人臉」方面強,並不是因為在圖片或者視頻的辨別能力。而是因為有很多很多的除去面部上特點之外參照物,比如:年齡、身材、音色、語言習慣、共同記憶、裝飾品(化妝、衣著習慣)、時間、空間。
例子:
1.你正在給朋友A打電話,正在和你打電話聊天,這時突然你面前有一個和A面部 特徵完全相同但沒有打電話的人,然後呢 你會認為他是A么? 不會,因為你正在和他聊天,你只會對電話里的A驚呼:「天,我看見一個人長得和你超像,簡直是雙胞胎。」 這裡時間上就直接不對,確定不是一個人。
2.當你去找朋友你知道他在家裡,當你走到他樓下他在他家窗戶上和你打了招呼,這時呢,你旁邊又有一個長的完全一樣的人。你也一樣不會認為他是你朋友,你只是覺得。長得好像,因為空間上不對嘛。
像以上的例子很多,其實大家仔細思考自己辨別一個人又何嘗不是通過很多參照物呢。
-----
當然,如果真的比起「人臉」的辨別能力,人可不一定比計算機強,比如一個只有臉部的照片讓你看十分鐘,你覺得你能認識他了吧~ 然後呢,然你在一萬張相同膚色只有人臉的照片里找。如果不是運氣好一眼看到,估計找上一會,連要找的臉都忘了吧(親友的應該不會忘而且效率也會高一點)。然而計算機肯定可以找到哦。
-----
所以我覺得在僅僅認臉方面計算機已經比人強了。
而如果是想在視頻、照片里辨別人,為了準確性高一點可以加上參照物這個概念,比如身材(身體各方面的比例(如果人還在長也許這個並沒有什麼用)),視頻的話音色(好像還要對口型(╮(╯_╰)╭沒錄嘴又很麻煩,計算機也沒有兩個耳朵通過聲音確定位置,況且視頻里的聲音就僅僅只是音頻))。
-----
好像寫的沒有從專業角度出發,而是僅僅從人和計算機對比的角度。
-----
我覺得沒必要非要探究人是如何處理圖像的,先把效果懟出來再想辦法優化。總不能讓計算機有了類似神經的結構。再完成像人一樣辨別人臉這件事吧。


直到今天才明白為啥我一直被邀請回答這個問題,邀請我的兄弟…請您看好我的個人簡介。自帶人臉識別系統,也就是說我基本見人過目不忘,至於形成原因那你得邀請我爸媽才能回答了吧:)


計算機目前無法模擬人腦對人臉的識別,原因是計算機還沒有針對人臉提取到足夠多的信息,即便提取到了足夠的信息,也沒有足夠的能力來計算提取到的信息。


看見面孔識別的關鍵字就戳進來了~

不過計算機現階段肯定是做不到人類的這種面孔識別的,因為人的這種面孔識別的模式都還尚未被完全研究透徹。不過個人覺得基於特徵和差異的演算法可能有助於計算機模擬人面孔識別,具體的不是很了解,還請大家指正。我就從心理學角度說一說面孔識別吧。

面孔識別是人們社會生活中的一項重要功能,它使我們對面孔的熟悉度、情緒狀態、社會地位、性別、年齡和種族等有一個正確的認識,從而有助於人們的社會交往和環境適應。
國外已有的研究尚未證明面孔識別的神經機制。為此提出了面孔識別的認知模型,這些模型都試圖解釋面孔是如何被識別的,陌生的面孔是如何成為熟悉的面孔。到目前為止,影響較大的模型是Bruce-Young基於大量的行為實驗和日常觀察以及臨床結果,於1986年提出來的認知模型。
根據Bruce-Young的模型,第一階段為面孔結構編碼階段。在此階段,對面孔的結構特徵進行編碼。此階段之後是兩條獨立的通道:第一條通道是有關視覺處理的,包含表情分析、面孔語言分析和直接視覺處理3個平行的處理單元;第二條通道是有關面孔識別的,包含面孔識別單元、個體特徵單元和名字產生單元3個串列的處理過程。

1 結構編碼階段
在Bruce-Young的模型中,結構編碼階段包含兩種編碼方式:一種是靜態的圖形編碼,即面孔的亮度、質地、斑點以及姿勢和表情等;另一種是動態的結構編碼,即更抽象的視覺表徵(如頭的角度、表情、年齡和發 型等的改變等)。此階段的主要作用是對面孔的結構進行編碼,以便進行面孔識別、視覺處理、表情分析和面孔語言分析。它是我們見到一張面孔時的第一處理階段,其輸出結果再送入面孔識別單元或其他單元進行加工。

2 視覺處理通道

2.1 直接視覺處理(性別、年齡和種族)
根據Bruce-Young的模型,在對面孔特徵進行編碼後,沿著第一條通道就進入了直接視覺處理單元。該單元的主要作用是對面孔的年齡、性別和種族等特徵進行處理和編碼。
2.2 表情分析
根據Bruce-Young的模型,表情分析與視覺直接處理一樣,屬於第一通道,與面孔識別分離。確實,在進化過程中,對錶情(特別是在危險情況下)快速、準確地處理有著重要的意義。

3 面孔識別通道

3.1 面孔識別單元
根據Bruce-Young的模型,第二條通道是有關面孔識別的。更確切地說,是有關熟悉面孔識別的。識別的過程是這樣的:首先是對面孔的知覺(這是一張面孔),然後是識別(這是某人的面孔)。在對面孔進行結構編碼後,產生的輸出信息,與面孔識別單元中存儲的面孔記憶表徵進行比較,再結合個體特徵信息和名字信息(如果有的話),最後由認知系統整合第一通道和第二通道的信息,於是就將面孔識別出來了。

3.2 個體特徵單元與名字產生單元
一些腦神經生理學的研究反應了模型中的面孔識別單元的處理過程,以及由此激活個體特徵單元,個體特徵單元再激活名字產生單元的處理過程。感興趣的朋友可以再去搜索查看。


【參考文獻】

Bruce V, and Young A W. Understanding face recognition. British Journal of Psychology, 1986, 77: 305~327

彭小虎 羅躍嘉 魏景漢 王國鋒 . 面孔識別的認知模型與電生理學證據. 心理科學進展. 2002. Vol.10 No.3


我想還沒有好的演算法,不然模擬機器人就不會那麼不真。

人類的面部是進化出來的,

經歷風雨人情,依然看不懂,何況演算法呢?

不像圍棋,已經將人類思維用黑白子的方式01化了。

或許未來的方向是將人生數字化,加一道皺紋或者表情,好像很遠,也可能很近。


其實對於計算機來說,人臉識別技術的關鍵是人臉特徵的描述和模式識別。目前多數研究者採用人臉的一維和二維幾何特徵來完成識別任務,但是臉的幾何特徵抽取以及這些特性的有效性都面臨著很多問題。比較前沿的是基於粒子群BP神經網路的人臉識別演算法。其做法是用小波變換對人臉圖像進行小波分解,形成低頻小波子圖,然後用離散餘弦變換將人臉圖像在特徵空間中提取,並作為粒子群BP神經網路的輸入,由粒子群BP神經網路和後驗概率轉換器構成人臉識別器。


我不是研究員,我來說說我的看法吧
1、計算機對人臉的識別是典型的馮諾依曼式的方式。
不外乎簡化模型----&>模型特徵提取----&>搜索----&>特徵匹配幾個步驟。
這是一個信息的簡化過程,應該說是一種無奈之舉。用這種方式去推測驗證人腦的識別肯定是有問題的。這就是為什麼我覺得人腦的識別過程(也許不能叫做過程)遠比這複雜的原因。
2、研究人腦對面部的識別(不知道識別這個詞是否準確)不應該從某個時刻開始,應該研究這種過程建立的過程(自己都繞進去了),從嬰兒時期開始,我們之所以認識某人是應為我們看到了他並且知道他的名字,如果看多了,而且你還會畫畫,你可以把他畫出來。有時候我們看到一個人的照片時還會說,好像xxx啊。因此我的理解就是,人腦中儲存了人臉的幾乎信息,信息是全息的,不一定是像素的方式。
3、那麼問題來了,這種信息是以什麼方式存儲的呢,你有怎麼知道這人好像XXX。介於人腦的結構,多次迭代以及搜索這樣的過程肯定不會發生在人腦中(腦子會燒掉)。同樣也不會想硬碟那樣存儲了無數張蒼老師的照片一樣。因此人腦中存儲的人臉信息應當是一種交疊在一起的全繫結構。(尼瑪不要問我這是什麼樣的結構,我也在想這個問題)
4、(單就識別人臉來說),人臉在眼球中成像,神經衝動傳輸到視覺中樞部分,這是個一次性的過程,神經衝動穿過所有視覺全息信息交疊結構,最興奮的那部分神經元對應的全息信息就是你現在看到的東西。(當然你現在可以看到很多東西)


推薦閱讀:

記憶在大腦中是以何種形式存儲的?

TAG:心理學 | 演算法 | 人臉識別 | 認知心理學 | 神經科學 |