AI 演算法已趨同?億分之一的人臉識別辨識度意味著什麼?
主題為「引領人工智慧,創造無限可能」的2018年中國圖靈大會5月19日在上海召開,於1966年由國際計算機協會(ACM)設立的「圖靈獎」,當之無愧是計算機界最負盛名、最崇高的獎項,因而有「計算機界的諾貝爾獎」之稱。今年的中國圖靈大會,更是匯聚了學界、業界的「最強大腦」,嘉賓陣容可謂豪華。在5月19日的論壇上,依圖CEO朱瓏博士給大家帶來了一場深刻而又發人深省的關於AI時代的演講。
在2012年之前,很少有人會說自己是做AI的,只會說做統計建模、統計學習這些具體的方向。但從2016年AlphaGo登上《自然》雜誌,到美國著名的《經濟學人》雜誌多期報道,AI頻繁登上世界最著名的雜誌成為封面主題,如今已經進入了一個言必稱AI的時代。與AI相關的各種言論,關於機器學習、圖像識別、無人車、健康醫藥等等都逐步成為熱點。而朱瓏一直關注的是未來到底AI能發生一些什麼?
沒有權威的時代讓AI正變得真假難辨
在朱瓏的演講中,他提到目前AI跟過去比較重大的區別:因為AI發展太快,現在技術處於一個很難辨別真假、好壞的時代。以深度學習為代表新的AI技術,因為過去參與的人和實踐不多,全球性研究的大規模以及長時間的積累並不夠。因為太「熱」,使得各方都熱衷參與到AI的討論,交流甚至宣傳當中,AI的觀點就變得非常多,這客觀上使得很多專家真正有見地的意見和其他的言論很難區分開來,這不僅是中國,在美國也是同樣。
另外一個則是:技術到了一個沒有權威的時代。過去不管是從計算機視覺,還是整個人工智慧領域,最好的實驗室幾乎能夠壟斷預測全球百分之七八十的進展,但是現在AI無論是在美國,還是在中國或歐洲,大家的發展是比較跳躍性的,在一兩個實驗室非常難預測主流到底在關注什麼。這是整個時代的特點。
朱瓏的背景是跨越學術界和工業界的創業典型,經歷了中國2012年到2018年這五、 六年非常特殊的階段,正如他在演講中提到的,過去中國沒有成熟的科技創業的情景和市場機制。過去,政府、投資者、媒體這三者可以頻繁交流,在2012年之前,學術界不像今天這樣經常會被政府或一流基金邀請交流。美國則因為市場成熟,這些人經常會在一起交流,甚至都是朋友。中國這幾年開始,各種背景的人在一起交流的越來越多,這是新的形態。
技術突破打開了工業界應用的突破
技術上,2015年,機器識別人臉的水平正式超過人類。人臉識別中機器比人強,最簡單基礎應用就是1:1的比對,證明你就是你,大家熟知的是2017年iPhone推出的刷臉開機;其次是1:N,是通過任一設備里捕捉到的人臉,從一個省(億級)或一個國家的人像庫(十億級)里來回答你是誰,這對識別性能的要求提升了一個量級,是千倍萬倍地增長。這意味著識別技術的突破,打開了工業界中的產品的突破。
2012年之前,可以認為人臉識別技術幾乎沒有什麼發展,2017年人臉識別最高水平可識別規模在20億人,大概比2016年可識別千萬提高兩百倍,比2015年提高了數萬倍。那未來的發展到底是什麼樣?會不會再10倍、100倍甚至萬倍地發展?
大家現在也有個討論,技術是不是發展到了瓶頸?各項演算法之間有沒有區別?隨著AI熱潮的湧現,各家AI公司都會頻繁參加一些業界的比賽以證明自己的演算法實力,以人臉識別演算法為例,可以看到各AI公司在LFW等類似的計算機視覺比賽中都取得99.xx%的成績。於是人們會問:AI演算法是否已經趨同了?如果演算法精度差別不大(只有幾個百分點),是否意味著創業公司的技術已經同質化了,沒有技術創業的核心競爭力了呢?
但實際上,這是典型的認知誤區。我們在朱瓏的演講中看到了一張表,可能更準確的回答了這個問題,這是中國某省1億人像庫的情況下,真實的刑偵案件的破案環境的性能測試對比的表,參與方是知名的幾大人臉識別公司:
我們可以這樣理解這張圖:必須對應場景來談演算法精度。不同場景的演算法精度不具備任何可比性,甚至不代表有相關性。換句話說在簡單場景下演算法精度高,不代表在複雜的高難度場景下有更大的概率可以把演算法精度做高,就比如在小學生的考試中拿滿分,不見得可以在大學的考試中也拿滿分。因為很多學術界的比賽使用的都是公開數據集,數據集內多是互聯網照片,類似於難度小的開卷考試,大家很容易把測試成績刷到比較高。但在實際的應用中則會遇到各種高難度場景,包括變形、昏暗、逆光、強光、光照不均、低清、運動模糊、遮擋、跨年齡段比對等,在這種情況下各家的差距迅速拉開了,第二名和第一名的錯誤率都會相差幾倍以上,遠未到趨同的程度。
第二,這些實戰中的技術差距體現在具體產品或應用上,不是簡單的好用和一般好用的差距,而是可用和不可用的差距。實戰中是要以最高效率解決實際問題為目的的。在一個1億級別人像系統中進行1:N的靜態比對時,錯誤率相差幾倍,就導致使用者做事效率下降幾倍,那麼自然而然,即使他使用的是一個多演算法平台,他也只會傾向於使用第一名的演算法。
AI幫助探索人類智慧的邊界
AI除了在產業界的實際應用外,更能夠幫助我們理解人類的智慧、人類智慧的邊界。
我們以前是沒辦法了解人類自己識別能力的規模和精度,到底是什麼程度?過去沒法做這個科學實驗,1萬人還是10萬人你辨別不出來。而機器在大規模的情況下,很輕易地識別1億人、10億人,甚至更多的時候,機器識別就相當於提供了一把尺子,根據相似度比例篩選出來給人去測,可以在有效的時間裡面,測出一個人自己「看」這個世界的能力。
這是人類第一次有一個非常穩定且強大的機器,有識別能力看到人和機器智能差別到什麼程度。依圖曾做過一個實驗,在幾千萬量級的身份資料庫上,一個人把他女朋友生活照輸入進去,在機器輸出相似度前十的照片中,他是非常難辨別哪張是他的女朋友。過去機器認識生人的能力比人強,但是今天機器識別熟人臉的能力也超越人了。
今天機器是有了高性能的,比人類大很多倍的這種識別能力,能夠幫助我們回答這些更有趣的問題:在13億中國人中有多少人跟你長的一模一樣?一模一樣我們可以先定義為自己的媽媽辨別不出來誰是誰。經過依圖的實驗,結果是,每1億人當中有一個人跟你長的一樣,所以全中國差不多12個人跟你長的一模一樣的。
這個意味著什麼? 1億人當中有一個人跟你長的像,這又意味著什麼?
人類進化過程中,視覺識別能力在各大感官中的比重越來越大,也可能是人類穿衣服,嗅覺識別家庭成員的能力在哺乳動物中比較低下,主要是看人臉來辨別同類。選擇壓力驅使人類的臉之間的區分度需要盡量的大,這樣保證家庭成員的穩定性得到保障。
而人作為社群動物,需要和大量同類打交道,臉部識別錯誤的代價是失去整個基因組的遺傳繼承。對應的編碼人臉形狀的基因數量需要很大,目前知道有一條染色體的一大塊用於編碼臉部特徵。一億分之一的識別度是一個具有巨大社會學意義的統計數值,背後更多的生物學意義需要更近一步探討。與之對應的一個未經實驗證實的觀察是,動物的臉部特徵區分度不像人類這麼大。比如貓和狗,光看臉,我們很不容易區分出來。
臉部信息對於身份的確認是非常重要的,人類如果不具備辨別能力,出門回來之後你認不出你的小孩、老婆,就會出現社會的騷亂,所以說人臉識別對基因的進化有非常巨大的影響。
---------------
1950年圖靈發表《計算機器與智能》,提出著名的「圖靈測試」,成為人工智慧的思想起源,而在2018年的圖靈大會中,依圖朱瓏博士的演講也給我們打開了認知人工智慧現狀和未來的一扇窗戶,在嘈雜的言論中給我們更多的啟發和思考。期待聽到更多這樣的演講。
(本文首發於新智元微信公眾號:AI_era,歡迎關注!)
推薦閱讀:
※CVPR 2018 | 曠視科技Face++提出RepLoss,優化解決密集遮擋問題
※【生成高清人臉】ProgressiveGAN 筆記
※[論文概覽] AAAI 2018 行為識別論文概覽
※讀Focal Loss
※[CVPR2018筆記]Deep Layer Aggregation
TAG:深度學習DeepLearning | 機器學習 | 計算機視覺 |