乾貨 | 格靈深瞳首席科學家張徳兵:如何進行上億類的人臉識別?

格靈深瞳在過去幾年中,不僅成功的將人臉識別技術,即靜態/動態人臉識別,運用在我們的安防系列產品中;去年,我們更是與廈門見福便利店達成深度合作,推出了面向普通民眾的VIP常客自動聚類和識別系統。

「人臉識別」在學術界已經是非常熱門、且相對成熟的方向,但想要成功在工業界進行大規模應用,且利用大量數據進行繼續提高的話,還會有很多困難。上億類ID的人臉識別模型到底是怎麼訓練出來的呢?億分之一的誤識別率能不能做到?

昨天,格靈深瞳首席科學家張徳兵,代表格靈深瞳在VALSE2018(視覺與學習青年學者研討會)上,就這些問題進行了精彩的分享和解析。以下,是這次分享的文字整理版。

大家好,我是格靈深瞳張德兵。今天我想跟大家分享一下工業界做人臉識別的事兒,希望能對大家有所幫助。

首先來看一下人臉識別的演算法演變,從傳統思路到基於CNN做softmax多分類,再到一系列的對損失函數的改進,最後又回歸到了softmax(但是更深入的考慮了對特徵和類中心的normalization和類間margin),這是差不多是學術界的最好方法。

這些探索很有價值,大家平時用可能也不會有什麼問題,但是在工業界會有些不同。

主要的困難是:

1.工業界數據量比學術界最大的數據集還要大至少2個數量級;

2.人臉總的ID數也會有至少2-3個數量級的提高。

所以單單數據並行並不能完全解決問題,可以看到僅僅存儲全連接層的參數矩陣W(包括W本身,梯度和歷史梯度)就需要50G-60G顯存,有下面的這些區別:

那麼下面就跟大家分享一個可行的分散式的解決方案: 數據並行+模型並行

假設我們有N台機器,每台M個GPU。首先是數據並行,每個GPU上去預測它自己的數據batch,得到人臉特徵,然後對特徵進行一個多機匯總,得到完整的F。同時,我們把參數矩陣W均勻拆分到多機不同的顯卡上,比如第一個GPU負責計算每張圖屬於第1-10萬類的概率,下一GPU負責第10萬到20萬類,這樣依次進行。

注意到要計算概率是需要依賴其它GPU的結果的,所以需要多機多卡通信,但是通信量並不大,因為只需要每個GPU結果的部分和就好了。有了概率之後, 在每個GPU上,是可以直接寫出來對自己那部分參數W和對F的梯度的,然後對所有的F梯度再進行一次多機的匯總,就可以按之前數據並行的反向過程去更新整個網路了。

數據並行+模型並行的思路優勢:

1.實現相對簡單,把模型的顯存佔用和計算量都均勻分散到了每個GPU;

2.不增加額外通信帶寬(甚至降低了FC層的梯度更新所需帶寬), 10G網路環境可以支持100卡以上的訓練,高效支持幾千萬類的人臉識別(512特徵), 甚至上億類的人臉識別(128維特徵),接近線性加速;

3.支持大部分主流損失函數擴展(Margin, Normalization等等)。

最後看一下演算法效果(私有測試集,供參考)。利用這種思路,在人證場景基本上可以到接近億分之一的誤識率,互聯網場景一般會更簡單一些。但是其實億分之一的誤識別率很多時候也還是不夠的,還需要繼續改進,這方面因為時間關係就不再詳細說了。

如果大家有什麼問題,歡迎進一步交流技術細節,也歡迎感興趣的同學們來格靈深瞳實習。最後,給我們第二期的AI PlayGround活動做個廣告。這個活動,由格靈深瞳和馭勢科技聯合舉辦,首先會有一個月的深度學習,自動駕駛和強化學習的基礎知識教學;然後進行一場五子棋AI爭霸賽,看你如何能夠左右互搏不斷提升AI的棋力;並且,UCloud雲平台會全程免費提供24G顯存的GPU供大家進行模型訓練。這個活動也才剛剛開始,歡迎大家積极參与。謝謝大家!(全文完)

關於張徳兵最後提到的AI PlayGround活動,小編最後再作一下補充。

從下期開始(4月29日),除了固定的AI課程之外,我們還邀請了幾位神秘嘉賓給大家帶去他們正在研究的學術進展,或是在工作中的實際體會。他們之中,有正在斯坦福、CMU等名校深造的,也有已經在Facebook、IBM等這些大廠中工作的。而無一例外的,他們都是從格靈深瞳畢業的優秀實習生們。

格靈深瞳的實習生,有不少被斯坦福、CMU、麻省理工、哈佛和華盛頓等牛校錄取的,我們以擔當這些優秀年輕人成長路上一個美好的腳印為榮,如果各位應屆畢業生,想出國留學的話,可以先來格靈深瞳工作幾年噢!

直播課程 | 格靈深瞳AI PLAYGROUND II

4月14日-5月13日,每個周末,兩節AI課程,你將:

- 在格靈深瞳演算法團隊的帶領下,完成深度學習、強化學習、無人駕駛原理的課程學習

- 完成一個有挑戰的任務:五子棋AI爭霸賽

- 有機會在競賽中脫穎而出,抱走神秘大獎

綠色通道:

關注微信公眾號(shentongzhineng),後台回復「直播課程」,即可獲得直播ID。每期課程會在直播間有回放,歡迎收看。(本周末因valse會議,暫停一期,4月29日恢復直播)


推薦閱讀:

深度學習網路用於面部表情特徵學習
智慧春運時代:迅通人臉識別儀「刷」新你的春運印象
平台現漏洞被盜刷28萬,「人臉識別」真的這麼容易被破解?
動態人臉識別技術的難點與解決思路
MTCNN人臉檢測---PNet網路訓練

TAG:人臉識別 | 格靈深瞳 |