阿里巴巴直播防控中的實人認證技術

直播作為近來新興的互動形態,已經成為近幾年最風生水起的行業之一。在2016年彷彿進入了「千團大戰」的繁華。歡聚時代10億砸向虎牙和ME直播,斥資1億簽下主播MISS;騰訊4億投資鬥魚,後者估值10億美元;新成立的映客獲得崑崙萬維、複賽等機構的8000萬人民幣投資;易直播獲得6000萬人民幣A輪融資;360推出花椒、秒拍推出一直播....網路直播正享受其最好的時光,直播"風口"成投資方必爭之地。

然而網路直播也因為走的太快,而失去了出發的初心,主播行為、直播內容變得不可控,低俗、大尺度、無下限成為「勁爆」欄目。針對網路直播的種種怪相,12月1日,由國家網信辦發布的,媒體認為「史上最嚴」的《互聯網直播服務管理規定》正式開始施行。《規定》要求直播平台按照「後台實名、前台自願」的原則,對用戶進行行動電話號碼等真實身份信息認證。而對於網路主播們,《規定》更要求通過審核身份證件等更為嚴格的方式進行認證登記。

而這些網路直播在進行實人認證時,需要對包括姓名、證件號、生物屬性、手機和位置等要素進行識別,如何在提高用戶體驗的同時準確的判斷賬號背後真實的人,也是目前困擾著各大公司的一大難題。目前阿里聚安全實人認證中使用的技術能夠大大提供自動化認證率和審核效率。

主播實人認證

主播的實人認證,基於自主研發的證件OCR、人臉識別等實現了88%以上的自動化認證率,並且採用雲(3D、翻拍檢測等)+端(交互動作等)相結合的活體檢測技術來防禦虛假認證的風險攻擊,以確認主播的真實身份,降低違法風險。

對主播進行了嚴格的實人認證:做到人證合一,即根據認證過的賬號身份信息,能準確找到對應的真實的自然人。

實人認證系統示意圖

其中涉及的智能技術很多,介紹其中兩項。

1、身份證OCR

身份證OCR是把身份證圖像中的文字識別為計算機能認識的文本,自動與公安網等權威資料庫比對,驗證姓名、號碼等信息的真偽。

基於自由拍攝證件圖像,流程見下圖。為保證識別率和速度,同時融合了傳統演算法和深度學習演算法。

身份證信息檢測流程圖

OCR演算法對「姓名」欄位的識別準確率達98%以上,對「身份證號碼」和「有效期」達99.5%。 系統具有很強魯棒性,以下case都可以輕鬆識別。

OCR可以識別的身份證舉例

2、生物特徵識別

只介紹人臉識別和人臉活體檢測。

人臉識別在學術界已超肉眼的識別水平,但能在實際中的大規模應用還比較少,原因是實際場景複雜和數據缺乏。挑戰來自光照、姿態、翻拍、化妝、衰老以及低照片質量。

我們對用戶真人人像、身份證照、權威資料庫的頭像進行兩兩比對,以驗證身份的真實性。演算法能在0.1%的認假率下,使得合法用戶自動通過率達93%以上。

人臉識別包括圖像獲取、人臉檢測、活體檢測、關鍵點定位、特徵提取、識別引擎等模塊。

人臉識別系統

2.1 人臉檢測

採用Boosting+RCNN框架。

人臉檢測結果圖

2.2 活體檢測

活體檢測是為了確保待認證的用戶是「活人」,而不是事先拍好或翻拍的人臉照片、視頻,防止虛假認證,降低主播的違法風險。

活體檢測實例圖

活體檢測模塊包括:

  • 人臉檢測

檢測是否出現人臉,且不能是多張臉, 防止不同的人切換或人與照片的切換。

  • 3D檢測

驗證是否為立體人像,防止平面的照片或視頻攻擊。

3D檢測示意圖

  • 活體演算法檢測

驗證用戶的操作是否正常,指定用戶做隨機動作(凝視、搖頭、點頭、眨眼、上下移動手機等)。

  • 連續性檢測

防止中途切換人。

  • 翻拍檢測

利用深度學習技術, 區分獲取的人像是否為對屏幕、照片的翻拍。

2.3 人臉關鍵點定位

定位出眉毛、眼睛、鼻子、嘴巴等位置。主流方法有:基於參數模型的方法;基於回歸的方法;基於深度學習的方法。

我們採用基於特徵的回歸方式+深度學習的方法,來訓練關鍵點定位模型。

人臉關鍵點檢測示意圖(圖片素材來源網路)

2.4 特徵提取

Maxout結構示意圖

我們同時採用了傳統人臉特徵(WLD, HOG,LBP,Gabor等)和基於深度學習(基於VGG、GoogleNet、Maxout三者的融合網路)的特徵進行人臉識別。

2.5 識別引擎

傳統人臉特徵,我們採用SVM進行pairwise距離度量;DL人臉特徵,對已經學習的分類模型進行微調。

實人認證自動化是基於人臉、OCR的識別結果,基於大數據,綜合利用用戶的行為特徵,進行多維度信息融合,最後得到綜合決策模型,實現自動決策的過程。而在目前互聯網發展的多種業務中,實人認證技術的應用場景紛繁複雜,對技術指標的要求也不盡相同,阿里聚安全提供的實人認證技術以生物識別、無線安全技術為支撐,保障實人認證有效性。

目前,阿里巴巴人臉識別技術已在實際場景中大規模應用,實戰中相關性能指標在FPR(False Positive Rate)0.1%情況下,TPR(True Positive Rate)達96%,識別準確率遠遠超過人體肉眼識別。阿里聚安全實人認證技術更以實時大數據風險管理為核心,可實時判斷每一個用戶的認證動機,對不同風險等級的用戶採取不同的認證方式,保障正常用戶能夠方便、快捷的提交資料,而風險用戶無法簡單的通過盜用他人信息通過認證,確保認證的真實性。

前文回顧:阿里巴巴直播內容風險防控中的AI力量

作者:威視@阿里安全部,更多阿里的安全技術文章,請持續關注阿里聚安全的安全專欄,或訪問阿里聚安全博客


推薦閱讀:

數據解析守望先鋒直播現狀,人氣不足如何守望!
第二十五章:害怕失去土豪粉?先做到這幾點~
#書摘#2016.8.18
用釘釘玩直播,阿里的社交夢就可以了嗎?
直播下半場如何破局?龍珠直播四大戰略抓手布局內容生態

TAG:网络直播 | 生物特征识别 | OCR光学字符识别 |