大數據時代,互聯網金融風控如何利用大數據建模而有別於傳統建模方式?

如題。如今是大數據時代,海量數據處理和挖掘是未來的一個潮流。由於數據量大而離散分布,傳統的數據建模往往已經不適合來做建模,所以促使我們去挖掘如何基於大數據下去建模。這是一個新的方向,但事實上不太好做。比如互聯網金融模塊,做一個基於大數據的風控反欺詐模型,需要用到很多數據變數,而且變數都是離散不飽和,那麼我們如何利用已有的數據去建模呢?


大數據能夠進行數據變現的商業模式目前就是兩個,一個是精準營銷,典型的場景是商品推薦和精準廣告投放,另外一個是大數據風控,典型的場景是互聯網金融的大數據風控。

金融的本質是風險管理,風控是所有金融業務的核心。典型的金融借貸業務例如抵押貸款、消費貸款、供應鏈金融、以及票據融資都需要數據風控識別欺詐用戶及評估用戶信用等級。

傳統金融的風控主要利用了信用屬性強大的金融數據,一般採用20個緯度左右的數據,利用評分來識別客戶的還款能力和還款意願。信用相關程度強的數據緯度為十個左右,包含年齡、職業、收入、學歷、工作單位、借貸情況、房產,汽車、單位、還貸記錄等,金融企業參考用戶提交的數據進行打分,最後得到申請人的信用評分,依據評分來決定是否貸款以及貸款額度。其他同信用相關的數據還有區域、產品、理財方式、行業、繳款方式、繳款記錄、金額、時間、頻率等。

互聯網金融的大數據風控並不是完全改變傳統風控,實際是豐富傳統風控的數據緯度。互聯網風控中,首先還是利用信用屬性強的金融數據,判斷借款人的還款能力和還款意願,然後在利用信用屬性較弱的行為數據進行補充,一般是利用數據的關聯分析來判斷借款人的信用情況,藉助數據模型來揭示某些行為特徵和信用風險之間的關係。

互聯網金融公司利用大數據進行風控時,都是利用多維度數據來識別借款人風險。同信用相關的數據越多地被用於借款人風險評估,借款人的信用風險就被揭示的更充分,信用評分就會更加客觀,接近借款人實際風險。常用的互聯網金融大數據風控方式有以下幾種:

一、驗證借款人身份

驗證借款人身份的五因素認證是姓名、手機號、身份證號、銀行卡號、家庭地址。企業可以藉助國政通的數據來驗證姓名、身份證號,藉助銀聯數據來驗證銀行卡號和姓名,利用運營商數據來驗證手機號、姓名、身份證號、家庭住址。

如果借款人是欺詐用戶,這五個信息都可以買到。這個時候就需要進行人臉識別了,人臉識別等原理是調用國政通/公安局 API介面,將申請人實時拍攝的照片/視頻同客戶預留在公安的身份證進行識別,通過人臉識別技術驗證申請人是否是借款人本人。

其他的驗證客戶的方式包括讓客戶出示其他銀行的信用卡及刷卡記錄,或者驗證客戶的學歷證書和身份認證。

二、分析提交的信息來識別欺詐

大部分的貸款申請都從線下移到了線上,特別是在互聯網金融領域,消費貸和學生貸都是以線上申請為主的。

線上申請時,申請人會按照貸款公司的要求填寫多維度信息例如戶籍地址,居住地址,工作單位,單位電話,單位名稱等。如果是欺詐用戶,其填寫的信息往往會出現一些規律,企業可根據異常填寫記錄來識別欺詐。例如填寫不同城市居住小區名字相同、填寫的不同城市,不同單位的電話相同、不同單位的地址街道相同、單位名稱相同、甚至居住的樓層和號碼都相同。還有一些填寫假的小區、地址和單位名稱以及電話等。

如果企業發現一些重複的信息和電話號碼,申請人欺詐的可能性就會很高。

三、分析客戶線上申請行為來識別欺詐

欺詐用戶往往事先準備好用戶基本信息,在申請過程中,快速進行填寫,批量作業,在多家網站進行申請,通過提高申請量來獲得更多的貸款。

企業可以藉助於SDK或JS來採集申請人在各個環節的行為,計算客戶閱讀條款的時間,填寫信息的時間,申請貸款的時間等,如果這些申請時間大大小於正常客戶申請時間,例如填寫地址信息小於2秒,閱讀條款少於3秒鐘,申請貸款低於20秒等。用戶申請的時間也很關鍵,一般晚上11點以後申請貸款的申請人,欺詐比例和違約比例較高。

這些異常申請行為可能揭示申請人具有欺詐傾向,企業可以結合其他的信息來判斷客戶是否為欺詐用戶。

四、利用黑名單和灰名單識別風險

互聯網金融公司面臨的主要風險為惡意欺詐,70%左右的信貸損失來源於申請人的惡意欺詐。客戶逾期或者違約貸款中至少有30%左右可以收回,另外的一些可以通過催收公司進行催收,M2逾期的回收率在20%左右。

市場上有近百家的公司從事個人徵信相關工作,其主要的商業模式是反欺詐識別,灰名單識別,以及客戶徵信評分。反欺詐識別中,重要的一個參考就是黑名單,市場上領先的大數據風控公司擁有將近1000萬左右的黑名單,大部分黑名單是過去十多年積累下來的老賴名單,真正有價值的黑名單在兩百萬左右。

黑名單來源於民間借貸、線上P2P、信用卡公司、小額借貸等公司的歷史違約用戶,其中很大一部分不再有借貸行為,參考價值有限。另外一個主要來源是催收公司,催收的成功率一般小于于30%(M3以上的),會產生很多黑名單。

灰名單是逾期但是還沒有達到違約的客戶(逾期少於3個月的客戶),灰名單也還意味著多頭借貸,申請人在多個貸款平台進行借貸。總借款數目遠遠超過其還款能力。

黑名單和灰名單是很好的風控方式,但是各個徵信公司所擁有的名單僅僅是市場總量的一部分,很多互聯網金融公司不得不接入多個風控公司,來獲得更多的黑名單來提高查得率。央行和上海經信委正在聯合多家互聯網金融公司建立統一的黑名單平台,但是很多互聯網金融公司都不太願意貢獻自家的黑名單,這些黑名單是用真金白銀換來的教訓。另外如果讓外界知道了自家平台黑名單的數量,會影響其公司聲譽,降低公司估值,並令投資者質疑其平台的風控水平。

五、利用移動設備數據識別欺詐

行為數據中一個比較特殊的就是移動設備數據反欺詐,公司可以利用移動設備的位置信息來驗證客戶提交的工作地和生活地是否真實,另外來可以根據設備安裝的應用活躍來識別多頭借貸風險。

欺詐用戶一般會使用模擬器進行貸款申請,移動大數據可以識別出貸款人是否使用模擬器。欺詐用戶也有一些典型特徵,例如很多設備聚集在一個區域,一起申請貸款。欺詐設備不安裝生活和工具用App,僅僅安裝和貸款有關的App,可能還安裝了一些密碼破譯軟體或者其他的惡意軟體。

欺詐用戶還有可能不停更換SIM卡和手機,利用SIM卡和手機綁定時間和頻次可以識別出部分欺詐用戶。另外欺詐用戶也會購買一些已經淘汰的手機,其機器上面的操作系統已經過時很久,所安裝的App版本都很舊。這些特徵可以識別出一些欺詐用戶。

六、利用消費記錄來進行評分

大數據風控除了可以識別出壞人,還可以評估貸款人的還款能力。過去傳統金融依據借款人的收入來判斷其還款能力,但是有些客戶擁有工資以外的收入,例如投資收入、顧問諮詢收入等。另外一些客戶可能從父母、伴侶、朋友那裡獲得其他的財政支持,擁有較高的支付能力。

按照傳統金融的做法,在家不工作照顧家庭的主婦可能還款能力較弱。無法給其提供貸款,但是其丈夫收入很高,家庭日常支出由其太太做主。這種情況,就需要消費數據來證明其還款能力了。

常用的消費記錄由銀行卡消費、電商購物、公共事業費記錄、大宗商品消費等。還可以參考航空記錄、手機話費、特殊會員消費等方式。例如頭等艙乘坐次數,物業費高低、高爾夫球俱樂部消費,遊艇俱樂部會員費用,奢侈品會員,豪車4S店消費記錄等消費數據可以作為其信用評分重要參考。

互聯網金融的主要客戶是屌絲,其電商消費記錄、旅遊消費記錄、以及加油消費記錄都可以作為評估其信用的依據。有的互聯金融公司專門從事個人電商消費數據分析,只要客戶授權其登陸電商網站,其可以藉助於工具將客戶歷史消費數據全部抓取並進行匯總和評分。

七、參考社會關係來評估信用情況

物以類聚,人與群分。一般情況下,信用好的人,他的朋友信用也很好。信用不好的人,他的朋友的信用分也很低,

參考借款人常聯繫的朋友信用評分可以評價借款人的信用情況,一般會採用經常打電話的朋友作為樣本,評估經常聯繫的幾個人(不超過6六個人)的信用評分,去掉一個最高分,去掉一個最低分,取其中的平均值來判斷借款人的信用。這種方式挑戰很大,只是依靠手機號碼來判斷個人信用可信度不高。一般僅僅用於反欺詐識別,利用其經常通話的手機號在黑名單庫裡面進行匹配,如果命中,則此申請人的風險較高,需要進一步進行調查。

八、參考借款人社會屬性和行為來評估信用

參考過去互聯網金融風控的經驗發現,擁有伴侶和子女的借款人,其貸款違約率較低;年齡大的人比年齡低的人貸款違約率要高,其中50歲左右的貸款人違約率最高,30歲左右的人違約率最低。貸款用於家庭消費和教育的貸款人,其貸款違約率低;聲明月收入超過3萬的人比聲明月收入低於1萬5千的人貸款違約率高;貸款次數多的人,其貸款違約率低於第一次貸款的人。

經常不交公共事業費和物業費的人,其貸款違約率較高。經常換工作,收入不穩定的人貸款違約率較高。經常參加社會公益活動的人,成為各種組織會員的人,其貸款違約率低。經常更換手機號碼的人貸款違約率比一直使用一個電話號碼的人高很多。

午夜經常上網,很晚發微博,生活不規律,經常在各個城市跑的申請人,其帶貸款違約率比其他人高30%。刻意隱瞞自己過去經歷和聯繫方式,填寫簡單信息的人,比信息填寫豐富的人違約概率高20%。借款時間長的人比借款時間短短人,逾期和違約概率高20%左右。擁有汽車的貸款人比沒有汽車的貸款人,貸款違約率低10%左右。

九、利用司法信息評估風險

涉毒涉賭以及涉嫌治安處罰的人,其信用情況不是太好,特別是涉賭和涉毒人員,這些人是高風險人群,一旦獲得貸款,其貸款用途不可控,貸款有可能不會得到償還。

尋找這些涉毒涉賭的嫌疑人,可以利用當地的公安數據,但是難度較大。也可以採用移動設備的位置信息來進行一定程度的識別。如果設備經常在半夜出現在賭博場所或賭博區域例如澳門,其申請人涉賭的風險就較高。另外中國有些特定的地區,當地的有一部分人群從事涉賭或涉賭行業,一旦申請人填寫的居住地址或者移動設備位置信息涉及這些區域,也要引起重視。涉賭和涉毒的人員工作一般也不太穩定或者沒有固定工作收入,如果申請人經常換工作或者經常在某一個階段沒有收入,這種情況需要引起重視。涉賭和涉毒的人活動規律比較特殊,經常半夜在外面活動,另外也經常住本地賓館,這些信息都可以參考移動大數據進行識別。

總之,互聯網金融的大數據風控採用了用戶社會行為和社會屬性數據,在一定程度上補充了傳統風控數據維度不足的缺點,能夠更加全面識別出欺詐客戶,評價客戶的風險水平。互聯網金融企業通過分析申請人的社會行為數據來控制信用風險,將資金借給合格貸款人,保證資金的安全。(來源:36大數據)


以金融業務數據為基礎,貫通跨行業、跨地域、跨部門數據,依託區塊鏈分散式賬本技術,著力打造集金融業務管理、數據融合分析、智能風險監控、政務服務監管、徵信服務畫像、證據保全服務為一體的多終端金融監管雲平台和監管體系。

主要功能

公共平台:提供數據採集、數據管理、數據建模、大數據挖掘分析、服務匯流排、流程協同管理服務。

金融業務管理系統:提供對小額貸款、融資擔保、新型金融等類型企業的業務申報審批服務。

政務服務管理系統:提供業務管理流程監控、崗位職責與行為規範監察,行政效能綜合評價服務。

證據鏈備案系統:提供對小額貸款、融資擔保、新型金融等類型企業的交易信息備案服務。

互聯網金融風險防控系統:提供對網路借貸等新型金融企業的風險監控服務。

大屏監控系統:提供實時的小額貸款、融資擔保、新型金融、徵信、區塊鏈應用風險監控服務。

移動終端應用:提供移動終端類的業務審批、風險處置服務。


在大數據時代最有效的一般還是強變數,比如每月工資單我就看那一個數然後就喜上眉梢。當缺乏強變數或者獲取不到強變數的時候大數據技術會是非常有效的替代手段。至於未來能否依靠大數據技術在風控領域做到千人千面這還需要時間來驗證。

大數據技術最大的價值是提升人類社會的效率,降低信息差,優化各類決策,提供更深層度量衡的技術手段。比如用在天體物理領域、用在災難預測領域、用在工業設計領域。糾結一票能夠解決這樣問題的同學們如果僅僅是為了多發放兩筆沒逾期的貸款而存在,當然也是可以的。

目前我們關心的技術主要有以下部分:

1. 高性能計算:GPU+CPU異構計算、FPGA晶元、超大規模(萬億節點)圖計算問題。

2. AutoFature:海量數據中如何程序化特徵工程,並達到接近人類完成的水平。

3. 小數據學習:如何利用少量數據訓練達到海里數據相同/接近的性能。

4. 複雜網路:如何將真實世界更有效率的映射在圖狀數據結構,以及如何對其進行編碼。

5. 數據擴展:如何挖掘更多的數據加入到模型中以及如何獲得更多高價值、高質量、高覆蓋率的數據。

我的邏輯是:

1. 靠人力來解決模型開發的問題,在無限維度的數據增長時必然會存在上限。那麼尋找在高緯數據中程序化工作的手段是我們必然的選擇。

2. 無限維度的數據增長以及新的演算法必然衍生出嚴重的計算性能問題,如何能夠快速的完成海里數據計算決定了整個團隊的實驗速度。而最終實驗速度決定了整個團隊的技術能力。

3. 在面臨新業務或者之前從未出現的情況時,依靠深度學習等技術的完成的演算法缺乏冷啟動的手段。如何能在較小的高維數據集中訓練出一個可用的模型。

4. 個人認為圖狀數據結構是在保證meta data質量的前提下,最具靈活性的數據結構。在解決計算性能、圖的特徵編碼等問題後,也許這是通向通用人工智慧的方向。

5. 數據擴展就不用解釋了吧- -!

目前我所在團隊主要欠缺的問題:

1. 優秀的演算法工程師,能夠有效的將真實世界映射到數據結構與演算法中的工程師。

2. 優秀的系統工程師,不論是異構計算還是圖計算問題都是挑戰性很大的系統性問題,基礎設施的好壞決定了整體的工作效率以及成本。

3. 優秀的產品經理,能同時理解演算法與真實世界,並能夠完成抽象、結構並重構成更加合理結構的產品經理,同時還有較強的推動力比大熊貓還稀缺。


順便說,我發現知乎自動排版還挺好看的- -!


想了解大數據建模過來看看哦~

#獨家課程#12月14日(本周四 20:00),66號學苑攜手ZRobot CEO喬楊開設信用評分模型系列課程,從概念應用、數據基礎、數據挖掘技術、開發流程、實戰案例等方面,手把手教你如何搭建企業級信用評分模型。課程地址:千聊


推薦閱讀:

TAG:數據挖掘 | 數據分析 | 互聯網金融 | 大數據分析 | 大數據時代 |