淺談大數據風控的基本框架

隨著監管趨嚴和行業愈加規範化,大數據風控,尤其是基於弱數據的風控正成為線上信用貸業務最重要的核心競爭力。

nn

( 本文由 CreditX氪信 授權發表)

nn

近日,中國人民銀行成立金融科技(FinTech)委員會,旨在加強金融科技工作的研究規劃和統籌協調。

nnnn

隨著AI、雲計算在金融業務層面的快速滲透,也倒逼監管跟進升級,以進一步加強監管的有效性。事實上,這次央行提出監管科技(RegTech),也是對金融科技的肯定,希望其在驅動金融創新,引領金融規範化發展中發揮積極作用。

nnnn

金融的核心在於風險,現下談及互聯網金融,很多人都對大數據風控並不陌生,也都在行業野蠻發展的過程中有自己的理解。但如果要定義什麼是大數據風控,可能不少行業外圍同學的看法難免有些偏頗和碎片化。下面筆者淺顯地從大數據風控的基本內容和框架出發,主要為想要了解這個行業的同學簡要做一個相對完整的介紹。

nnnn

大數據到底有哪些?

nn

首先我們需要釐清大數據的概念,當下各行各業都在探索大數據的價值,大數據的定義也很多。從技術的角度來理解,本質就是來自多個渠道和系統的結構化和非結構化數據,在金融領域,尤其是消費金融,我們界定大數據到底有哪些維度,其實芝麻信用分是一個非常典型例子,雖然不同公司有自己的分法,但數據主體大都可以歸類為身份屬性、信用屬性、行為數據、消費屬性、人脈關係這五大方面。

身份屬性,這是最基礎的,包括真實的身份信息、學歷、就業經歷等。

nnnn

信用屬性包含的方面比較多,比如過往的履約記錄、固定資產、流動資產、收入等都會納入進來用以衡量一個人還款能力和還款意願。

nnnn

過去我們去銀行辦理貸款,以上這兩個維度就是傳統風控的數據來源,但由於大多數人沒有這方面比較完整的記錄,且流程冗長麻煩,因此只有少部分人才能享受金融服務。

nnnn

現在隨著互聯網的爆髮式發展,以及普惠金融的崛起,越來越多的機構正將海量互聯網數據和金融結合探索其在表徵風險方面的價值。如上所述,長期缺乏金融產品的人群基數龐大,需求旺盛,因此從創業公司到BAT到金融機構,都在拓展更多領域的大數據以搶佔消費金融爆發的窗口期。

nnnn

數據拓展的第一個領域是消費屬性,這塊主要是電商或交易數據,比如日常購物商品、消費金額、消費時段等都可以從不同角度來分析出一個人消費穩定度,消費檔次,還款能力等風險特徵。

nnnn

其次,人脈關係也是很重要的一個維度,俗話說「近朱者赤,近墨者黑」。很多時候你的微信朋友圈、經常打電話的朋友也反映了你在風險上的表徵。生活中我們和同事溝通比較頻繁,而如果一個人社交穩定度差,可能說明他經常換工作,顯然風險也會相應增加。

nnnn

最後一個維度是行為數據,這塊數據涉及面比較廣泛,主要是用戶在APP上的活動所體現出的行為特點,包括瀏覽不同類目的頻次、時間、風險偏好等等。

nnnn

說到這,我們對大數據風控涉及的幾類數據應該有了一個基本的認識,那在具體工作中,我們是不是應該先把這些數據都收集好才能做好工作呢?

nnnn

答案是否定的,因為數據都是有成本的,開展一個金融業務,從數據、模型、服務再到最後的收益,更為關鍵的是業務本身的形態,再進一步擴展至產品、場景,我們會發現不同的場景面對不同的客群,風控關注的風險點都會有一定的差異,再反過來尋找能夠表徵這些風險點的數據也會有所側重。因此,如果要釐清大數據風控該用哪些數據,首先要對風控場景有所了解,其中最為核心的是理解不同場景下要抓住哪些金融風險。

nnnn

金融風險的理解

nnnn

風險的概念比較大,為了給大家提供一個最基本的視角來了解,下面以線上信用貸款舉例來闡述,這也是互聯網消費金融最主要的方向之一。在這個場景下,我們面臨的風險主要是信用風險和欺詐風險兩塊。

nnnn

首先是欺詐風險,據數字,在中國,互聯網金融50-70%的損失來自欺詐,這也可以說是風控業務中最困難的地方。造成這種現狀的原因比較多,一方面是諸如現金貸類型的消費金融短期爆髮式發展,大量創業公司湧入賽道以互聯網獲客運營的流量思路做金融,與此同時相應的風控經驗和能力缺失,因此給專業的欺詐分子暴露了較大的風險敞口,通過簡單研究業務規則漏洞,並通過互聯網傳播,可能帶來較大的損失;另一方面也是欺詐產業鏈自身研究實力不斷的完善有關,現在的欺詐已經從以往單一的個人欺詐演變為有組織、有規模的集團化欺詐,鏈條上盜號,數據泄露作為基礎賬號庫,已衍生出一系列包括黑產交易、ID Mapping、定向攻擊的完整產業鏈,其中的分工和技術也非常專業和精細化。

舉個例子,這種設備稱為養卡設備,俗稱「貓池」,n實際上就是一個號碼卡插槽,可以在不拆卡的情況下將整張卡插到貓池裡,連接電腦後使用,還可以接收簡訊驗證碼。現在在各種平台註冊時都需要填寫簡訊驗證碼,「刷手」為了獲取平台的福利會利用貓池養卡,規避平台的身份確認簡訊。

再比如簡訊攔截馬,這是一種可以攔截他人簡訊的木馬,讓被攻擊者收不到簡訊,並將簡訊內容截取到攻擊者手機上。這種木馬最常見的是通過釣魚、誘騙、欺詐等方式誘導用戶安裝,然後通過攔截轉發用戶簡訊內容,以此獲取各種用戶重要的個人隱私信息,如用戶姓名、身份證號碼、銀行卡賬戶、支付密碼及各種登錄賬號和密碼等,造成這些信息的泄露,再利用此信息從而達到竊取用戶資金的目的,嚴重威脅用戶的財產安全。

nnnn

第二塊簡單談一下信用風險,其定義是借款者違約的風險,換句話說,也就是借款人因各種原因未能及時、足額償還債務或貸款而違約的可能性。一般,我們會從還款能力和還款意願兩個角度去分析信用風險,但在小額信用貸場景中,由於額度一般為2000左右,少就幾百,多也就5000,一個正常有工作的人很少會不具備按期還款的能力。所以在這點上我們更多的是從還款意願角度來看,即借款人對償還貸款的態度,現實中有不少人會借錢不還,這就是常說的「老賴」,如果我們以違約概率的目標去識別他,還是能挑出不少有正常借款意圖的人。

nnnn

大數據風控體系的初步構建

nnnn

現在我們有了對大數據和風險的基本認知,但如何真正從大數據提煉出風險表徵,並進一步轉化為實時的金融風險決策服務呢?事實上,這需要重構一整套風控數據架構體系,過去傳統金融機構在身份屬性和信用屬性的數據上沉澱了豐富知識,但在互聯網金融業務中,用戶能夠關聯的更多是消費、社交和行為類數據,且越是小額分散的業務,數據的金融屬性越弱。近兩年小額現金貸也正是由於這部分數據的風控知識體系缺乏,因此陷入高利率覆蓋高壞賬、暴力催收等亂象。

nnnn

隨著監管趨嚴和行業愈加規範化,大數據風控,尤其是基於弱數據的風控正成為線上信用貸業務最重要的核心競爭力,除了基本的身份驗證、合規、黑灰名單、規則過濾以外,要防控欺詐風險和信用風險,還需做好以下三個維度的準備:

nnnn

第一是設備層面,現在成熟的APP都需要辟如更換登錄設備時重新輸入簡訊驗證碼,或者登錄時得手動滑動驗證碼等,這些既是擋住黑產的第一道關,也是後續風控的重要數據基礎。

nnnn

第二是知識體系層面,拆解開來看,核心有2點,一是知識工程,二是模型。目前最領先的消金機構都有一套相對成熟的針對特定數據domain的風險特徵庫和分客群、分目標的模型,比如反欺詐模型、申請評分模型、風險行為預測模型等,貸後還會有催收模型、客戶流失預測模型等。在這過程中,引入AI處理弱數據,並在大量樣本上不斷迭代模型是關鍵。

nnnn

第三是系統層面,試想我們有了清晰的數據認知,結合到場景和風險理解我們也摸索了一套經驗證的數據使用方式,但如何與我們的業務系統對接,成為實時的數據服務?這還需要一個完整的支持數據接入、加工處理、得出結果以及監控管理的在線引擎。隨著線上個人貸款規模的爆髮式增長,控制風險、解放人力已成為最緊迫的需求,數據智能自動化引擎是機構「跑起來」的強大推動力。

nnnn

風控與徵信

nn

最後,簡單談一下大數據風控和徵信的區別,不少同學會認為風控公司就是徵信公司,這其中還是有較大區別的,尤其在大數據領域。

nnnn

據百科,徵信是專業化的、獨立的第三方機構為個人或企業建立信用檔案,依法採集、客觀記錄其信用信息,並依法對外提供信用信息服務的一種活動,它為專業化的授信機構提供了信用信息共享的平台。

nnnn

應該看到,徵信所對應的數據還局限在開頭所說的身份屬性和信用屬性範圍,也就是強金融數據,而大數據風控認為所有數據都是風險數據,更側重於將弱數據金融化,再提煉出風險表徵。因此,徵信本質是大數據風控的子集,覆蓋的人群和應用領域也更為狹窄。當下大數據風控和徵信的確還處於混業經營的狀態,但隨著行業發展,可預見市場還會逐漸細分,屆時前者將更注重在數據生態體系上的經驗和沉澱,後者則側重在獨立性和公信力以及監管合規等方面。


推薦閱讀:

科技創新金融,為何超融合勢不可擋?
請問如何將數據挖掘技術應用與互聯網金融?
國內的信用環境有哪些具體的不足?
換個角度看評級:昨日得意沐春風,而今墳頭綠草瑩

TAG:互联网金融 | 大数据风控 | 消费金融 |