互聯網大數據徵信產品調研

04-20

互聯網金融和大數據是最近特別熱的兩個方向，而其中大數據發展最快的商業化應用就是在互聯網金融中用於風險控制，簡稱為大數據風控。

大數據風控領域裡也有很多細分方向的產品，其中通過數據挖掘對個人信用數據進行分析，為互聯網金融機構提供個人徵信服務的產品，就是大數據徵信產品。

最近剛好有機會對大數據徵信產品做下快速的市場調研，雖然理解的還比較淺，但是對於像我一樣外行的朋友，總能有些幫助。

為了更好地理解為什麼會需要大數據徵信產品，首先要知道傳統徵信機構存在什麼問題。

傳統徵信機構的局限

以央行的徵信系統為代表，傳統徵信機構通過商業銀行、其它社會機構上報的數據，結合身份認證中心的身份審核，提供給銀行系統信用查詢和提供給個人信用報告。

1. 存在大量信用「白板」用戶

央行徵信系統有大概8億人檔案，其中只有不到3億人有過銀行或其他金融機構發生過借貸的記錄。

2. 徵信數據緯度單一，來源缺乏

沒有完全接納個人的社保、保險、教育、房產、車輛等信息，數據主要來自銀行體系及少部分小貸公司提供，但不接入民間借貸信息

3. 半封閉式獲取，信息無法及時更新

數據上報機構缺乏積極性，數據獲取方式非常被動，導致數據來自某個時點的快照，因此無法有效交叉驗證

對於互聯網金融機構而言，需要解決的問題更多。

互聯網金融機構的困境

以P2P網貸為典型，互聯網金融機構發展迅速，數據顯示2015年全國P2P網貸平台每月資金成交量超過160億，數量超過3000家，有效投資人達到50萬。

但是P2P網貸在風險管理上仍然非常混亂，壞賬和逾期率都無法控制，而造成問題的主要原因是缺乏個人徵信的有效手段。

1. 沒有納入央行徵信系統

央行徵信系統對於其它徵信機構和互聯金融公司目前不提供直接查詢服務。

2. 客戶覆蓋範圍存在偏差。

互聯網金融機構的客戶有很大比例是傳統徵信中的「白板」用戶，而這些客戶是傳統徵信中的盲區。

因此P2P網貸平台只能依靠第三方徵信機構，

第三方徵信機構該如何解決個人徵信的問題呢？美國互聯網金融行業已經發展成熟，因此最容易想到的解決方案當然是借鑒美國的。

FICO和ZestFinance

長期以來美國金融機構用FICO作為一個重要的變數指標來衡量個人信用風險。美國個人信用資料庫較全面，一般存儲有最近7-10年的個人信用記錄。但是美國仍有25%的人沒有徵信記錄，在面對這些次級客戶時，FICO評分指標起不到特別好的甄別作用。

而ZestFinance正是面向無賬戶人群，信用數據不足和信用記錄不好的人群，通過大數據挖掘和機器學習，採用十個模型，從不同角度進行計算，給出個人信用評分。ZestFinance的核心是來自Google的大數據模型。特別的，ZestFinance主要還是採用結構化和類結構化的數據,來源主要是從數據代理商處購買，從未將社交網路數據納入模型。

問題是ZestFinance的模式真的完全適用國內徵信行業嗎？

大數據徵信和本土化

ZestFinance似乎給出了個人徵信的解決方案：大數據徵信。大數據徵信通過獲得多渠道的大數據原料，利用數學運算和統計學的模型進行分析，從而評估出借款者的信用風險。

國內徵信問題的差異

美國徵信體系完善，信用數據相對全面，ZestFinance在數據獲取的途徑上沒有障礙，因此其核心是數據挖掘和建立模型。

然而，國內徵信體系不成熟，大數據徵信在本土化過程中首要解決的問題是數據原料的獲取。那麼國內現有第三方徵信機構發展情況如何？

國內第三方徵信機構

2015年央行公布了首批獲得個人徵信牌照的8家機構名單。這些機構一個特點是徵信機構本身亦是「數據製造者」。比如阿里的風控模式，他們通過自身系統大量的電商交易以及支付信息數據建立了封閉系統的信用評級和風控模型。除此之外，還有眾多中小互聯網金融公司通過貢獻數據給一個中間徵信機構，再分享徵信信息。

1. 芝麻信用：依託阿里電商系的交易數據閉環，構建以芝麻分為核心的徵信服務平台。

2. 騰訊徵信：騰訊多維度的產品線同樣構建以社交關係行為為核心的徵信體系

3. 考拉徵信：考拉徵信有老牌三方支付拉卡拉的數據，數據優勢在於大量的真實線下還款交易及其他交易。

4. 中智誠：曾服務於8家商業銀行聯盟的反欺詐諮詢，並與8家聯盟銀行的數據實現共享，有基於反欺詐的評分服務

5. 中誠信：中誠信從2003年起開始布局徵信也，比央行徵信起步還早，前期積累了大量企業信息，和企業主信息。

6. 前海：平安從2013年開始籌備徵信事業部，銀行+保險的模式獲取了大量金融服務的客戶數據。

7. 鵬元：老牌徵信提供商，在深圳廣州有非常深入的金融徵信數據，幾乎覆蓋了深圳地區所有的小貸公司數據。

8. 華道徵信：華道徵信有深厚的大型企業資源，在獲取獨佔數據上有一定優勢。

總體來說，國內徵信機構在數據獲取階段中存在兩個問題：1. 數據緯度單一，數據多來自關聯業務。2. 數據無法共享，形成信息孤島。

授權爬取多緯度數據

真正的第三方徵信機構需要能進行多緯度徵信數據的獲取。

聚信立給出的解決方案是用戶授權爬取：通過借款人授權，利用網頁極速抓取技術獲取各類用戶個人數據，通過海量數據比對和分析，交叉驗證，最終為金融機構提供用戶的風險分析判斷。聚信立2016年1月獲得京東B輪投資，同時京東也是ZestFinance的投資者。聚信立此輪融資後，數據獲取和處理能力將會進一步提升。

聚信立報告的四個維度包括：

1. 信息驗真：通過交叉比對驗證用戶是否是真實存在的人，是否有欺詐風險。

2. 運營商數據：分析用戶生活、工作及社交範圍，與家人朋友的聯繫頻率等。

3. 電商數據：分析用戶消費能力及消費習慣，判斷用戶是否有能力還款。

4. 其他數據：包括公積金社保數據、學信網數據、全國高法執行名單、黑名單等數據，判斷用戶是否存在欺詐風險。

授權爬取是目前看來能夠解決多緯度數據獲取問題的方法，而對於信息孤島問題，同樣有機構在嘗試新的解決方案。

P2P分布連接信息孤島

蜜蜂數據的解決方案是P2P分布資料庫：各平台自行管理自有數據，無需中央資料庫；系統僅負責通訊、對接，不對任何徵信數據進行持久化存儲；統一數據標準和介面，提供靈活、彈性的數據擴展；按需查詢、按實際效果付費，數據被查詢獲得收益。蜜蜂數據2015年6月B輪融資，目前已經超過500家合作P2P平台。

P2P分散式資料庫能實現金融機構之間的純粹、完整、無交叉的強屬性數據自由、快速共享，加速行業發展，但是需要避免數據同質化。

換個角度來思考，互聯網中存在著海量的社交數據，如果我們能夠從社交數據中挖掘出有效的信息呢？首先想到的自然是騰訊。

非結構化數據的挖掘

如果能從社交數據中挖掘出更有價值的信息，將解決個人信用數據缺乏的情況。但是從社交等非結構化數據中挖掘信息目前尚有困難。因此現在的騰訊徵信模型中並沒有引入社交數據。

進展

騰訊徵信正在積極應用新技術進行研究和驗證，社交數據的信貸應用在全球範圍內都是很前沿的探索。騰訊模型研究團隊的初步成功已顯示，社交數據可以明顯提升個人徵信的準確性。

前景

騰訊擁有的海量社交數據將來會為個人徵信機構帶來更豐富的數據緯度，但是目前騰訊徵信並未使用到用戶的社交數據。同時考慮到個人隱私的問題，社交數據易偽造，數據清洗難度高，其前景仍然不明朗。

寫在最後

目前看來，大數據徵信行業還是剛剛起步，市場天花板很高，競爭也會日趨激烈，同時先進入的不一定是最後的贏家，關鍵還是要更懂中國，更符合國情。

本文屬原創內容，轉載前須經過本人同意。