不明覺厲之『大數據風控』

假設你是銀行,要判斷是否發放信貸資金給某個借款人,你需要哪些數據輔助判斷?

在傳統的決策機制中,最重要的幾個數據維度無非信貸歷史、個人資產、個人收入,抵押擔保等幾個方面。這些維度最直接地反映了借款人的還款能力和還款意願。根據這些維度,商業銀行將不良貸款率長期維持在2%左右。

但這種決策方式也有其局限:

其一,集中以幾個核心維度決策,有時會因為規則引擎裡面某些規則過強而拒絕掉很多優質客戶;其二,過度強調貸前審查,而對放款之後借款人的動態情況無法實時監控,風險預警不夠有效;其三,要獲取這些數據依賴於銀行網點客戶經理的調查,成本高不說,很容易出現人為的風險

這就是為什麼各個互聯網信貸機構潛心研究並大肆宣傳自己的大數據風控技術。那麼,到底大數據風控厲害在哪?

數據種類和處理方式的變化

和文章開頭提到的幾個傳統的數據維度不同,隨著互聯網深入人們的生活,我們在網路上留下的軌跡也越來越多:購物、打車、租房、職業,學歷,社保——這些數據才是大數據風控所要搜集的信息。這些信息雖然無法直接反應一個人的信貸屬性,但無疑能夠間接反映這是一個怎樣的人。這些數據經過處理和分析,就能夠對金融機構的貸款決策起到很好的輔助作用。

而且,這些信息並不像傳統的做法,需要客戶自己親自搜集後提供給金融機構,只需通過客戶授權就可以獲得客戶在互聯網的軌跡。從客戶的角度看,似乎是只提供了姓名和身份證,產品體驗有了質的飛躍。

數據種類不同,處理數據的方式也相應有所變化。對於信貸屬性比較強的數據,直接通過設定一定的閾值來篩選客戶是最普遍的方法,比如每月收入5000元以上。但對於信貸屬性較弱的數據,就需要適當做一些加工和理解了。

舉個栗子。芝麻信用團隊應用了一種改進的樹模型GBDT(Gradient Boosting Decision Tree),通過這個模型深入挖掘特徵之間的關聯性,衍生出具備較強信用預測能力的組合特徵。比如,張小小經常在網上購買母嬰類用品,反映出一定的生活穩定性和家庭責任感,加1分。同時,如果張小小還每個月通過支付寶參加公益捐款,兩個條件一組合,更能確認張小小是個「好人」,就可以再加2分。當然,實際上這些模型的具體運算和規則是價值上億的商業機密,只有很少一部分人才知道。但我們能夠確認的是, 有信貸價值的數據維度越來越多,也越來越有價值了。

從「因果關係」到「相關關係」

大數據的「大」除了體現現代科技對海量數據的儲存處理能力之外,最重要的,還是在思維方式和工作方法角度為信貸風險管理注入了新血液。

以往,我們會通過日常觀察做出決策判斷的假設,再去驗證這個假設是否是正確的。比如人們從事的職業是否和逾期率有因果關係。這些假設往往是基於歷史的數據,推測未來可能發生的預期(就這個邏輯而言,深究其實也有問題,這裡不細說)。

大數據則提供了新的思維方式。我們理解世界不再建立在假設的基礎上,而是從海量數據的本身出發,看看數據本身能夠給出什麼樣的結論。這個結論可能是可笑的——也許經常買啤酒的人將更有可能逾期,也許做保姆的人一般都不會貸款。而我們是無法從正常邏輯推斷出這些因果關係的。我們只知道他們有關而已。但無疑這種分析方法範圍更廣,不容易受偏見的影響,而且往往能給人意向不到的準確率。

從重視「因果關係」「相關關係」的轉變,從關注「已知關聯」到「未知關聯」的轉變,是大數據風控和傳統風控最主要的區別。

大數據風控應用場景

如果足夠幸運,我們將會見證大數據從以下幾個方面對信貸風險管理的改變:

1、反欺詐領域

如果一個身份證號和一個名字還不足以讓我認識你,那麼你的設備號,IP地址,所在地,社交帳號和電商購買信息應該足以讓我了解你是不是真正的你想要借款,還是只是是你的身份證丟了被人盜用信息。

2、信貸准入審批及徵信評分

房子、車子、工作和工資能夠說明一個人的還款能力,但也趕走了很多資質差一些但也會準時還款的客戶。加入更多維度的自動信貸審批將會幫助挖掘這部分客戶的潛力。正如有句話所說,「All data is credit data"。Zest Finance就是此類公司的典型:十個模型,上千個變數,70000個信號源,250毫秒出結果。有機會再繼續寫寫這個很牛很酷的公司。

3、風險定價:

根據貸款申請人的互聯網數據進行評分,分數更高的申請人將能夠申請更低利率或更高金額。風險管理不是把可能逾期的人攔在門外,而是即使把可能逾期的人放進來,卻能獲得更高的盈利。

4、貸中及貸後的動態監測。

這是大數據風控相對於傳統風控的優勢之一。對於傳統風控模式下的貸中、貸後管理來說,對一筆貸款的追蹤和監測需要耗費很多人力,查看固定資產狀況,親自和貸款人定期溝通看是否有異常情況等等。但大數據的使用可以減少部分的成本,而且更有時效性。如比對貸款申請人的IP地址有無異常,通過互聯網交易數據監測貸款人的公司/店鋪是不是正常經營等,並且對不同類型的客戶使用不同的催收策略。

5、簡化貸款審批程序

只需填寫姓名、身份證號以及手機,就能夠在15分鐘內得到周轉現金——已經不止一家互聯網信貸公司能夠提供這樣的產品。申請材料的簡化並不意味著金融機構不再需要更多信息,而是這些信息不再從申請人本人處獲取。在數據維度和處理速度方面,大數據風控完勝人工審批。這不僅能夠減少貸款審批的人力投入,還與互聯網產品追求用戶體驗的價值觀不謀而合,做到「零感知審批」。

想像很豐滿,現實很骨感

既然關於大數據風控的研究如火如荼,是不是意味著互聯網信貸平台很快就會有大數據風控的能力了呢?未必。

一方面,數據質量參差不齊,準確性、時效性難以保證,是否能夠獲取足夠有效的樣本作為建立模型的基礎還很難說。

另一方面,數據分布在各家公司和渠道,互相之間因為競爭關係或保密原因無法共享數據,形成一個個數據孤島,很難發揮大數據的價值。至於如何對涉及個人隱私的數據的保護和使用,又是另外一個謎の問題。

最後的最後,大數據風控從無到有,還需要很長時間的積累和發展,雖然現在每個平台都聲稱自己有這方面能力,但實際上仔細看下來,誰也離不開人工的審批和調查。目前通過大數據分析得出來的結果,只能作為一個輔助判斷手段。

這也就是為什麼,在我查閱有關大數據風控的文章的時候,發現很多內容很虛,自顧自描述著未來美好的藍圖,卻沒有介紹具體的方法論。到後來卻也理解了,風控這東西就只能是這樣,像一個黑匣子,我只能告訴你我有一個很厲害的黑匣子,但具體匣子裡面有什麼,是不能說的——

"Big data is like teenage sex:everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it…」

關於大數據風控的機器學習和數據挖掘,誠招理工科學霸寫筆記~

2016.09.05更

大數據風控的超級無敵推薦閱讀:

互聯網金融時代下機器學習與大數據風控系統 | 36氪 互聯網金融時代下機器學習與大數據風控系統_36氪

深度長文,大數據風控那點事?(上) - 深度長文,大數據風控那點事?(上)

關於作者:

Sherrie雪小梨,互金行業風控一枚,坐標深圳。如需勾搭請私信:)

推薦閱讀:

ui設計師職業晉陞機制如何?
都說大多P2P會被限額新規淘汰,這家大標平台率先拿到了「船票」
巨頭入局、市場詭譎:激蕩的互聯網金融大變革
我國多地啟用新能源車專用號牌|平方財經

TAG:大数据 | 风险控制 | 互联网金融 |