信貸數據分析小嘗試(一)基於人人貸百萬數據

引子:我們經常看到很多「信貸乾貨」,比如:

已婚的人比未婚的人違約成本高;然後有孩子比沒孩子的違約成本高;家庭越和睦,違約成本越高;本地人一般比外地人違約成本高;有資產有住房的人,比沒住房沒資產的人違約成本高;社會聲譽及評價越高的人違約成本越高;父母和配偶的社會聲譽和評價越高的人,違約成本越高。經營期限越長,違約成本越高;變更經營場所越難的,違約成本越高;回頭客越重要,違約成本越高;盈利狀況越好,違約成本越高。

這些經驗談有沒有數據基礎呢?是否經得起驗證呢?信貸圈裡各種各樣的「審貸規則」「天條鐵律」,都是怎麼來的?做風控嘛,還是要用數據來說話。本文將通過人人貸2010年成立至今近七年累積的100萬條貸款數據來驗證。

一、數據說明

人人貸散標總數,截止2017年11月

我們主要分析人人貸散標數據,總共成交55萬筆,但是申請總數超過了100萬筆,其餘流標。

除了流標,其餘的可以理解為申請貸款成功,這裡面又有多種形態:

一是正常結清:

二是尚在償還期,正常還款中:

三是逾期或者壞賬了

各類型佔比情況如下:

每一筆借款,都可以查看借款人的基本信息

年齡、學歷、婚姻、借貸歷史、收入、資產、負債、工作狀態

這些信息與貸款申請成功與否有什麼關係?與貸款是否壞賬有什麼關係?壞賬客戶又有哪些特徵?這是我們關注的問題。

二、數據獲取

採集技術參考本專欄前幾篇文章。

例如:信貸風控基本功:自動查企業工商登記信息(企業信用信息公示系統、極驗Geetest與Python爬蟲)zhuanlan.zhihu.com/p/28

當然,這並不重要。

最終,數據量還是比較大的,從2010年10月13日,人人貸上線的第一筆借款申請:

到最近的一筆

總共數據量約104萬筆,但願能實現一些有意義的分析。

先挖個坑,下回待續...

感覺有用就給個贊鼓勵下吧


推薦閱讀:

在銀行總行做it崗位,怎麼做職業規劃?同時想做金融互聯網,怎麼鍛煉成產品經理?
鵬金所、陸金所、 融金所,傻傻分不清,他們的背景有啥區別?
愛錢進正式加入中國互聯網金融協會 積極助力行業自律
淺談大數據在金融業的應用
基於用戶行為對金融業務的研究

TAG:数据分析 | 互联网金融 | Python |