信貸數據分析小嘗試(一)基於人人貸百萬數據
引子:我們經常看到很多「信貸乾貨」,比如:
已婚的人比未婚的人違約成本高;然後有孩子比沒孩子的違約成本高;家庭越和睦,違約成本越高;本地人一般比外地人違約成本高;有資產有住房的人,比沒住房沒資產的人違約成本高;社會聲譽及評價越高的人違約成本越高;父母和配偶的社會聲譽和評價越高的人,違約成本越高。經營期限越長,違約成本越高;變更經營場所越難的,違約成本越高;回頭客越重要,違約成本越高;盈利狀況越好,違約成本越高。
這些經驗談有沒有數據基礎呢?是否經得起驗證呢?信貸圈裡各種各樣的「審貸規則」「天條鐵律」,都是怎麼來的?做風控嘛,還是要用數據來說話。本文將通過人人貸2010年成立至今近七年累積的100萬條貸款數據來驗證。
一、數據說明
我們主要分析人人貸散標數據,總共成交55萬筆,但是申請總數超過了100萬筆,其餘流標。
除了流標,其餘的可以理解為申請貸款成功,這裡面又有多種形態:
一是正常結清:
二是尚在償還期,正常還款中:
三是逾期或者壞賬了
各類型佔比情況如下:
每一筆借款,都可以查看借款人的基本信息
年齡、學歷、婚姻、借貸歷史、收入、資產、負債、工作狀態
這些信息與貸款申請成功與否有什麼關係?與貸款是否壞賬有什麼關係?壞賬客戶又有哪些特徵?這是我們關注的問題。
二、數據獲取
採集技術參考本專欄前幾篇文章。例如:信貸風控基本功:自動查企業工商登記信息(企業信用信息公示系統、極驗Geetest與Python爬蟲)https://zhuanlan.zhihu.com/p/28693272
當然,這並不重要。
最終,數據量還是比較大的,從2010年10月13日,人人貸上線的第一筆借款申請:
到最近的一筆
總共數據量約104萬筆,但願能實現一些有意義的分析。
先挖個坑,下回待續...
感覺有用就給個贊鼓勵下吧
推薦閱讀:
※在銀行總行做it崗位,怎麼做職業規劃?同時想做金融互聯網,怎麼鍛煉成產品經理?
※鵬金所、陸金所、 融金所,傻傻分不清,他們的背景有啥區別?
※愛錢進正式加入中國互聯網金融協會 積極助力行業自律
※淺談大數據在金融業的應用
※基於用戶行為對金融業務的研究