邏輯回歸構建申請信用評級
作者:常國珍、呂紅福
概述:本文基於R語言,通過一個邏輯回歸構建汽車貸款申請信用評級的案例,來為大家簡單介紹信用風險模型及建模流程、R語言實現、及中間需要注意的一些問題。包含的主要內容有以下幾部分:
l 信用風險模型簡述
l 信用評分模型建模流程/框架
l 基於R語言的汽車貸款申請信用評級案例實現(代碼)
****~~~~~以下進入正文。
Part1:信用風險模型簡述
說到信用風險模型,常見的有下面三種:
n Application(申請評分)模型
? 通過客戶申請時的信息,預測客戶將來發生違約/逾期等的統計概率
? 多用於信用產品的申請審批、及初始額度的判定
n Behavior(行為評分)模型
? 通過現有客戶過往行為表現,預測客戶在接下來一段時間發生違約/逾期等的統計概率
? 多用於信用產品的額度調整等
n Collection(催收評分)模型
? 通過已經逾期客戶過往行為表現,預測已逾期客戶清償欠款/逾期惡化的統計概率
? 多用於進行選擇客戶催收
下面為大家介紹一個場景,想必大家非常熟悉:
圖1. 銀行信用卡申請表單
沒錯,這就是大家在申請銀行信用卡時,需要填寫的表單。這裡面,我們填寫的多數信息,會作為銀行申請評分模型的變數,從而決定銀行是否給我們發放信用卡以及信用卡的額度。大家可以體會信用風險模型在實際生活、工作中的應用場景。
本次汽車貸款申請信用評級案例,主要涉及Application(申請評分)模型,通過汽車貸款客戶申請時的信息預測其將來發生違約/逾期等的概率,從而決定是否發放其貸款。本案例中,我們構建申請信用評級模型的數據變數如下:
圖2. 汽車貸款申請信用評級案例變數
Part2:信用評分模型建模流程/框架
數據分析建模流程,是在實際工作中保證模型質量的重要手段,屬於工藝的範疇,沒有標準答案,只有業界領先經驗。還有很多需要結合業務建模的特點進行調整。
下面給出一個比較通用的建模流程:
該流程總體可以分為五部分:建模準備→變數初篩→變數清洗→變數細篩與變數水平壓縮→建模與實施,包含了從收集數據到模型建立及實施的全流程。下一部分我們通過汽車貸款申請信用評級案例,為大家介紹如何走通本流程,及如何利用R語言進行信用風險建模實戰。
Part3:基於R語言的汽車貸款申請信用評級案例實現(含代碼)
這一部分,我們把程序通過截圖的方式分享給大家,這裡面我們會給出代碼的詳細含義解釋(注釋內容),篇幅限制不再貼出程序具體的運行結果,感興趣的童鞋可以加群索要源代碼運行。
圖3.1 數據變數說明
圖3.2 讀入數據
圖3.3 利用隨機森林進行變數粗篩
圖3.4 數據清洗(去重、錯誤值、缺失值、異常值)
圖3.5 建立模型
圖3.6 模型檢驗及評估
這裡需要注意,我們省去了變數細篩的環節,是因為我們在模型粗篩環節只挑選出5個最重要的變數進行建模(簡化處理了);如若,在粗篩環節選擇保留較多的變數,我們在下面流程可以進行變數細篩,如一種方法是根據KS及IV值進行變數選擇。
本次我們先分享到這裡,希望對大家有幫助,也歡迎大家批評指正~~。
[參考資料:Creditnrisk scorecards-developing and implementing intelligentncredit scoring]
推薦閱讀:
※Learn R | SVM of Data Mining(五)
※快訊| RStudio Connect 發布
※深入分析PE可執行文件是如何進行加殼和數據混淆的
※踏潮 BI 學習大綱