邏輯回歸構建申請信用評級

作者:常國珍、呂紅福

概述:本文基於R語言,通過一個邏輯回歸構建汽車貸款申請信用評級的案例,來為大家簡單介紹信用風險模型及建模流程、R語言實現、及中間需要注意的一些問題。包含的主要內容有以下幾部分:

l 信用風險模型簡述

l 信用評分模型建模流程/框架

l 基於R語言的汽車貸款申請信用評級案例實現(代碼)

****~~~~~以下進入正文。

Part1:信用風險模型簡述

說到信用風險模型,常見的有下面三種:

n Application(申請評分)模型

? 通過客戶申請時的信息,預測客戶將來發生違約/逾期等的統計概率

? 多用於信用產品的申請審批、及初始額度的判定

n Behavior(行為評分)模型

? 通過現有客戶過往行為表現,預測客戶在接下來一段時間發生違約/逾期等的統計概率

? 多用於信用產品的額度調整等

n Collection(催收評分)模型

? 通過已經逾期客戶過往行為表現,預測已逾期客戶清償欠款/逾期惡化的統計概率

? 多用於進行選擇客戶催收

下面為大家介紹一個場景,想必大家非常熟悉:

圖1. 銀行信用卡申請表單

沒錯,這就是大家在申請銀行信用卡時,需要填寫的表單。這裡面,我們填寫的多數信息,會作為銀行申請評分模型的變數,從而決定銀行是否給我們發放信用卡以及信用卡的額度。大家可以體會信用風險模型在實際生活、工作中的應用場景。

本次汽車貸款申請信用評級案例,主要涉及Application(申請評分)模型,通過汽車貸款客戶申請時的信息預測其將來發生違約/逾期等的概率,從而決定是否發放其貸款。本案例中,我們構建申請信用評級模型的數據變數如下:

圖2. 汽車貸款申請信用評級案例變數

Part2:信用評分模型建模流程/框架

數據分析建模流程,是在實際工作中保證模型質量的重要手段,屬於工藝的範疇,沒有標準答案,只有業界領先經驗。還有很多需要結合業務建模的特點進行調整。

下面給出一個比較通用的建模流程:

該流程總體可以分為五部分:建模準備→變數初篩→變數清洗→變數細篩與變數水平壓縮→建模與實施,包含了從收集數據到模型建立及實施的全流程。下一部分我們通過汽車貸款申請信用評級案例,為大家介紹如何走通本流程,及如何利用R語言進行信用風險建模實戰。

Part3:基於R語言的汽車貸款申請信用評級案例實現(含代碼)

這一部分,我們把程序通過截圖的方式分享給大家,這裡面我們會給出代碼的詳細含義解釋(注釋內容),篇幅限制不再貼出程序具體的運行結果,感興趣的童鞋可以加群索要源代碼運行。

圖3.1 數據變數說明

圖3.2 讀入數據

圖3.3 利用隨機森林進行變數粗篩

圖3.4 數據清洗(去重、錯誤值、缺失值、異常值)

圖3.5 建立模型

圖3.6 模型檢驗及評估

這裡需要注意,我們省去了變數細篩的環節,是因為我們在模型粗篩環節只挑選出5個最重要的變數進行建模(簡化處理了);如若,在粗篩環節選擇保留較多的變數,我們在下面流程可以進行變數細篩,如一種方法是根據KS及IV值進行變數選擇。

本次我們先分享到這裡,希望對大家有幫助,也歡迎大家批評指正~~。

[參考資料:Creditnrisk scorecards-developing and implementing intelligentncredit scoring]


推薦閱讀:

Learn R | SVM of Data Mining(五)
快訊| RStudio Connect 發布
深入分析PE可執行文件是如何進行加殼和數據混淆的
踏潮 BI 學習大綱

TAG:数据挖掘 | 信用风险 | R编程语言 |