邏輯回歸構建申請信用評級

01-27

作者：常國珍、呂紅福

概述：本文基於R語言，通過一個邏輯回歸構建汽車貸款申請信用評級的案例，來為大家簡單介紹信用風險模型及建模流程、R語言實現、及中間需要注意的一些問題。包含的主要內容有以下幾部分：

l 信用風險模型簡述

l 信用評分模型建模流程/框架

l 基於R語言的汽車貸款申請信用評級案例實現（代碼）

****~~~~~以下進入正文。

Part1：信用風險模型簡述

說到信用風險模型，常見的有下面三種：

n Application（申請評分）模型

? 通過客戶申請時的信息，預測客戶將來發生違約/逾期等的統計概率

? 多用於信用產品的申請審批、及初始額度的判定

n Behavior（行為評分）模型

? 通過現有客戶過往行為表現，預測客戶在接下來一段時間發生違約/逾期等的統計概率

? 多用於信用產品的額度調整等

n Collection（催收評分）模型

? 通過已經逾期客戶過往行為表現，預測已逾期客戶清償欠款/逾期惡化的統計概率

? 多用於進行選擇客戶催收

下面為大家介紹一個場景，想必大家非常熟悉：

圖1. 銀行信用卡申請表單

沒錯，這就是大家在申請銀行信用卡時，需要填寫的表單。這裡面，我們填寫的多數信息，會作為銀行申請評分模型的變數，從而決定銀行是否給我們發放信用卡以及信用卡的額度。大家可以體會信用風險模型在實際生活、工作中的應用場景。

本次汽車貸款申請信用評級案例，主要涉及Application（申請評分）模型，通過汽車貸款客戶申請時的信息預測其將來發生違約/逾期等的概率，從而決定是否發放其貸款。本案例中，我們構建申請信用評級模型的數據變數如下：

圖2. 汽車貸款申請信用評級案例變數

Part2：信用評分模型建模流程/框架

數據分析建模流程，是在實際工作中保證模型質量的重要手段，屬於工藝的範疇，沒有標準答案，只有業界領先經驗。還有很多需要結合業務建模的特點進行調整。

下面給出一個比較通用的建模流程：

該流程總體可以分為五部分：建模準備→變數初篩→變數清洗→變數細篩與變數水平壓縮→建模與實施，包含了從收集數據到模型建立及實施的全流程。下一部分我們通過汽車貸款申請信用評級案例，為大家介紹如何走通本流程，及如何利用R語言進行信用風險建模實戰。

Part3：基於R語言的汽車貸款申請信用評級案例實現（含代碼）

這一部分，我們把程序通過截圖的方式分享給大家，這裡面我們會給出代碼的詳細含義解釋（注釋內容），篇幅限制不再貼出程序具體的運行結果，感興趣的童鞋可以加群索要源代碼運行。

圖3.1 數據變數說明

圖3.2 讀入數據

圖3.3 利用隨機森林進行變數粗篩

圖3.4 數據清洗（去重、錯誤值、缺失值、異常值）

圖3.5 建立模型

圖3.6 模型檢驗及評估

這裡需要注意，我們省去了變數細篩的環節，是因為我們在模型粗篩環節只挑選出5個最重要的變數進行建模（簡化處理了）；如若，在粗篩環節選擇保留較多的變數，我們在下面流程可以進行變數細篩，如一種方法是根據KS及IV值進行變數選擇。

本次我們先分享到這裡，希望對大家有幫助，也歡迎大家批評指正~~。

[參考資料：Creditnrisk scorecards-developing and implementing intelligentncredit scoring]