信用風險評分卡開發指引第二章----信息值&woe
04-19
2.1 信息值
信息值(Info Value)主要是衡量一個二元變數和分類變數的關聯性,在評分卡開發中可以用來作為衡量變數預測力或者對數據進行最優分箱(理論和方法在下一篇文章會介紹)的一個指標,具體計算方法如下,
假定我們有一個分類型或者分箱後的自變數x,共有三個分類ABC,以及0-1二元因變數y,二者可得頻數分布如下,第一列為X取值,二三列為y為0,1時x各個取值下的行數,P_0 為x某取值下y=0的比例,例如當x=A時,P_0=100/600,P_1x取值下y=1值比例。
而最後一列位P_0除以P_1的對數。
最後信息值的計算公式為:其中公式等號左側的IV就是信息值,為表i行上的P_0,為表i行上的P_0,信息值其實就是各個x對應好壞客戶比例對數的加權和,本例中的信息值為:0.5348
而具體信息值多高才能代表變數對二元目標變數的解釋性,具體參照下表(來源:馬杜·雷法特的《信用風險評分卡研究》)。回到案例數據集,腳本」WOE與信息值計算.py」里的函數woe_single_x計算各個字元&分段後的連續變數的信息值。調用方法如下:
從上表可以看出,除了EDUCATION的信息值尚可,其他兩個變數的信息值比較小。
2.2 WOE轉換 1.WOE定義與公式證據權重轉換(Weight of Evidence)是對於字元型變數的某個值或者是連續變數的某個分段下的好壞客戶的比例的對數,公式為:其中公式右側就是信息值一節中頻數分布表的最右一列,所以我們也可以把信息值理解為各個WOE值的加權和。其實,WOE就是衡量變數的某個分段或者某個值違約與正常比率的影響程度。
2.含義與作用 對變數進行WOE轉換可以將變數轉換為如下形式:https://www.reedsec.com/),進入新聞中心後即可查看代碼。
推薦閱讀:
TAG:反欺詐 | 風險管理 | 金融風險管理師FRM |