風險控制-A卡模型的因變數如何定義-20180406
來自專欄風險控制+機器學習
關於這個問題,其實之前已經在專欄的文章裡面闡述過,但當時文章的重點不在此,所以講的不夠詳細,後來有些童鞋私下問過該問題,由於事情較多,不能詳細回復,所以在這裡貼篇文章簡單的談談這個問題。
如果你們也看過其他關於評分模型建立的文章,估計也發現它們幾乎對這個問題也是一筆帶過,其實這是有原因的,因為因變數的定義會與各家的業務方向息息相關,尤其目前線上現金分期、消費分期的盛行,導致各家業務模式不同,從而因變數定義的口徑就千差萬別了。
但是因變數的定義的確是一個很重要的命題,雖然各家定義的口徑不同,但是它也是會遵循一些客觀原則的。
1、roll rate
滾動率分析是定義壞樣本最重要的方法,那麼什麼是滾動率呢,我們先來看一個表格:
上面的表格就是一個滾動率(逾期人數,也可以用金額,但這裡用人數更合適)分析的表格,滾動的路徑(只標了兩條)已經在圖中標出,那麼上面的這些數字代表什麼意思呢。以201701的樣本來說,在2017年1月份(假設是月末)發生C-M1的樣本是5.26%,那麼說明在上個月(201612)發生借款的人中有5.26%的人發生了逾期,假設上個月借款的人是10000人,那麼說明在1月份有526個人發生了逾期,我們接著看2017年2月份的數據,在2月份發生M1-M2逾期的其實是1月份發生C-M1的樣本滾動到了下一期,所以:
也就意味著,在2017年1月逾期的526個樣本中,大部分都結清了,有20%左右的樣本滾動到了下一期。
2、壞樣本如何定義
上面的roll rate已經給了我們答案,我們可以看到從M2-M3滾動到M3-M4的樣本已經有80%了,如果你壞樣本定義較松,那麼就可以將那些走到M2的樣本定義為壞樣本,如果定義嚴格,則再取一期也是合理的,具體看風險容忍情況。
壞樣本定義好了,但這個問題還沒有結束,因為有些樣本3期可能就表現出來了,有些樣本可能在6期才完全表現出來,所以我們應該需要再定義一個觀察窗口。
3、賬齡分析
所謂的賬齡分析,其實就是觀察某一時期的借款樣本後續的風險表現情況:
上圖的縱坐標是逾期比例(假設入M2的樣本為逾期樣本),橫坐標是進入還款的月份數,可以看到在第8個月後,逾期比例基本穩定,所以可以將表現期定在8個月,當然如果審慎點可以遵循新巴塞爾協議的12個月。(其實很多人會談到一個觀察期和展現期的定義,我覺得A卡裡面可以不用這樣做,B卡可以這樣考慮)
4、好樣本如何定義
好樣本不像壞樣本那樣定義嚴格,相比來說更有彈性。如果定義較嚴,可以將在表現期中完全沒有逾期的樣本定義為好樣本,但相應的中間樣本會過多;也可以將非壞樣本定義為好樣本,這樣相當於沒有中間樣本;我們更多時候是折衷這兩種取法,既要保證中間樣本不能過多,又要有信心定義的好樣本後期逾期的概率較小,所以針對有過逾期但未達壞樣本定義的人,可以適當的延長表現期,觀察其後期進入壞樣本的比例,酌情選取適當的閾值。
推薦閱讀: