內部評級模型驗證方法全解析

編者按:此前小編立足於資本市場,介紹了國內信用評級機構牌照和執業情況(外部信用評級機構全覽)、市場上的內部信用評級系統(市場內部信用評級系統概覽)以及投資人付費模式的信評機構(投資人付費信評機構的「錢途」)。此系列立足於商業銀行,特邀某前股份制銀行風控部(新資本協議辦公室)負責內評實施的朋友介紹基於商業銀行實施內評的經驗,希望與該專家進一步溝通的,歡迎來詢。

內評模型驗證部分主要分為風險區分能力、模型校正、穩定性三個方面的驗證:

(1)風險區分能力是指模型能夠有效識別出違約和未違約客戶的能力。具有最大區分能力的模型可以精確地預測出所有後來違約的客戶。

(2)模型校正是指將模型評級結果映射到信用風險客戶評級主標尺,根據模型結果提出數據系統開發建設的業務需求的過程。

(3)穩定性是指模型能夠充分有效地刻畫風險因素和信用之間的因果關係的性質。穩定的模型能夠避免出現由於主觀判斷引起的兩者的錯誤關係,而不穩定的模型則會時常體現出很差的預測能力。

定量驗證針對不同方面可採用的方法論如下表所示:

01

風險區分能力的驗證

模型具備區分能力是指對於不同的風險變數,其識別正常客戶與違約客戶的能力存在顯著差距,這可以通過Chi方檢驗、t檢驗等進行分析。同時,在區分能力驗證方面,國際上一般會通過AUC係數、Gini係數、K-S指標、CIER、Somers』 D等一些刻畫風險區分能力的統計量來進行驗證。

出於風險區分能力驗證的目的,可能用到的SAS程序如下:

1、 AUC和ROC曲線(AUC0)

2、AR(AR00)

3、KS(KS00)

4、CIER(CIER)

下面就上述區分能力驗證指標進行具體說明。

(一)ROC曲線

ROC曲線是用來衡量信貸模型的風險區分能力的一種工具。在下圖中,AUC係數表示ROC曲線下方的面積。

模型是否強大表現在其區分好壞客戶並進行正確排序的能力。如果模型完全不具備區別好客戶和壞客戶的能力,那麼AUC係數為0.5;反之,在理想情況下,AUC係數為1;如果AUC係數小於0.5,那麼模型的風險區分能力較低,至少某些客戶的好壞排序發生了一些錯誤。AUC係數越高,模型的風險區分能力越強。

AUC係數和Gini係數有以下的關係:

Gini係數=2*AUC係數-1

繪製ROC曲線的步驟:

(1)製作模型預測的結果交叉分類表:

1、平均預測正確率=(DD/TD+NN/TN)/2

2、如果違約概率預測值大於分界點,則該戶為違約戶

3、 如果違約概率預測值小於分界點,則該戶為正常戶

給定一個截斷點,那麼:

—預測違約概率大於截斷點,視為違約戶

— 預測違約概率小於截斷點,視為正常戶

ROC曲線為不同截斷點下,Y1與X1之間的關係。

(2)繪製ROC曲線並計算指標值:

違約預測值由大排到小:

分別以0.95、0.9、…、0(切割的單位可以更細,如0.99、0.98、…、0)為截斷點,求出個別的 X1 與 Y1

以 X1 為橫軸,Y1 為縱軸,即可繪製ROC曲線

ROC曲線越往左上,即ROC曲線下的面積越大,表示該模型的正確性越好。ROC曲線下面積的大小可以作為模型預測正確性高低的評判標準。根據相關的研究,若曲線下的面積為0.5,則代表模型不具區別能力;若曲線下面積為0.7~0.8,代表模型的區別能力是可接受的;若曲線下面積為0.8~0.9,代表模型有很好的區別能力;若面積在0.9以上,則代表模型有相當優越的區別能力。

(二)能力曲線

CAP(Cumulative Accuracy Profile)能力曲線/Power Curve(準確率/AR)是目前常用的衡量信貸風險模型表現的驗證方法。模型是否強大表現在其區分好壞客戶,並進行正確排序的能力。CAP曲線描繪了每個可能的點上累計違約排除百分比。為了畫出CAP曲線,需要首先自高風險至低風險排列模型的分數,然後對於橫坐標客戶總數中特定的比例,CAP曲線的縱坐標描述風險評級分數小於或等於橫坐標x中的違約個數百分比。一個有效的模型應當在樣本客戶處於同一排除率的情況下,排除更高百分比的壞客戶。

下圖為CAP曲線示意圖:

CAP曲線描述了各個評分結果下,累積違約戶比率和累積正常戶的關係。在完美的模型下,CAP曲線會是一條斜率為(1/違約率)而且會停留在1的直線。反之,在完全沒有區別能力下,模型的CAP曲線會是一條45度的直線。而AR(準確率,Gini係數)的定義為模型的CAP曲線和45度線間的區域,與介於45度線和完美模型的區域的比率,如下所示:

這個值越接近1,表示模型的效果越好。

解釋CAP曲線的說法是:當逐步排除評級差的客戶的同時,違約客戶也應以相應的比例被排除。因而模型驗證員可以將CAP曲線上的一點(10%, 50%) 解釋為當10%的評級最差的客戶被排除的同時,有50%的違約客戶被排除。越有效的模型在一定的排除差客戶百分比下,排除的違約客戶百分比越高。因而,模型越有效,能力曲線越彎向左上角。

Gini係數也常用來選擇有預測能力的單變數。這個時候,模型驗證員可以把單個變數當作一個簡單的預測模型,看它的Gini係數高低來決定它是否具備一定的預測能力。

(三)KS檢驗

將KS檢驗應用於信用評級模型主要是為了驗證模型對違約對象的區分能力,通常是在模型預測全體樣本的信用評分後,將全體樣本按違約與非違約分為兩部分,然後用KS統計量來檢驗這兩組樣本信用評分的分布是否有顯著差異。

KS檢驗也常用來選擇有預測能力的單變數。就是通過某個單變數把樣本分成兩組,看這兩組的樣本有關KS指標的大小來決定此變數的預測能力。

模型應該要能區別出違約戶和正常戶之間的差異,違約戶的評級分配應當不同於正常戶的評級分配。運用KS檢驗來驗證模型能否區別出違約戶與正常戶,當兩組樣本的累積相對次數分配非常接近,且差異為隨機時,則兩組樣本的評級分配應為一致;反之當兩組樣本的評級分配並不一致時,樣本累積相對次數分配的差異會很顯,如下圖所示:

KS的檢驗步驟為:

1、計算正常戶和違約戶在各評分階段下的累積比率

2、 計算各階段累積比率之差

3、 找出最大的累積比率之差,即為KS

另外,下表為KS值對應違約區別能力:

(四)CIER

CIER(Conditional Information Entropy Ratio)這個指標衡量的是引入信用模型所反映的企業違約狀況的不確定性的變化量,與沒有信用模型時企業違約狀況的不確定性的比較,其公式為

這裡如果用P表示評級對象實際的違約概率,則記:

通過評級之後,如果用表示信用模型中A反映的各個級別的違約概率,表示相應級別的權重,則記:

為不考慮信用模型時企業實際違約狀況所導致的不確定性,即信息熵;為使用信用模型A反映出的企業違約狀況所導致的不確定性。由此可見,CIER反映的是模型減小不確定性的能力,而這個能力與模型的效果直接相關,所以這個指標越大說明模型越好。特別的,當CIER=0,即時,說明相對於我們已經知道的信息,模型A沒有提供更多關於企業違約的不確定性的信息,那麼這個模型就沒有起到任何預測作用;當CIER=1,即時,說明模型A預測企業違約時沒有任何不確定性,那麼這個模型就具有完美的預測能力。實際應用中,CIER的值是介於0和1之間的。

對於CIER指數來說,沒有統計方法來衡量取值標準,最好的方法是根據實踐經驗由專家設定判斷標準,例如滿足要求的模型CIER需要達到0.5等。

(五)Somers』 D

Somers』 D是SAS中Logistic過程輸出的一個序次相關指標,在介紹這個指標之前,需要說明和諧對和不和諧對的定義。

在因變數取值只有0和1的時候(例如記錄客戶違約狀態的變數),對於兩個不同因變數組成的觀測數據對,當因變數為1的預測事件概率大於因變數為0的預測事件概率時,則稱該數據對為和諧的;反之,當因變數為0的預測事件概率大於因變數為1的預測事件概率時,則稱該數據對為不和諧的。如果一個觀測數據對即不是和諧的也不是不和諧的,就稱為結。有了上述定義,就可以給出Somers』 D的公式:

這裡t為不同因變數組成的觀測數據對的總數,nc是和諧對的數量,nd是不和諧對的數量。實際應用中,Somers』 D的取值範圍是介於-1和1之間的。

相對來說,如果一個模型在這個指標上取得較高數值,就意味著有較強的預測能力。反之,當這個指標值較低時,就說明模型的預測能力較差。

對於Somers』 D指數來說,沒有統計方法來衡量取值標準,最好的方法是根據實踐經驗由專家設定判斷標準,例如滿足要求的模型Somers』D需要達到0.6等。

02

模型校正的驗證

集中趨勢

以下是針對樣本集中趨勢驗證的幾個要點:

首先,由於集中趨勢是每年違約率的長期平均值,所以需要制定用於模型改進或重新校正中集中趨勢計算的時間區間。

其次,需要評估使用的校正類型,主要有以下三類校正:

· 整體循環(Through The Cycle,TTC)是指實際違約率等於在平均經濟環境里的集中趨勢,但隨著經濟的轉好或下滑,實際違約率將有比較大的差別。

· 特定期間(PointIn Time,PIT)是指實際違約率接近於經濟周期每個環節中樣本的平均預測違約率。

· 混合是指整體循環和特定期間兩種類型相結合的一種校正。這類新校正中,預測的平均違約率是根據經濟循環進行變動的,但變動增長幅度小於在特定期間類型的變動。

下圖顯示了三種校正的區別:

特定期間校正通常對現有實際違約率進行常規的重新校正。相反的,整體循環校正只對長期平均違約率起到重大改變的近幾年實際違約率進行重新校正。

混合校正通常使用集中趨勢與最近一年的實際違約率相結合的線性組合。因此,該驗證需要加權的長期平均違約率與最新的違約率相比較來決定重新校正的需求。

對集中趨勢的評級模型校正不僅需要考慮到長期行為的違約率,也需要考慮到開發樣本在經濟循環中的位置。如果開發樣本是從非常短的時間間隔抽取的,那麼需要特別注意這個問題。

對於集中趨勢驗證,樣本的年度平均實際違約率是必需的。違約率是獨立於模型中的,並根據總體樣本和時間段的定義來決定的。採用重疊年度時間段的方法可以得到較好的計算結果,每個時間段需要好客戶數的平均數和實際的違約數。總時間的範圍越長越好,但不能超出7年,以避免以往年度違約率造成過大的影響。

集中趨勢驗證可定義如下:

這裡 代表年度時間段的總數(重疊或不重疊), 代表在時間段中好客戶和壞客戶(違約客戶)數的平均數。

PD校正

模型校正驗證的第二項任務是檢查違約概率在不同評級段中的估測質量。可以採用多種方法完成這一任務,如使用統計檢驗來檢驗零假設(H0),是與備擇假設(H1)相對立的。基於統計檢驗及一定的置信水平,零假設或者被拒絕,或者被接受,但這一決定可能導致不同種類的錯誤。

第一類錯誤(錯誤a在零假設被錯誤地拒絕時發生,也就是說假設本身成立,但檢驗拒絕了該假設。這一錯誤發生的概率是由置信水平來控制的,對於給定的置信水平,第一類錯誤發生的概率是。

第二類錯誤(錯誤β在零假設被錯誤地接受時發生,也就是說備擇假設是正確的,但是檢驗通過了零假設。這類錯誤的概率取決於備擇假設下檢驗的分布,因此在很多情況下很難計算。

· 卡方檢驗

卡方檢驗可以一次同時對多個級別進行檢驗,但樣本需要滿足獨立性(違約事件在風險級別之內和風險級別之間相互獨立)以及呈正態分布的假設。它是對如下零假設進行測試:

H0:所有風險級別中的 PD估計是正確的

相應的備擇假設是:

H1:風險級別中的PD估計至少有一個是不正確的

對卡方檢驗的驗證抽樣需要包含有代表性的好客戶和壞客戶樣本。好客戶和壞客戶的比率需要與樣本中好客戶和壞客戶的比率相同。對各數據需要設定違約標誌和評級級別。若用P0....Pk表示在風險等級0,1,....K中預測的客戶違約率,這裡風險等級K+1的總數為,則卡方統計量定義如下:

這裡Ni代表風險等級i中債務人的數量,

代表在評級級別i中違約債務人的數量。

根據中心極限定理,對所有的i,當時

時,若Pi所有是真實的違約概率,則的分布會收斂於一個自由度為K+1的卡方分布。

為了使測驗結果的正確,數據要遵從以下規則:

對所有的風險等級成立

對最少80%的風險等級成立

同時,若要上面的收斂成立,還需要一個假設條件:所有的違約事件不管在同一個級別內還是在不同級別內都相互獨立。

· 二項檢驗

在模型對於每個評級等級進行PD估計之後,二項檢驗是對估計結果正確性檢驗的必須步驟,它所基於的假設是評級等級中的各個違約事件之間是獨立的。

對於每個評級等級,需要所有客戶的違約情況和PD估計值。

Ho:評級等級的PD是正確的

H1:評級等級的PD是錯誤的

下面是針對PD校正結果二項檢驗的關鍵性步驟說明:

(1)確認每個信用等級的評級客戶數Nk,違約概率PDk及實際違約的評級客戶數Dk:

假設有K個信用等級,每個等級的違約概率為PDk,在不同的信用等級中,各有Nk個評級客戶數,該等級中實際違約的評級客戶數為Dk。

(2)求出臨界值

(3)判斷每個等級的實際違約評級客戶數與臨界值之間的關係

在樣本數很大時,因為次方數太高,所以二項分布下的臨界值很難計算。而由於二項分布在樣本數很大時會趨於正態分布,一般而言,如果

,則可以用正態分布代替二項分布,所以也可以在正態分布的假設下決定臨界值。檢驗的步驟如下:

(1)確認每個信用等級的評級客戶數Nk,違約概率PDk及實際違約的評級客戶數Dk

假設有K個信用等級,每個等級的違約概率為PDk,在不同的信用等級中,各有Nk個評級客戶數,該等級中實際違約的評級客戶數為Dk。

(2)在每個等級中找出二項分布趨於正態分布時的平均數

與標準差

(3)決定顯著水平

後,找出標準正態分布在該顯著水平下的值

(4)求出臨界值

標準正態分布下:

移項處理後:

(5)判斷每個等級的實際違約評級客戶數與臨界值之間的關係

可靠性圖表

模型校正的質量能夠通過可靠性圖表來體現。下圖中的兩條曲線分別代表實際違約率和預測違約率,並在各個評級等級中相互對應。理想的校正曲線結果,應當在違約主標尺和實際違約率構成的二維圖中呈現對角線形態。一般來說,校正曲線離對角線越近,評級系統的校正結果越好。

在上圖中好客戶的違約率顯示被低估,而評級較低的客戶的違約率則與預測的違約率很接近。

赫芬達爾指數

赫芬達爾指數計量了樣本在不同評級中的集中度。

驗證樣本應當在驗證期間具備對總體樣本的代表性。同時,每一個客戶都需要評級的信息。

赫芬達爾指數定義為:

對於赫芬達爾指數來說,沒有統計方法來計算置信區間,最好的方法是根據實踐經驗由專家設定取值的標準,例如可以接受的H值最大為20%等等。

03

模型穩定性驗證

區分能力

區分能力的計算可以以不同的時間段作為基礎。如果評級模型是在12個月的時間跨度下建立的,隨著時間段長度的增加,模型的區分能力將會有所下降。

在達到一定的限度後,區分能力將隨時間段長度的增大而逐漸減弱而非驟降。高質量的評級模型應當能在3年或更長的時間段上體現出良好的區分能力。

條件變化

評估模型使用中基本情況是否發生變化需要考慮很多定性因素,主要是經濟、政治和法律的發展變化對評級模型及其各個組成部分的影響。其他一些變動因素還可能包括經營戰略的變化、經營範圍向其他市場領域的擴張以及組織結構的變化等。

經濟的變化一方面體現在由於經濟周期引起的違約率在經濟繁榮期和衰退期之間的波動。另一方面,技術進步等其他因素也會引起客戶的細分。特別是,對於主權和國家的評級與政治環境關係密切,高質量的評級模型應當體現這方面的因素。

法律環境變化的例子包括貿易仲裁的變化和會計準則的變化等等,這方面問題對於大型企業尤為突出,因為越來越多的企業正面臨從本地會計準則向國際財務報告準則轉換的情況。此外,破產法和破產程序的變化也是法律環境變化的一個例子。

評估這些變化對於模型量化的影響需要全面分析模型的各項參數,因此應當在評級模型改進階段進行。如果隨著環境變化,模型的表現越來越差,模型驗證員通常需要改進評級模型。

· 總體穩定性分析

此項分析是通過將各個評級等級得分的分布與模型開發樣本相對比,分析樣本分布是否發生了重大變化,並判定是否需要因此而依據樣本的新風險特徵開發新的模型。

為了完成相應的特徵分析 ,模型驗證員需要選取一個驗證期的總體的代表樣本和一個基期樣本。

PSL(總體穩定性指數)的計算公式如下:

對於PSL來說,沒有統計方法來計算取值標準,最好的方法是根據實踐經驗由專家設定取值的標準,例如可以接受的PSL值最大為25%等等。

· 特徵分析

特徵分析建立在總體穩定性分析的基礎上,試圖揭示目前的總體樣本與過去的總體樣本相比發生了哪些變化。只有在發現總體發生變化的時候才會進行特徵分析。

分析應說明模型的哪些特徵(characteristics)導致了評級分布的轉移,並量化轉移的程度。 分析過程中應當針對每個模型特徵比較客戶特性發生變動的百分比和沒有發生變動的百分比。

對於選擇出來的特徵,分析應當說明其當期的數量、當期的百分比、相關的打分值以及驗證期總體和上一期總體得分之間的差異,該特徵下的得分差異代表了該特徵對於得分分布的影響程度。

為了完成特徵分析 ,模型驗證員需要選取一個驗證期代表樣本和一個基期樣本。

對於TSD來說,沒有統計方法來計算取值標準,最好的方法是根據實踐經驗由專家設定取值的標準,例如可以接受的TSD值最大為25%等等。另外,在值過大時,與業務人員討論也有助於發現某些特徵發生變化的原因。

參數相關性

在開發評級模型時通常會通過檢驗,從大量潛在的風險因素中選取很小的一部分來開發模型。模型驗證員應當確保所選的風險因素間幾乎不存在相關性,否則將不利於增強模型的區分能力。

模型驗證的過程中也應當考慮這些風險因素間的相關性是否發生了變化,以確保它們之間沒有形成強相關性。

但是,對於變數的相關性處理也有特殊情況:假定在單變數分析時找到了一個區分能力很強的變數,它在模型里所佔的比重很大。這種情況會導致模型高度依賴於此變數相關的信息的可獲得性。假如可以預期這個風險變數並不總是可知的,為了避免由於信息缺失導致模型質量的嚴重下降,模型驗證員可以選擇在模型中增加一個與此變數高度相關的變數,並將原變數的權重在兩個變數中分配。這個例子說明模型驗證員在對相關性分析做出判斷之前,應該閱讀模型開發文檔以了解模型開發時風險變數選擇的根據。

驗證樣本應具有足夠的數量和代表性,以滿足對模型所有風險變數相關性矩陣進行計算的需要。用k代表模型中風險變數的數量,用n代表樣本的容量,那麼相關性矩陣的計算如下:

時間序列

如果評級模型使用已經有足夠長的時間,模型驗證員可以從模型質量的時間序列來分析行為模型。這一分析可以為評級系統質量的評價提供有價值的信息。因此,盡量多地收集評級系統的信息對於長期評價模型表現至關重要。

在進行時間序列分析的時候,需要基於模型連續幾年的表現判斷模型的效果,例如連續三年表現值降低,則需要改進模型等等。

· 風險區分能力

對於模型的風險區分能力,需要使用相應指標(例如Gini、AUC、KS等等)比較模型在長期的表現,通過這種定量的指標很容易發現模型表現的降低。

· 模型校正

在模型校正的時間序列分析中,只需要進行集中趨勢驗證,因為卡方檢驗和二項檢驗的結果在長期無法比較。

· 模型穩定性

在模型穩定性的時間序列分析中,可以進行總體穩定性分析。

轉移分析

評級模型在長期的表現可以通過評級客戶轉移到不同評級等級的情況進行分析,這種轉移情況可以通過基於代表樣本或總體樣本建立轉移矩陣來反映。在不同的時間段建立轉移矩陣,然後比較不同時間點的轉移矩陣,即轉移矩陣的時間序列分析。

假設:最穩定的模型,在其它條件不變下,同一評級客戶前後期的評級等級應當維持不變。

穩定性分析的步驟:

· 建立轉移矩陣

例如,若第一年在等級5的評級客戶有10個,經過一年之後,這10個評級客戶有2個變成等級4,有3個變成等級6,5個維持原等級5,則針對等級5的轉移矩陣為:

· 觀察轉移矩陣

轉移概率是否隨著等級變動的幅度加大而遞減。

等級大幅度的變動是否屬於合理範圍。

· 建立三年(以上)的轉移矩陣,實際轉移矩陣中:

評級客戶評級變動是否有回復的情況(如評等在第二年調高,而第三年再回調;或評等在第二年調低,而第三年再回調)。回復的比率越高,則代表模型的穩定性越高。為衡量評級變動的程度,可計算轉移矩陣的SVD值(Singular ValueDecomposition,奇異值分解方法),作為評估評級穩定性的量化指標。SVD值的計算方式說明如下:

· 轉移矩陣同構型分析(SVD)

因為只用一個轉移矩陣無法給出評級模型效果的很多信息,所以需要比較在不同時間段的轉移矩陣以衡量模型效果。將轉移矩陣情況與宏觀經濟情況比較可以發現模型表現的問題,例如在經濟增長時期卻發現評級結果有向更差等級轉移的趨勢,說明模型本身可能存在問題。


推薦閱讀:

TAG:評級 | 信用評級 |