互金時代大數據在貸後管理中的應用
在互聯網金融時代,無論是傳統商業銀行還是新興的互聯網金融夠公司,面臨的風險和挑戰日益增加。在這種情況下,如何利用大數據技術及時有效地防堵各類信貸風險,也一直是各界關注的熱點問題。大數據技術可以讓貸後管理變得更簡單嗎?這篇來自「朝陽35處」的文章,將著重講解這方面的應用。
個人信貸不良資產管理壓力增大,貸後管理成管控重點後管理成管控
近年來,隨著我國個人信貸市場業務規模快速增長,個人不良貸款餘額和不良率不斷走高也成為困擾金融信貸機構的首要問題。以銀行個人信貸業務為例(如圖1所示),其2015年第二季度不良貸款餘額已達到1.18萬億元,不良貸款率也達到1.6%。
圖一
相比於銀行,互聯網金融平台不良資產的問題和難點則更加凸顯。陸金所董事長兼CEO 計葵生年初曾對媒體表示,網貸行業平均不良率高達13%-17%。相對於傳統金融機構,互聯網網貸行業平均不良率明顯更高。
面對這一嚴峻形勢,不良資產的管理能力逐漸成為金融信貸機構關注的重點領域。
不良資產管控的核心有兩大方面,一是控制不良資產新增,二是化解存量不良資產。控制不良資產新增的有效手段是在「貸前」階段建立完善風險管理措施,嚴格把控客戶准入門檻。
而化解存量不良資產的核心則是「貸後管理」。
所謂貸後管理,主要內容是對不良資產進行有效評估,並以此為基礎對客戶進行分群,輔以失聯修復手段,對不同客群採取差異化的催收策略。
貸後管理是不良資產管控的重點,而失聯修復則是化解存量不良資產的先決條件。
以貸後管理中的催收為例,現階段催收人員只能通過借貸人申請貸款時留下的三到五個關聯號碼和其進行聯繫。如果借貸人當時本就無心償還貸款,已有號碼有效率會非常低。就現在的國內個人信貸市場而言,新客戶中失聯比例達到30%~50%,而在進入不良階段後,客戶失聯比例高達70%。
這時,對大部分商業銀行和互聯網金融公司而言,只使用貸款人當時提供的聯繫方式使貸後催收變得困難,需要尋求外部數據的支持協助。只有在結合外部數據對失聯客戶進行信息修復,可以很大程度上幫助催收部門和客戶重新取得聯繫,從而化解存量不良資產。
然而,在初步修復客戶信息後,新的問題出現了。一種經常出現的情況是,與客戶有關聯的聯繫人過多,有些客戶的聯繫人可以多達幾十個甚至上百個。這又給催收人員帶來了另一種窘境,在面對過多的電話號碼,如果一個個撥打,不僅耗時耗力更不符合實際情況。即使手上掌握了欠款客戶充足的信息,但如果聯繫號碼數量巨大,則修復率並不能夠被保證。
大數據模型助力提升失聯修復率
大數據模型助力提升失聯修復率
下面我們來舉例說明,利用大數據篩選模型,如何解決客戶聯繫人號碼過多的問題。首先我們需要建立一個模型來對眾多號碼修復的成功率進行預測,從而通過篩選或排序,使催收人員可以從最可靠的號碼開始聯繫客戶。
我們可以先選取小規模的數據集進行研究。比如,我們抽樣選取了9000多個聯繫人的數據,每組數據包括聯繫人的電話號碼,對應的數據來源,電話更新時間以及是否有效修復失聯的標籤。其中,能夠修復失聯的定義為:電話號碼是有效可以撥通,且聯繫人表示認識並願意轉告客戶,積極提供客戶信息;而空號,不可撥通,聯繫人態度差,表示不認識,或者認識客戶但不願意聯繫客戶的電話號碼則為無效。
這9000個樣本聯繫人號碼在數億量級的全量資料庫中,與其他聯繫人號碼通過各種關係形成了一個個網路。如圖二所示,一個節點代表一個聯繫人的電話號碼,而兩點之間的邊則代表這兩個電話號碼之間存在某種關係。每個節點的自由度定義為與這個節點相連的邊的數目。通過分析網路中每個節點的自由度,我們可以進一步得知與每個號碼有聯繫的號碼個數。以節點1為例,該電話號碼與4個號碼有聯繫,它的自由度為4;節點2的自由度為3。節點的自由度越高,代表持有該號碼的人的社交圈子越大。
圖二
1使用單變數分析
首先我們用單變數分析的方法看一下節點自由度、更新時間以及不同數據源對失聯修復率的影響。圖三顯示了節點自由度與失聯修復率的關係。當節點自由度為1時,失聯修復率最低,只有14%。隨著節點自由度的增大,失聯修復率也隨之提高。當節點自由度為3時,失聯修復率達到極值24%。隨後,失聯修復率隨節點自由度的增大而降低。
圖三
圖四顯示了電話號碼更新時間與失聯修復率的關係。由圖可見,失聯修復所使用的信息幾乎99%都來源於最近四年的數據。其中,2014年更新的數據失聯修復率最高,達到18%,而2015年更新的數據失聯修復率最低,只有11%。
圖四
圖五顯示了不同數據源與失聯修復率的關係。我們整合了九個不同的內、外部數據源,所有的數據源均有用戶授權。為了保護商業機密,我們不對數據源進行公布。但可以看到的是,數據源2、3和4的失聯修復率最佳,均可達到20%,而數據源7表現最差,只有10%的失聯修復率。
圖五
2使用機器學習模型
上述的單變數分析只能統計單個變數對失聯修復率的影響,如果這些變數相互獨立,我們可以通過簡單的乘法公式計算出這些變數聯合起來對失聯修復率的影響。然而,這些變數顯然不是相互獨立的,而是彼此關聯的。例如,對於數據源1,當電話號碼的更新時間為2014年時,失聯修復率最高;而對於另外一個數據源,當電話號碼的更新時間為2016年時,失聯修復率最高。
為了分析這些相互關聯的變數聯合起來對失聯修復率的影響,我們採用Gradient Boosting非參數模型進行建模,來預測某個號碼失聯修復的概率。為了驗證模型效果,我們將數據集進行拆分,其中訓練集大小為6000,而測試集大小為3000。
在訓練集上訓練好模型之後,其在測試集上的表現如圖六所示。修復概率排名前10%的號碼的失聯修復率為28.1%,這相對於整個數據源15.3%的平均修復率,提升達到了83%!這種優化帶來的收益非常明顯,如果與某客戶相關聯的聯繫人號碼超過十個甚至上百個,通過上述方式的篩選則可以得到五到六個質量較高的聯繫人號碼,使得催收人員輕鬆有效地找到失聯客戶;如果一個失聯客戶聯繫人數目較少,催收人員也可以按照大數據模型給出的電話號碼靠譜程度排序,從高到低進行撥打,從而更快找到失聯客戶,顯著提升催收效率。
圖六
大數據對信貸風險管理的影響是巨大的,本文所述的也只是冰山一角。事實上,如果可以逐步建立以大數據分析逐步替代個人判斷的新型信貸風險管理架構,圍繞大數據分析對信貸風險管理架構進行重組與再造,勢必會能提高金融機構信貸風險管理的有效性,進而平抑信貸不良率波動。因此,如何運用好大數據的眾多「功夫」,推動金融信貸的良性發展,將會一直是今後熱門的話題。
推薦閱讀:
※車輛追蹤演算法大PK:SVM+HOGvs.YOLO
※ABC的關係(《Greenplum:從大數據戰略到實現》預覽)
※滴滴拼車路徑的優化
※大數據計數原理1+0=1這你都不會算(三)No.51
※天元數據網線上零售數據成為新消費時代零售業勝負手