從風險管理說到數據分析

本文是開專欄後的第一篇文章,主要講筆者從一個風險管理從業者走上數據分析這條路的一些歷程以及這個過程中的一些思考,最終將介紹下這個專欄的初步寫作計劃。

今年是進入這個行當的第七個年頭,在前四個年頭裡,我從貸前的盡職調查做到貸後的應收賬款管理。印象中的入門是從信用風險管理理論里的5C(Character、Capacity、Capital、Collateral、Condition),5P(Personal、Purpose、Payment、Protection、Perspective)開始的。面對形形色色的借款人,在盡調報告里總試圖將每一筆貸款納入這些5C、5P框架進行分析。

做得久了慢慢意識到,我們所面對的風險遠不是幾個框架可以界定的,而每一個風險因素之間也不是相互孤立的:在說到客戶資產及擔保的時候,產權的界定、資產的價值、抵押的效力、折現的難易以及執行的成本等不斷地納入認知範圍;說到貸款的用途時,開始去探究實際的借款人、追蹤相關的合同、核算項目的投入、辨識借款人的假戲真言;關心還款來源的時候,發現一張張報表背後有太多財務知識和業務常識需要去掌握;誰又沒見過幾個假流水,誰又沒摸過幾個假房本。

從經濟到財務,從政策到法律,每一個風險從業人員每天都在處理這些信息。印象中我司的法人盡調報告是24頁紙的模板,當然對於我們來說洋洋洒洒幾萬字算得了什麼。最後絞盡腦汁的卻是最後那幾百個字,雖然我們早就想好了格式,風險點在腦袋裡倒騰來倒騰去也不超過那20項;但是我們仍然會陷於一些糾結中,我們試圖給每一條一個權重在腦海里擬合,然後精準地表達我們專業的意見。

後來我管理著幾個億的應收賬款,對著台賬時不時能像放電影一樣去回放以前調查過得哪些貸款,我總是能浮現出那些在我面前晃蕩而過的客戶:有的人虛情假意地笑,有的人敬小慎微地看著合同,有的人滔滔不絕地在飯桌上講,有的人換著法子套近乎,我給這些人像寫傳記一樣地留下了24頁紙,我曾反覆掂量著一個人的好與壞,回過神來卻只剩眼前確實台賬上那些冰冷的數字。

也是因為這一張張excel表裡的數字,開始讓我思考一個問題:有沒有一種方法能讓我在寫最後那幾百個字的時候不那麼猶豫;或者說我那天心情不好的時候,寫完前面22頁紙後,有人已經自動幫我把最後一頁自動寫好了。

工欲善其事,必先利其器。在朋友的推薦下,一個計算機沒過二級,統計學、概率論與數理統計早已還給老師的商科生走上了數據分析這條搬磚路。都說人生苦短,我用Python,所以我將分析語言選定在了Python。當然在目前的工作中,是Python+MySQL+Excel的組合。

鑒於自己的學習過程,在這個專欄里,我計劃先從分析工具的使用、數據的預處理、基於業務邏輯的數據分析以及風險建模這些步驟一步步寫過去。也就是說,下一篇將主要將Python在數據分析中的使用走馬觀花式的跑一遍,為了貼合風控業務,我選擇將Lending Club的公開數據作為分析對象。

推薦閱讀:

矩陣的奇異值與特徵值有什麼相似之處與區別之處?
R語言可視化包之ggplot2
【收藏】數據分析必備神器

TAG:信用风险 | 数据分析 |