從0到1建立風控的回歸模型

01-30

在當今互聯網經濟及金融領域，「模型」是一個傳播極為廣泛的辭彙，各種酷炫的模型應用也十分廣泛。而在金融領域，特別是傳統金融領域，模型的可解釋性成為其應用中很重要的一個考慮因素，所以一些可解釋性高的成熟模型方法稱為了應用中的主力軍。因此筆者這裡就不費力陽春白雪，來試試下里巴人的路數，聊聊最為廣泛應用的模型方法之一的邏輯回歸模型的建模流程。

首先來談談「模型」，這個數據風控入門辭彙。模型的建立是對於某個實際問題或客觀事物、規律進行抽象後的一種形式化表達方式。

一、回歸模型一場盛大的變數選秀

在數據分析領域，我所理解的模型是一個有多個輸入，有涉及所有輸入的加工計算過程，最後有輸出的一個功能性模塊。因此單一指標的判斷規則不算模型，多個單一指標的判斷規則組合（串聯、並聯、交叉……）後大概就能進入模型範疇了。然而為了保持「模型」一詞的逼格，不讓她成為落入凡間的仙子，我還是固執地把有一定方法理論基礎，具備特有名詞加持的模型稱為「模型」。

例如本文重點討論的回歸模型，考慮到篇幅，重點討論邏輯回歸模型（Logistic Regression Model）。對於「回歸」一詞感到莫名的讀者，歡迎搜索「高爾頓與回歸分析的起源」，你會發現一個有趣的故事。回歸模型的現代含義是：確定因變數與自變數間的關聯性，即變數間相關關係的數學表達式(通常稱為經驗公式)。

為了讓建模過程更具象，現在開始想像一下你要包裝出一個偶像團體，這個團體實力超群，能夠獲得觀眾的喜愛。團體就是最終的模型，而團體中的成員就是自變數（Independent Variable，後面簡稱變數）。那麼首先我們需要確定這個團體最終需要達到什麼目的，也就是我們的因變數（Dependent Variable，後面簡稱預測值）。好，假設我們的團體目的是能否在未來3年內俘獲14~18歲少女們的心（是或否）。針對邏輯回歸而言，我們預測的因變數就是一個取值為0或1的變數。

接下來我們要做的是找尋足夠的候選隊員，候選的隊員越多，我們可選擇的餘地也越大，很多時候變數池的大小已經決定了我們最後模型的效果。所以開始準備盡量多的變數，就像選秀節目初期那樣，搜羅來自五湖四海選手。另外，我們的需求是在未來3年內俘獲14~16歲少女的心，那麼顏值高、能夠善舞、演技精湛等都稱為我們需要覆蓋的能力。因此除了關注量的多少，我們同時需要關注候選變數儘可能覆蓋更多的維度，如果你的候選隊員們都只是會唱歌，那麼誰來跳舞呢？

當變數們已經就位，我們可以拉開變數選秀的序幕了。

1、海選

第一步，海選。從眾多的變數中先剔除那些五音不全、肢體不協調的。比如缺失率過高，數值中存在大量無效值的變數。海選中，總有些讓你取捨兩難的候選人，那麼嘗試一些方法來看看他們日後是否真的對團體有幫助：

1.信息缺失本身也意味著某種信息，把是否缺失該信息作為一個新的變數留下來；

2.字元型的變數不能用於回歸模型，嘗試把他們變成數值型變數，比如對於城市，把他轉化成是否上海、是否北京、是否廣州等數個變數；

3.時間型變數，把他們轉化為距離某個時間點的月份數、年份數等等，具體如圖：

2、精選

第二步，精選。精選過程和選秀節目一樣，通過300進100，100進30等階段的選擇來一步步篩選變數。只是在這個篩選過程中，需要有一些客觀衡量，如何區分候選成員是否能為最終的團體帶來充分的價值，這時候就需要用一些指標來衡量。在變數選擇中，我們可以採用單變數的IV值，KS值來區分一個變數是否能夠有效地區分因變數（0/1）。在IV值的取捨上，一般我們會保留0.2以上的變數，而實際保留的閾值則取決於變數的多寡，如果你只有一堆IV值為0.1的變數，那麼還是謹慎些保留更多的候選成員吧，或者你可以從變數準備開始從新做起，嘗試搜羅一些更有用的候選成員。

3、群組PK

第三步，群組PK。這一過程有時候是和第二步交叉著進行，很難嚴格地界定他們的流程次序，在這裡暫且放在第三步。經歷了精選，你的候選成員開始鎖定在較小的一個範圍內，此時，你需要留心觀察一下他們所覆蓋的維度，或許有十幾個同樣擅長舞蹈的候選人，或許有十幾個同樣精通於吉他的候選人，又或許有十幾個同樣喜歡唱抒情歌曲的。你並不希望在一個團體里，某一個維度被太多人佔據，它也許會導致你的團體在某一方面過分突出，而在綜合能力上則不盡人意。於是你可以在單個維度下對候選變數做一些篩選，從中挑出相對出眾的。這樣的做法目的在於消除變數間的共線性問題，這對於模型最終的表現有著非常重要的意義。而對於分組的做法，你可以是根據業務理解的，也可以藉助一些群組演算法（Cluster）來將所有變數歸入不同的維度組別。

4、聯排

第四步，聯排。之前的步驟中主要還在針對個別候選成員進行考察，接下來，我們要對最後形成的團體進行考察。當然在此過程中，你仍然可以對單個變數做進一步的篩選。此時也許顏值也會成為重要的考慮因素，我們用Bi-var（單個變數和預測值之間的關係）來評價一個變數的顏值。提問，下面兩個變數哪個變數顏值更高：

答案：【A】？

我很欣賞你的獨特審美，但是很遺憾不符合一個數據分析師的審美，正確答案是【B】。

一個變數和它的預測值之間具有更強的單調線性關係才是我們追求的美。當然，更需要關注的是團隊成員之間的配合，於是我們讓變數們開始組合成模型，並對它們最終對因變數的預測能力做評價。首先哪些變數可以組成一個團體，我們通過假設檢驗來完成，所有能夠通過假設檢驗的變數便被安排在一起成為一個模型。當你無法確定你的團體中最終有多少個人或者最終效果有多好時，你只能通過盡量多試來得到相對可靠的組合方式。

二、衡量模型效果的重要指標

在這個相對枯燥又繁瑣的嘗試不同的組合過程中，我們可以藉助幾個重要指標來幫助我們衡量最終模型的效果：

1. 進入模型中的變數個體的VIF值，這個值反映了變數之間存在多重共線性的程度有多嚴重，當過於嚴重時（例.VIF>1.5）時，你的團體中有幾個人的角色過於雷同，嘗試替換掉其中的某些團員；

2. 變數和變數間的共線性（collinearity，簡稱collin），除了關注整體共線性，你還需要關注變數和變數的兩兩相關性，這個指標在某種程度上也在幫助你篩選變數，降低VIF，例如在兩個collin在0.4以上的變數中，你只需要選擇其中一個更優的變數。兩個擅長抒情歌的團員中，選那個唱的更撕心裂肺的；

3. C統計值，這個值衡量的是整個模型的效果，C值越高，則模型效果越好；

4. K-S值，K-S可以理解為模型對於好用戶和壞用戶（0和1）區分能力大小的判斷指標，K-S值越高越好；

5. Top Capture Rate, 這個指標中，主要衡量的是在前10%或者前20%的人群中能夠俘獲的壞人的比例（1的比例）有多大，越大越好；

6. 排序（Ranking），在一個表現良好的模型中，按照單調排列的模型分組別中的壞人比例（1的比例）也應該是單調分布的，單調性越好則模型效果也越好。

最後還要提到一個衡量模型可靠性和穩定性的重要方面：不同人群的驗證。

這也就是我們熟悉的訓練樣本、驗證樣本和已經Out-of-time樣本。這3個樣本可以這樣理解，你所建立的團體需要有一些評委來投票確認，那些參與投票的評委就是你的訓練樣本，而當這個團體確立後你要找一些觀眾來測試他們真的如評委們想的那樣受到認可，這些找來的觀眾就是你的驗證樣本。為了確保你的觀眾們不是只是受時下流行的趨勢或者輿論的蠱惑，而表達出太離譜的喜好，你還想在半年後找一群差不多的人群再來複查一下你所組的團體是可以經得住時間考驗的，這就是你的out-of-time樣本。當這些都驗證完畢，你終於有信心確定自己組了一個優質偶像實力團體，該把他們推向市場啦~~~祝賀你，你的模型完成了。但別高興得太早，團體再紅也有過氣的那一天，模型再好也有失效的那一天。做好監控，當它表現不再良好時，你就該進行新一輪的選拔。

摘自公眾號：眾安數盟