標籤:

一個互聯網金融反欺詐評分模型

從前些年爆炒大數據,到目前提到大數據許多業內的朋友都會報以不屑的表情,這源於數據,特別是原來的數理統計被過分的渲染,金融行業的發展,本質也是信息技術的發展,我始終相信科技進步的力量,也相信科技是可以不斷改進金融的。

目前比較火的互金領域,簡單的說,我認為互聯網金融的本質在於互聯網+投資理財,特別是P2P、眾籌網站的資產端,究其實質仍然是小額信貸,傳統的信貸風險管理一定程度上是適用於互金的。

最近幾十年隨著計算機技術的發展,也隨著數據挖掘和機器學習的不斷的發展,新的反欺詐和信用評分技術一直在不斷進步,本文我會簡單介紹一下目前投入生產環境的技術和手段,也算是對近期的工作學習做一個簡單的總結。

事實上小額信貸風險管理,本質上是事前對風險的主動把控,儘可能預測和防範可能出現的風險。為了滿足業務的需求,我們會使用大量數據,建立相應模型,衡量風險並儘可能避免逾期,一般通過對授信人個人狀況、收入能力、負債情況進行數據挖掘,進行模型化綜合度量,進而確定授信對象的額度,並確定一個合理的風險定價,使風險和盈利達到一個平衡的狀態。

很明顯,一般互金公司做的信貸業務(一般p2p公司都無法獲得類似銀行的優質債權)隨著信貸業務不斷發展,高端客戶無法獲取,必然面臨授信群體向著普通人群甚至是高風險人群的滲透,必然導致客戶質量的參差不齊。信用風險、欺詐風險等都隨之迅速上升

如果依託傳統的信貸技術,事實上只能對存量市場做精耕,但是如果能結合一些新的數據源(特別是一個人的網上記錄包括社交、交易行為、消費習慣等),一來可以有效的降低風險,其次對新客的拓客有著意想不到的效果(啤酒和尿布)。所以數據挖掘在當前數據大爆炸的時代就具有舉足輕重的作用,也成了業內競爭的強力武器,降低壞賬逾期的重要手段。

說起來很簡單,但任何的技術進步,無一不是通過一次次的試錯完成的。一般而言,不管是任何一種欺詐,歸根到底,都是通過欺詐性地申請實現的。反欺詐策略實質就是探討挖掘和模型技術來預測欺詐的概率。為企業發現和拒絕欺詐性交易提供科學依據。

一個優秀的評分模型一定是基於統計分析技術的,可以準確和實時的進行風險評估,通過內部的模型更新增強對新的詐模式的適應能力,並通過分析各類人群的行為特徵模式,利用先進的數理統計技術,進行深度的數據挖掘,不斷修正風險決策模型,對審批、還款管理、催款等各個流程進行科學有效的管理,將風險控制在合理範圍內。

據我所知,目前銀行業對於信貸風險的常見評級方法之一是通過打分法來進行的。即基於業內長期經驗,從眾多風險的指標中選擇若干指標,並對各個指標給予適當的權重水平,設定各個指標具體數值。進而將授信對象的具體數據代入評級體系中,分析各個指標的打分情況。

事實上,指標體系的設計本身是一個十分複雜的系統。在打分時,對於設定各指標權重大小以及每一項指標的分數並沒有十分標準的依據,依靠經驗確定指標的權重,參雜人為的經驗,主觀因素較突出,這種主觀意見確定權重形成的評級辦法在科學性與客觀性方面都存在問題,影響了評級結果的準確性,在主觀因素的引導下,加重了風險,也會造成不必要的損失。

這裡要介紹另一種基於機器學習和演算法的反欺詐評分模型,既神經網路模型。基於神經網路的評分模型在當前的數據挖掘過程中具有特殊的地位,它能夠使模型在不斷的學習中逐步成長。本文會大致介紹將神經網路的數據挖掘方法應用於小額信貸數據的過程,探索適用於互金的信用風險評判的模型。

神經網路是一種通過模仿人腦信息,類似於大腦神經突觸聯接的結構加工過程的智能化信息處理技術及進行信息處理的數學模型,與博弈論中的動態博弈很相似,具有自適應性、自組織性以及較強勁的穩健性,在應用過程中具有很強的魯棒性和容錯性,能夠並行處理方法,具有自學習性。擁有自組織、自適應性和很強的信息綜合能力等良好性能,能同時處理定量和定性的信息,能很好的協調多種輸入信息關係,適用於處理複雜非線性和不確定對象,能成功的應用於多種不同的信息處理。

這裡引用一張信用評分模型中的圖說明

一個神經元可以有任意n個輸入

我們將輸入參數記作:x1, x2, x3, x4, x5, ..., xn

同樣n個權重可表達為:w1, w2, w3, w4, w5 ..., wn

簡單的說,激勵值就是所有輸入與它們對應權重的之乘積之總和

因此,現在就可以寫為: y = w1x1 + w2x2 + w3x3 + w4x4 + w5x5 +...+ wnxn。

神經網路經過一系列的輸入及加權計算,得到輸出數據,即欺詐風險評分。

網路可以在真實的數據集環境中學習,通過不斷地學習過程提高效率,互動式的調整其連接權重,每增加一次學習過程,網路對真實數據集的環境就更加了解一些,學習是一個過程,在此過程中,神經網路的參數會隨著所處環境的變化自動進行調整。

當所有用於估計模型的訓練集樣本誤差達到最小時,模型就建立了,即擬合成了神經網路模型,隱含的神經網路模型決定屬性的分類規則。根據需求把新的屬性轉換為相應的數據代入模型,便可以得到所屬的分類以及相應的概率。

最初神經網路具有結構較複雜、訓練時間長、可解釋性比較差等缺陷,所以在數據挖掘的分類技術應用中不是很被看好,但神經網路技術具有低錯誤率,能夠承受雜訊數據的能力,以及經過不斷優化神經網路訓練演算法,尤其是不斷完善很多網路剪枝演算法和規則提取演算法,使得神經網路演算法在數據挖掘分類技術中的應用越來越被接受及認可。

當然,神經網路的信用評級模型是對現存的評級方法的一種改良,而非現存評級方法的完全替代,一個完備的評級體系既要避免主觀的陷阱,也要避免統計的陷阱,因而神經網路模型本身是希望通過定量分析,為認為審核判斷提供一定依據,而不僅僅依靠個人經驗。

事實上我認為,由於神經網路的黑盒性質,從一定程度上犧牲了模型的可解釋性,比之邏輯回歸、決策樹,解釋性顯得並不是特別的強等一些缺陷。


推薦閱讀:

從E租寶,到錢寶網,兩個500億,互聯網金融該怎麼管?
玖富融資、眾安上市,這屆「開掛」的金融科技公司
必讀 | 我們離機器人理財還有多遠?
唯快不破:微粒貸用「執行力」踐行普惠金融的初心

TAG:互聯網金融 |