互金公司言必稱大數據風控，到底有幾分成色？

03-29

大數據風控是目前Fintech領域的主要應用，也是資本關注的焦點。很多互金公司都開發了大數據風控模型，業界也湧現了很多專門做大數據風控技術然後向業界輸出技術能力的技術型公司。然而，大數據風控有很強的技術壁壘，並非每家公司都能做好，不排除一些企業利用大數據風控的概念進行炒作。對於不懂技術的普通人而言，大數據風控的概念也是雲里霧裡。

那麼，到底大數據風控是怎樣的，價值在哪裡，又面臨哪些發展中的問題？

大數據風控已是互金公司的核心競爭力

大數據風控的價值已經不用再多介紹了。這已經成為互金公司的核心競爭力，也是互金區別於傳統金融的重要特徵。互金公司能夠為傳統金融機構所不能服務的人群提供普惠金融服務，基於大數據的風控手段功不可沒。通過全方位收集用戶的各項數據信息，並進行有效的建模、迭代，對用戶信用狀況進行評價，可以決定是否放貸以及放貸額度、貸款利率。

相比於傳統金融的風控模式，大數據風控可以通過機器的大規模數據運算，完成大量用戶的貸款申請審核工作，提升工作效率。傳統金融的審核由人工完成，效率會相對有限；大數據風控可以針對業務運行中出現的新情況、新數據進行快速迭代，增強模型的有效性；機器和軟體可以「24*365」模式工作，擺脫工作時間的限制。

互金公司發力大數據風控

目前很多互金公司都在做大數據風控，虎嗅之前的文章對BAT在消費金融業務進行盤點時總結了BAT在大數據風控方面的技術。京東也有相關的布局。

BATJ的大數據風控技術

除了BATJ這樣的大公司，近年來新興起的已經具備一定規模的互金公司也大力布局大數據風控，以網貸公司和貸款搜索平台為主，大多推出了相關的大數據風控技術體系。

國內部分網貸公司與金融搜索公司的大數據風控技術

除此之外，還湧現了不少做大數據風控技術的金融科技公司，開發大數據反欺詐模型和信用評估模型，向資金端或資產端有資源的金融企業輸出技術。這類企業也不斷獲得資本青睞。統計顯示，近四個月內，至少有8家做大數據風控技術輸出的公司獲得融資，其中九次方大數據、51信用卡、用錢寶都已融到B輪以上。

大數據風控技術領域投融資情況（按融資時間排序）

從以上幾個表格可以看出，從BAT這樣的大公司，到互金領域的創業公司，都在著力研發大數據風控技術。大數據風控的價值可見一斑。

大數據風控具體是怎樣的？

大數據風控模型的構建，包含了明確模型目標、定義目標變數、確定樣本、確定分析技術、構建模型、模型初步驗證、數據處理、模型迭代等環節。我們專訪了用錢寶CEO焦可等業內人士後發現，核心工作包括三方面，即獲取數據、建立模型、模型在實踐中優化、迭代。

數據的來源

對於大數據風控業務而言，數據來源主要包括幾部分：

一是用戶申請時提交的數據信息，如年齡、性別、籍貫、收入狀況等，這些數據可以了解用戶的基本情況，驗證用戶的身份；

二是用戶在使用過程中產生的行為數據，包括資料的更改、選填資料的順序、申請中使用的設備等，可以通過用戶的行為來進行特徵挖掘；

三是用戶在平台上累積的交易數據，如果公司運營比較久的話，可以累積比較多的用戶借款相關數據，這類數據對於判斷用戶信用會有很高的價值；

四是第三方數據，包括來自政府、公用事業、銀行等機構的數據，以及用戶在電商、社交網路、網路新聞等互聯網應用上留存的數據。這類數據可以從多角度展示用戶的特徵，利用這些數據進行建模分析，可以找出不同特徵與信用水平之間的相關性。

數據的建模

數據是基礎，下一步要做的是構建模型，對數據進行分析利用。數據本身沒有價值，數據中蘊含的信息有很大價值，這些信息可以逐步歸納為用戶的特徵向量，這些特徵可以分為強特徵和弱特徵，強特徵是大而廣之的特徵，如性別、年齡、籍貫、學歷、收入檔次等，弱特徵可以認為是比較細微、小眾的特徵，如喜歡晚上喝咖啡、經常在早上打電話、半夜發朋友圈等，不同的特徵與用戶的違約概率有或強或若的關係。

風控即風險控制，評估用戶可能的違約情況，主要包括反欺詐和信用評價兩部分。反欺詐是辨別那些一開始就想違約，進而弄虛作假的用戶，信用評價是對用戶的資信狀況進行評價，判斷其在借款到期後是否會因為無力還款而違約。這兩部分還可以繼續細分，如身份驗證、預付能力、還款意願評估、還款能力評估、穩定性評估等。

大數據風控模型構建的兩個必要步驟，一是發現不同特徵與違約之間是否有相關性，二是為不同的特徵賦予權重或違約概率，以確定擁有多項特徵的用戶的信用狀況，決定是否提供金融服務、具體的額度以及利率水平。

建模的技術主要包括logistic回歸、決策樹、普通線性回歸、分層分析、聚類分析、時間序列等機器學習演算法，隨著人工智慧技術的進步，神經網路、強化學習等前沿的演算法也已經運用到大數據建模過程中。

模型的應用與迭代

模型開發出來後，應用到具體的信貸等金融活動中，等若干個放款周期結束後，會有結果數據出來，這時候需要依據這些運營數據對模型進行修正，經過一次次的迭代，模型的有效性、實用性會逐步提升。

例如，一家企業完成了100萬單的信貸記錄，這就意味著在貸款陸續到期後，其大數據風控體系將收穫100萬的數據樣本，這些數據樣本與用戶信用高度相關，具有很高的價值，使用這些數據對風控模型進行進一步的優化，可以提升風控的有效性。由此可見，大數據風控需要與具體業務緊密結合，不斷「學習」，才能夠穩定、可持續的升級，對業務有進一步的指導意義。

總體來說，目前大數據風控還在發展初期，未來行業一個可能的演化路徑是：一些擁有數據資源和技術演算法優勢的企業在市場規模上具備了一定優勢後，擁有更多的數據資源來支持模型的優化迭代，強化其技術優勢，從而可以在控制風險的基礎上提高貸款申請的通過率，使自己技術支持下的交易規模越做越大。在不考慮黑天鵝事件的前提下，行業可能出現強者恆強的馬太效應。

如何判斷大數據風控的成色

幾乎所有的互金公司都在宣傳自己的大數據風控，這樣可以讓用戶更加放心，也給投資機構講一個技術含量高的故事，但並非每個公司都有相應的能力。就算確實在開發大數據技術，能力也有高下之分。如何判斷一家互金公司的大數據風控技術的成色？

首先看團隊實力，團隊是否有足夠的技術人員，是否有相應的開發經驗和履歷。技術團隊的規模與構成是衡量其大數據能力的重要指標，這一點比較直觀。

其次，看公司的業務特徵是否有使用數據技術的必要。用錢寶CEO焦可認為，企業如果服務於足夠海量的用戶群體，交易頻次也足夠高頻，則有通過大數據技術提升運營能力的需要，也會有越來越大的數據支撐模型的迭代。

如果一家企業只是服務於有限的客戶，使用傳統的線下風控模式就可以，沒有使用大數據技術的必要，而且過程中無法產生大量的數據，也就無法為模型提供數據支持，所以也就沒有使用大數據風控的可能性。例如，在P2P行業，如果借款人都是機構，且都是大額融資標的，則大數據風控沒有用武之地，也沒有使用的必要。

另外，還要看經營的時間長短。陸金所董事長計葵生曾表示，驗證一個大數據風控模型的有效性，至少需要5萬筆貸款進行驗證。如果業務經營沒有多長時間，不會累積足夠的歷史數據，也就無法對模型進行技術進行及時的迭代更新，其有效性也就面臨很大考驗。

大數據風控面臨哪些問題？

發展大數據風控無疑是行業必經趨勢，但其發展道路肯定也不是一帆風順，還是面臨很多障礙和困境。

首先是數據源的問題。數據量需要進一步擴大，為模型提供訓練數據方面的支撐。對於一些缺乏信用數據的群體而言，目前很多線下行為都還沒有數據化，線上數據也比較有限，對於這類群體，各種行為線上化、數據化進而將數據結構化，需要有一個過程。近些年來隨著智能手機與社交網路應用的普及，很多缺乏信用數據的群體在線上有了一些數據，但數據量還需要進一步增加。未來物聯網的發展可能帶來更豐富的數據信息，輔助進行風控決策。

其次是面對的欺詐行為層出不窮，不斷考驗模型的有效性。總會有想要騙貸的群體對反欺詐模型進行研究，尋找漏洞以騙取資金，各種偽造技術也助長其欺詐行為。一個模型出來以後，剛開始可能比較有效，但面對新出現的欺詐行為可能又缺乏辨別能力，導致模型精準度下降。這就需要大數據風控模型在試錯中不斷迭代，加入更多複雜特徵和更多維度的特徵。這對於大數據風控公司的技術能力是持續的考驗。

另外，大數據風控的發展要避免場景、行業、授信人群的集中化。企業做大數據風控，往往會選擇一個場景、垂直行業或細分人群進行切入，這樣可以將一個場景做深做透，深度分析、利用該領域的數據，但從金融的規律看，信貸過於集中於某個領域可能帶來風險。讀秒CEO周靜表示，在做資產的時候，包括人群區域性、資產類別儘可能得做分散。零售信貸行業很多風險事件是因為行業對某一個群體人的過度的授信，導致風險延伸到整個經濟。如果集中在某個場景或者某一類人群，風險可能越來越大，最終對行業市場有一個很大的衝擊。