如何運用大數據進行信貸審批？

01-01

目前中國的個人信用體系尚未建立，導致了信用數據來源十分複雜，尤其是對於沒有以往信用記錄可以參考的新用戶，大數據風控是如何進行審批的？用戶需要提交哪些信息？老用戶又是如何操作的？有哪些流程可以簡化？
本題已收錄知乎圓桌 ?金融科技浪潮，更多「金融科技」話題討論歡迎關注

在我看來，fintech公司利用大數據進行信貸決策，核心是從風險管理者和商業邏輯的角度去審視和理解數據。

————————————————————————————

7年前，我進入美國第一資本銀行創新實驗室（Capital One Labs），擔任商業分析高級經理。自此我的所有工作都是在和數據打交道，大數據分析、數字化銀行產品研發、大數據風控決策。

大數據這個詞在最近幾年被炒的很熱，大家想到大數據時第一個想到的是數據的體量的幾何倍數增長，這個是讓人興奮的。但是我們關注的並不只是數據規模本身，數據需要被提煉成我們稱為「洞見(insight)」才會有價值，就像海量信息本身是沒有價值的，要從信息中得到有用的觀點才是真正的競爭優勢和壁壘。

日常工作中，我們會應用機器學習的演算法去做模型、做預測，但是之前我們會花更多時間清洗、整理和挖掘我們所擁有的數據，在此基礎上，能夠做好大數據風控的核心是從風險管理者和商業邏輯的角度去審視和理解數據。

數據的準備

近年可以看到的一個趨勢是可利用的數據維度的多元化。拿信貸領域來說，過去大家關注的數據都是強金融屬性的東西，比如收入證明、銀行流水記錄等，根據這些數據去評判一個人的負債比或者貸款償還能力。但是現在，在用戶授權的前提下我們能更多的看到一些弱金融屬性的東西，比如用戶在社交網路上的數據、手機網購行為數據、出行數據等等，這些數據對於傳統的信貸決策是新的東西，過去沒有用過，但卻能很好地反應一個人的信用水平。所以我們花很多時間去研究這些數據和用戶風險之間的聯繫，通俗的說就是判斷用戶是否會按時還款。

讀秒有一個我們稱為「金大中」（金融大數據中心）的數據工程師團隊，他們的工作就是解決底層數據的倉儲，接入，清洗，計算，並且保證這些工作的成功響應率維持在毫秒級。他們做的很多工作可能不是性感的，大家每天都在說的人工智慧演算法，但是他們的存在是讀秒業務能夠保持持續增長的保證，我認為也是讓我們這些數據和風控分析人員搭建「上層建築」的堅實基礎。

這個過程和一個電影很相似。有一部紀錄片叫做《壽司之神》，講的是日本一家米其林三星的壽司店和一個做了60年壽司的主廚的故事，讓我印象很深的地方是他們之所以會做出壽司基本上90%的時間在食材的準備上，真正製作壽司的過程其實和之前的準備工作相比其實只是冰山一角。其實大數據風控也是一樣的，如果對數據沒有真正的理解，沒有足夠的耐心，做出來的模型也不會好到哪裡去，只能是garbage in, garbage out。

快數據(fast data)

另外，我想強調的是，數據在實際應用中很多講究的。與其講是大數據(big data)不如講是快數據(fast data)。

做大數據決策一般都需要大量數據源。在用戶發起申請時，我們需要實時的完成數十家外部數據源數據的獲取，判定數據的準確性，對數據進行清洗，交叉驗證，加工出上千個模型變數，這些加工好的數據同時放到我們的決策引擎里去進行決策。

舉個簡單例子

來解釋如何交叉驗證數據，

用戶填寫的「收入水平」為變數 A，「工作地點」為變數 B，申請時 IP 地址的「所處區域」為變數 C。

從 A+B 的維度來看，倘若用戶填寫的 A 月收入有數萬元，B 卻顯示在某個偏遠山區的修車廠工作，我們或許應該懷疑用戶隱瞞收入。

若從 B+C 的維度來看，倘若 B 變數顯示用戶工作地點在北京，C 卻顯示申請時 IP 地址在雲南，或者頻繁更換 IP 地址去申請，我們或許應該考慮金融欺詐的風險。

若結合 A+B+C 的維度來看，若 B 變數顯示客戶在北京國貿工作，A 變數顯示月入 10000 元，IP 地址、申請地點都在北京，通過三個變數數據的交叉驗證，可以初步推斷申請人是常住北京的中等收入白領。

整個大數據風控的流程很長，需要調用40多個數據源的數據，經過「金大中」的數據湖，再經由中間層篩選欄位，進行機器學習、特徵提取，再通過五大模型進行評分，最終輸出結果（如圖）。我們最終實現了十秒鐘之內完成授信。在保證速度的基礎上，搭建這樣的實時穩定準確的決策系統，這是我在Capital One時都難以想像的速度。

從商業邏輯看風控

風控是重要的，但這樣孤立的看待風險在商業上無法自立。智能信貸全流程不僅僅是風控一個方面。智能信貸必須從各個方面都進行精細化的、從商業邏輯上實現可行，才有可能在商業上取勝。

比如「定價」環節。

不同信用水平的用戶需要差異化的定價。粗略而言，借貸人群可以用「風險水平」和「借貸需求」劃分為四個象限。（如上圖）顯然「低風險高需求」的用戶是最佳客戶，但若在收益能夠覆蓋損失的情況下，「較高風險高需求」和「低風險低需求」申請者也可以帶來很好的收入。讀秒通過不斷測試找到最佳的用戶分層方式，從科學的角度找到損失和收益的平衡點，幫助金融機構進行差異化定價，由模型篩選出的客戶才能夠帶來更大的商機。

風控要做到嚴絲無縫並不難，但用風控做商業，必然需要商業上的可持續。

這些過程在有些人想像中是十分高大上，尤其是在阿法狗之後，很多人認為只要有一個所謂人工智慧的「最強大腦」，把所有的數據都扔進去，機器就會告訴你一切。這是不可能的。即便是阿法狗，背後也有數十名工程師實時調試程序。

大數據風控也需要實時調試，不斷更新和打磨。數據永遠是海量的，而海量信息本身是沒有價值的，解讀數據的能力才是其價值所在。

金融的核心是風控，風控的核心是數據+模型。沒有數據，再牛逼的模型也沒用。只有數據，沒有牛逼的模型，那也就是一潭死水，只能冷冰冰的躺在伺服器里，毫無價值。所謂模型從廣義上說就是利用牛X技術把數據價值最大化（順便說一下，現在的風控真心不是做幾個策略就能搞定了）

言歸正傳，回答樓主的問題，以下為我個人見解：

大數據時代沒有新用戶：

大數據時代，我們打電話、上網，刷卡消費、穿戴設備、智能家居等等行為都會留痕，我們所有的行為都會以數據形式留存下來。隨著大數據的發展，國家也越來越重視信息安全，且已經出台了相應的隱私數據保護法規。規定擁有公民隱私數據的企事業單位有責任保護用戶的隱私數據不會被泄露。

數據就是資產：

金融數據在銀行、互金，搜索數據在百度，電商數據在京東，社交數據在騰訊。現在各個行業都發現了大數據的重要性，都想獲得更多的數據，同時開始對數據進行計價、賦值、交易，把自己的數據價值最大化。跟隨市場的急切需求，於是乎產生了幾種產業鏈。譬如，銷售平台模式，數據平台以中間代理人形式提供給買賣雙方一個撮合服務。如貴陽大數據交易所。另一種，以數據堂為例，該公司為主要數據提供方，自營為主。

無論任何形式的數據交易，目前數據涉獵範圍還是有限。於是乎，我們期望有一個平台，可以打通數據壁壘，提供一個規範的數據共享和交易渠道。這個平台能解決數據標準化、數據整合、數據價值評估，數據歸屬等問題,還能保證數據的安全、保護隱私，保證合法、保證透明和公正。

數據開放和數據共享勢在必行，而數據安全、隱私保護是發展數據開放的前提條件。

數據+技術驅動業務：

首先舉一個例子，CapitalOne :美國第一資本金融銀行，是全美最大的銀行之一，業務範圍涉及信用卡、汽車貸款、家庭貸款、儲蓄、個人信貸、保險等。該公司演繹了如何從一家默默無名的小公司躍升為美國著名金融集團，而用信息技術驅動業務發展是該公司的制勝法寶。

CapitalOne之所以成功，主要取決其強大的模型分析能力和精益化運營方案。

通過數據分析找到最優質的客戶：

最優質用戶不是信用最好的用戶，而是價值貢獻最高的用戶。CapitalOne通過數據分析，發現用戶主要分為三類， 1 白領，有高額收入，有很強的還款能力，每個月能按時還款 2低風險群體，將欠款展期但能夠歸還 3過度借貸、違約率高的垃圾用戶。通過分析，發現20%的低風險群體創造了80%的利潤，於是他們把目標就定在低風險群體。

對用戶進行分組管理，差異定價：

CapitalOne將個人信息、收入狀況，用卡習慣、產品偏好等多維度對用戶進行分組，同時對不同用戶的風險特徵標註出來。然後對競爭對手優質客戶推出的產品年化利率最低達9.8%。事實證明，這招很快吸引了大量低風險客戶。CapitalOne提出精益化運營方案，將」合適的產品在合適的時間以合適的價格投向合適的客戶」。

我司則依靠強大的信息技術+精細的量化分析+精益的運營方案。拿我們的消費貸產品舉例：

我們依託電商生態體系數據和外部數據，基於機器學習手段和業務經驗，建設特徵庫，形成數萬維的特徵池。同時我們有上千維的用戶畫像，譬如通過用戶的金融資產、實物資產分析他的還款能力，通過用戶的購買行為和瀏覽行為等，洞察客戶需求，發掘客戶價值。在線上，我們把信用模型，還款能力模型、套現風險模型，盜號風險模型全部集成，當用戶申請貸款時，快速得到一個信用評分，準確的對其貸款期限、授信金額、以及風險做出決策並發放。另外，基於我們龐大的用戶畫像，前期根據客戶的特徵，推理需求，給合適的人權推薦不同的貸款產品，採取不同的觸達方式，降低邊際成本。

在過去，銀行要給一個客戶貸款，首先要求客戶提供他的資產證明、半年甚至一年的銀行流水來證明他的還款能力，通過資產抵押、質押等形式來提供貸款。大數據時代，我們可以從多維的角度評估你的償還能力、信用狀況、還款能力，最終的流程就是你只要證明你是你就夠了，這個時代已經萌芽。

首先，我答題的信貸審批範圍是僅限於個人貸款（包括消費與經營）與100萬-500萬以下的對公企業的經營貸款以及信用卡。

大數據的本質是全量加工行為數據進而形成自動化應用，而做模型時加工歷史申請行為催收信息形成評分卡，如果有條件可以引入外部數據，評分卡和行內行外規則相結合的二維矩陣形成審批貸後催收的一系列策略共同構造了自動化審批的流程。

項目類型 vs 評分模型類型

現目前我們在國內的項目類型一共是以下：1，做信貸工廠，利用歷史申請行為催收數據通過構建模型的方式創建自動審批流程。2，做內評項目，建模分池最終符合巴塞爾協議中信用風險的監督管理也就是我們說的合規。（不得不說現在金融行業競爭非常大，所以說能夠在競爭下收益越大，風險越小客戶數越多的情況是最好的。而內評則是在合規的基礎上控制風險。）3，申請欺詐和交易欺詐項目，利用模糊匹配和神經網路的模型以及結合相關規則最終形成反欺詐策略。（這個目前在美國已經很成熟但是中國做的銀行還很少，但是也有部分銀行已經參與了項目）

目前全生命周期的評分模型類型是以下：

我們先宏觀地了解一下模型所處的階段和控制的風險類型。我們一般所說的銀行風險主要包括三大塊：信用風險，操作風險以及市場風險。那麼針對不同的風險，在信貸不同的生命周期有我們會開發不同種類的模型。對於信用風險，在申請審批階段會有申請評分模型，在貸後管理階段有行為評分模型，在催收階段會有早期催收和晚期催收評分模型，這幾個模型也是我們俗稱的ABC卡。那麼對於操作風險，有我們的申請欺詐模型以及交易欺詐模型。那除了這幾個模型，其餘的模型都是用來控制我們市場風險的模型，像響應模型，盈利收益平衡模型，交叉銷售客戶流失模型，回收模型。這13個模型都是我們常用的針對不同風險不同階段開發的模型。首先像申請行為模型，主要是用我們的邏輯回歸演算法開發的，申請欺詐是用的神經網路開發的，交易欺詐是用模糊匹配演算法開發的，那其餘的模型的基本上是使用的決策樹來開發的模型。

那不同的模型首先他使用的信息是不一樣的，申請評分模型使用的是申請信息，客戶信息，徵信信息；行為評分模型使用的除了客戶信息，徵信信息，還需要客戶還款信息我們需要看他每個月的還款記錄；催收評分模型使用的除了客戶信息，賬戶還款信息，還需要他的歷史催收表現信息比如失聯次數食言次數。

純數據驅動評分模型流程

回到題目我在這裡只講一下用大數據進行信貸審批也就是數據驅動的申請卡的整個流程，分享一下我們在做項目時，怎麼樣一步一步將大數據，也就是我們的貸款以及信用卡的申請歷史數據通過數據分析以及模型開發建設最終形成自動化審批流程。

一般前兩塊數據清洗會耗時大概3個月。

第一步是會按照需求給銀行一個數據需求模板，裡面涵蓋了我們所有需要的信息以及數據時間以及頻率，其次是根據行內的數據的真實情況給出一個差距分析。裡面會羅列我們需要的重要的信息有哪些沒有，如果可以補錄數據之後就可以開始給補錄的模板。

第二步是開展數據抽取和數據分析的工作。1，初始數據分析包括對每張表的一個概況羅列，主鍵唯一性，時間段檢查，缺失值檢查以及統計量檢查。2，接著把所有申請數據關聯成一張寬表作為後面建模的x變數。3，然後挖掘分析是根據不同產品，不同業務需求開展的。比如貸款每年申請量與合同金額的趨勢分布，每種貸款產品的貸款期限，還款方式，擔保方式分布；再比如信用卡不同產品的激活率，不同額度區間的貢獻度，不同產品的分期業務的數量分布等等。為的是了解行內數據與業務的一致性。4，產品交疊主要是看一種產品在其他金融資產裡面是否有可用信息，之後也可以作為交叉銷售的數據依據。5，匯總月度數據，這一個第一是為了行為模型而準備的，第二申請模型的Y變數有時候也需要從這裡面加工得來。需要客戶的每個月自發放貸款以來的還款計劃表和還款記錄表做一個每一個月一條這樣的數據集市，用於計算逾期以及後面的逾期滾動率（所有賬戶逾期狀態從上一個月滾動到下一個月的逾期狀態的變化情況，用於定義好壞）分析的依據。6，逾期滾動率，逾期賬齡分析（用於在觀察期抓壞）。7，將X變數與Y變數關聯成最終的一張款表。

（X變數來自於客戶信息，申請信息，以及徵信信息；Y變數是二值型變數1,0將好賦給1，壞賦給0）

一般後面6塊模型設計和模型開發會耗時大概4個月。

第三步，到了模型設計，1，由於模型是用歷史數據預測未來，所以觀察期是模擬歷史數據，表現期模擬未來數據。而整體來書觀察期和表現期都是截止到今天的歷史數據。觀察期：指觀察、提煉模型樣本信息的時期。表現期：對觀察期賬戶/客戶進行監控的時間周期。這些賬戶根據截止到表現點的表現被分類成「好」、「壞」、「不確定」。一般來說，觀察期決定總體樣本量的大小，表現期決定「壞」樣本量的大小。表現期選取過長，會導致歷史數據的代表性減弱，選取過短不足以保證樣本群體分類的穩定性，使賬戶/客戶的逾期信息充分表現出來。表現期申請的客戶數據用於做數據跨時間驗證，驗證用觀察期得來的數據開發的模型的穩定性。2，定義好壞，根據申請/客戶在表現期內的還款行為，將其表現分為：好賬戶：希望再次擁有的客戶；壞賬戶：如果提前知道其未來表現，希望拒絕的客戶；不確定賬戶：介於好壞賬戶之間。賬戶表現的定義，要綜合考慮客戶對風險的容忍程度並結合滾動率分析的結果及賬戶數量來確定。3，規則排除。常見的賬戶/客戶排除原因如下：賬戶/客戶不列入模型應用範圍；無足夠的表現信息；表現信息異常。4， 模型細分。適度細分可以增加模型整體預測力，細分分析的關鍵是決定：細分多少個模型比較合適；應該選擇哪種細分方案；如何保證多個細分模型校準結果一致。

第四步，建模數據準備。 1，根據好壞定義，在數據中定義好壞標識變數；根據排除規則，在數據中定義排除標變數。2，根據觀察期和表現期定義從寬表數據中摘出建模數據；規則：申請時間落在觀察期內且有表現標識。3，PSI驗證數據，用來驗證模型變數及整體模型的穩定性。該數據為觀察期以後的申請數據，且在當前模型表現點尚無表現。4，主要針對建模數據。在整體建模數據樣本量比較大的情況下，為提高效率，往往會抽取全量的壞賬戶和一定比例的好賬戶和不確定賬戶；為驗證模型的穩定性，在上述抽樣後的數據基礎上，將其按照7/3或6/4拆分為開發樣本和驗證樣本，抽樣後需進行權重計算。

第五步-第八步，都是在EM中進行的建模了。

第五步，變數分組。什麼是變數分組呢，就是對同一變數下的不同值進行分組。那麼為什麼要對變數分組呢？大家可以試想一下，其實像年齡這樣的變數，21歲和22歲或者19歲其實它們對模型的貢獻度是基本上一樣的，試想一下21歲的人群和20歲的人群對於最後我客戶最終貸款會不會逾期，逾期多嚴重不會有太大的區別。所以變數分組是為了使得模型有區分度。那怎樣對變數進行分組呢，變數分為分類型變數和數值型變數。一般來說少於5-8個的分類變數每類自成一組，而數值型的從小到大看它每組壞客戶與好客戶的比例以及WOE值（風險高低）之間要有差異以及IV值（變數的預測能力大小）分為一組。

在變數分箱完成後，需針對變數分箱的結果進行變數轉換，進而生成新的變數，一般用WOE轉換：按照其各個分組的WOE值，將變數轉換為分類變數，其變數值根據不同的分組取各個分組的WOE值。目前都是將WOE轉換後的變數作為模型的候選變數。

第六步， 變數降維度。

1.通過與業務部門商討，結合數據質量來篩選出有業務含義以及數據質量良好的變數，去除缺失率高的變數。 2.通過對變數進行分箱，觀察其趨勢以及預測能力。並與業務部門商討，排除掉預測能力較差（IV小於某個臨界值）、取值集中度過高及趨勢不符合業務含義的變數。3.在第二輪篩選的基礎上，用模型演算法自動選擇最終進入模型的變數，並與業務人員確認。

第七步，建立模型

邏輯回歸分析是信用評分模型非常廣泛的應用統計技術，它主要適用於二元性目標變數，但對於自變數沒有要求，自變數既可以是連續性的也可以是類別性的。邏輯回歸模型有3個選擇變數的方法：向前選擇、向後選擇、逐步判別。逐步判別是從最初模型中沒有變數開始，逐個引入變數。每增加一個變數後都要檢查，去除那些無助於模型預測能力的變數。當模型中的所有變數符合標準而無其他變數符合進入的標準時，選擇程序結束。逐步判別的優點：初步地從變數池內所有可能的變數中確定最具預測能力的特徵變數組合； ü可以對所有潛在的自變數進行試用，從中獲得對自變數預測能力和相關性的洞察力 ü可以快速、方便地對大量的候選自變數進行自動篩選。

回歸結果檢查：

回歸係數及顯著性檢查： 若模型估計的是「賬戶成為好賬戶的概率」則回歸係數應該都是大於0的；若模型估計的是「賬戶成為壞賬戶的概率」則回歸係數應該都是小於0的；根據Wald卡方檢驗，通常要求引入模型的每個變數達到0.95的置信度，即檢驗的P值小於0.05。特殊情況下該標準可以適當放寬。模型整體顯著性檢查：根據似然比檢驗，通常要求模型整體回歸結果達到0.95的置信度，即檢驗的P值小於0.05。特殊情況下該標準可以適當放寬。模型變數相關性檢查：為控制預測指標變數中的多重共線性，需要運用線性回歸計算方差膨脹係數(VIF)。某變數的VIF較大時表明與模型中其他變數則可能出現多重共線性現象。一般設定VIF值不高於10，但是在實際項目中，我們會要求不超過4。

評分校準：最終會將回歸結果校準成最終的評分卡中的評分。

第八步，模型評估。

模型區分能力用：區分度指標(Kolmogorov-Smirnov，KS)或者GINI，穩定性指標主要參考群體穩定指數(Population Shift Index，PSI)。再次提醒注意:一定要將大數據建模與業務邏輯緊密聯繫!

當然以上只是關於自動化審批的數分建模部分，項目上需要結合行內以及專家規則共同形成審批貸後催收策略，然後再由行內人員實施到自己先有或者新開發的系統中去，最終形成自動化審批流程。

引用本人之前的一個答案供參考互聯網金融產品如何利用大數據做風控？

互聯網金融產品太多，這裡以P2P網貸為例，從風控涉及的相關環節分別來嘗試討論。

銷售環節：
了解客戶申請意願和申請信息的真實性
適用於信貸員模式，風控關鍵點：
親見申請人，親見申請人證件，親見申請人簽字，親見申請人單位。

審批環節：
進行基本信貸政策的核查，主要是核實申請信息、證件資料、是否偽冒申請。
系統會審核剔除不符合基本信貸政策要求的客戶，例如有嚴重不良徵集記錄的，內部已經有違約記錄的，或者近期有較大風險被納入關聯黑名單的，不符合監管政策要求的客戶。經過基本審查後，不同的申請人會依據客戶信息的分類，被自動分發到不同的信貸流程中，這種不同的流程一般會根據客戶的分類、申請額度的高低、是否新客戶、是否存量等客戶等因素進行設計，從而進入具體的審核環節。審核環節會採取系統審核和人工核查兩個交互部分，審核不能過，有疑問的，或者通過的才能分別進入後續的環節，包括拒絕、退回補充調查、退回補充資料、通過、有條件通過等。
適用於信貸工廠模式，風控關鍵點：
1、客戶填報信息的邏輯校驗。客戶填報信息包括其填寫在申請表上的申報信息，以及提供的資質證明文件中的信息。欺詐客戶由於編造了全部或部分信息，很可能在自行申報的相關信息中存在不符合常理的情況。利用互聯網大數據提供的位置服務，能夠將客戶填寫的地址信息定位為地址位置坐標，並與客戶常用物流地址位置坐標進行比對，如果發現客戶提供了一個距離過大的地址，則該地址信息存在虛假的可能性；針對移動端渠道，比如PAD，可以定位互聯網客戶的具體申請位置，與申請信息中填寫的地址信息或職業信息進行對比驗證；還可以收集客戶填寫申請過程的行為信息，如填寫了多長時間、修改了幾次、修改了哪些內容，這些信息項可以成為申請欺詐模型的變數或是申請欺詐策略的重要規則。
2、客戶填報信息與公司自有存量客戶信息的邏輯校驗。比如：多個申請件填報的單位電話相同，但對應的單位名稱及地址不同，批量偽冒申請件的可能性就很高。
3、外部信息的對比校驗。惡意的申請往往會隱瞞對其不利的事實，如負債、公司運營存在問題、等待處理的法院執行信息等，通過爬蟲抓取互聯網上申請人的企業經營信息、法院執行信息可以核實申請人自身的真實資質。

授信環節
進入評分規則引擎的客戶，會按類型走到不同的細分模塊，以適應不同的細分模型，包括不同的產品、不同的行業、不同的客戶群，如車貸、消費貸、抵押貸、個人經營貸等。
風控關鍵點：
不同類型的借款申請調用不同的信用評分規則引擎。
根據用戶授權許可自動抓取的數據： 個人信息，抓取用戶在互聯網上留下的電商購買數據、搜索引擎數據、社交數據(微博/人人網等)、信用卡賬單郵箱信息、學信網信息等多個維度的數據，得到有關個人性格、消費偏好、意願、學歷等的個人信息。 商戶信息：抓取商戶的電商交易數據(物流、現金流、信息流數據)，電商的經營數據(如訪客量、交易量、用戶評價、物流信息等)。 最後通過特定模型轉化為個人授信評分數據與商戶授信評分數據。

附：大數據授信數據來源圖

貸後存量客戶管理環節
存量客戶授信調整是存量客戶管理中的重要一環，多種經營手段最終都會涉及授信客戶的調整，不重視授信額度的管理，很有可能造成風險的快速上升，將引入端的「好客戶」變成存量端的「壞客戶」也是有可能的。
風控關鍵點：
1、違約情況觀察，比如是否發生早期逾期，連續多期不還欠款、聯繫方式失效等
2、信息關聯排查，比如存量客戶中是否有與新增的黑名單、灰名單數據匹配
小微商戶的存量風險管理過程中，可以從數據合作方獲取商戶交易流水信息，對其交易流水進行監測預警，對於突然出現的資金流入、流出，不符合經營規則的交易流水下滑情況，正常營業的大額交易等，均可以觸發預警；通過大數據實時監測，一旦在外部數據監測過程中發現客戶的嚴重負面信息、公安違法信息、法院執行信息、稅務繳稅信息、行業重要新聞、借款人社交關係網中的重大負面情況、借款人的網路瀏覽行為、資金支付結算情況等，可以及時觸發預警。

貸後逾期客戶管理環節
還款意願差和還款能力不足是客戶逾期的主要原因，這個環節主要涉及逾期客戶管理與失聯客戶管理
風控關鍵點：
1、催收模型、策略優化。不同客戶對於不同的催收手段的不同反應，可以通過大數據來挖掘規律。比如對於一個幾乎無上網記錄的客戶，發送電子郵件進行催收，一般達不到觸達效果，採取語音提醒可能效果更佳；對於一個微博控、知乎控，同樣內容的催收還款提醒文字，通過微博、知乎私信發送比通過手機簡訊發送的效果更好。
2、失聯客戶識別與修復失聯客戶信息。比如，與外部電商擁有的客戶物流信息進行交叉核實，發現客戶申請貸款時間提供的聯繫方式與近期網購中使用的聯繫方式均無法匹配，則可能意味著客戶更新了聯繫信息，這時就可以主動發起與客戶的溝通及聯絡，避免客戶失聯的發生；對於失聯客戶，互聯網積累的大量關聯信息，能夠為摸清客戶的工作、生活、社交網路提供幫助。

資金流動性管理環節
流動性風險是P2P網貸平台的主要風險，跑路P2P網貸平台的一個重要原因就是發生了擠兌。大數據下的流動性管理其實是實時BI的一個應用。傳統BI數據T+1，大數據是實時BI。
風控關鍵點:
整合平台所有借款端與投資端兩端數據，從以下兩個維度進行 1、資金維度 2、業務維度
更多細節見之前的一個回答
P2P平台流動性最重要的指標是什麼？

放款環節
放款環節是防止賬戶接管與資金挪用的關鍵環節。
風控關鍵點：
指定賬號資金劃轉與定向支付。比如，客戶出於培訓進修的學費借貸，在申請過程中就要求客戶事先提供學校的相關賬號。

小結

P2P大數據風控模型構建路徑

先直接照搬我知乎另一個問題下的回答

得，演講了無數次的東西的結果就是真的多寫一遍自己都提不起興趣敲鍵盤，但是想了想在b乎從來沒發過一篇真正專業相關的回答，大部分都是抖機靈感覺也挺不好意思的，所以還是強答一波吧。

從作用角度來說層次非常多，問題問的非常寬泛。如果從步驟來說大的範疇包含了三個部分：貸前、貸中、貸後。如果從板塊來說包含了客戶營銷、客戶管理、賬戶監控、貸款餘額及利息的計算系統、風控模型等等等等。由於數據源的差異性，所以每個數據源在整個信貸流程中發揮的作用其實有很大不同，再結合數據來源的合法性，每個步驟對應的授權和數據挖掘以及對客戶畫像的精確度也會有極大的差異。就目前商業銀行導入的數據源，市面上比較寬泛的劃分成如下幾類：司法、水電、pos流水、銀聯信息、運營商信息、海關信息、稅務信息、社保、公積金、其他借貸債務關係、人行徵信、飛行信息、網站的cookie等等等不計其數，調用方式也五花八門，有的是可以API直接調用的、有的是直接買一個數據包回來慢慢玩的。

首先按流程我們先從貸前，也就是所謂的客戶篩選及客戶營銷來說，一般在這個環節，銀行會通過原有的行內數據進行第一波的客戶轉化，通過對行內自有的數據分析進行新的貸款產品的准入篩選然後通過各種途徑去將信息送達至篩選後的客戶，其次會利用各種網羅來的非授權數據（有些不靠譜的銀行也會私下使用黑產數據）來對還未成為本行客戶的企業進行廣泛的篩選，通過向全量客戶的數據進行分析從中挑選出符合自己標準的客戶群體及具體名單，然後再進行營銷。

營銷回來以後自然就是貸中審核了，到這個環節就會讓客戶進行一些強授權了，用於合法的收集更多的數據，本人公司已經幫30多家銀行的總行搭建了類似的系統並且提供數據源支持，目前中國第一款純線上無需擔保抵押的機器自動化審批企業貸款--江蘇銀行的稅e融就是我們和江蘇銀行共同開發的，通過多維度的數據來源和種類，來對客戶進行還款意願及經營能力的雙重分析。在還款意願層面主要是通過的通訊信息及人行信息來進行反欺詐，再通過司法數據來看相關訴訟，最後在通過稅務信息及pos等經營相關信息來鑒別企業的經營能力等，在這個環節數據不光要求維度和來源多（可以相互對比校驗）還需要跨度長，一般來說都需要最少兩年的連續數據進行分析，來觀察企業的穩定性。當然這一系列的數據授權都需要在線上進行完成，那麼通過大數據來進行非面簽線上授權用於核定借款客戶本人身份也成為了必不可少的應用範圍之一，這個通過biotech（最具代表性的就是指紋和人臉識別）等就ok。通過這樣的方式應該說可以很大程度替代原有的IPC貸款模式，通過數據化的方式大大降低人工審批成本，基本上銀行搭建的系統放數據貸款平均時間都不會超過15秒，從審批到核額到發放。

在貸款發放以後，如何動態監控企業的持續性經營風險也成為了現在尤其是小微類貸款的難點。由於人行要求銀行對企業發放的貸款必須以不低於半年一次的最低貸後檢查頻率，所以以往銀行不得不採用人工的方式進行上門核查，這樣未來如果一旦出現了風險，合規動作有做就可以減少自身的責任，但是這樣就造成了一個問題，目前中國銀行在貸企業數量是550萬戶，如果讓客戶經理一家家自己人力做貸後監控將成為極大的成本（深圳某國有銀行一戶成本是一次上門160元，這還是兩年前的價格），有些銀行會採取外包的模式，但是外包的公司人員也極不靠譜，有的甚至會自己和企業勾結，所以上述原因也會阻礙新業務的發展，都把時間拿去檢查老客戶了新客戶咋辦？所以這也造成了中國的銀行「嫌貧愛富」的情況，不是不想為，而是客觀難為，通過數據監控的最大好處就是只要設好風險預警的閾值，一旦客戶的數據發生異動，系統則會自動預警，屆時再由人工介入，但是這樣會對銀行的系統穩定性及數據源的質量還有連續性有極高的要求，所以現在還是大銀行可以通過業務多來降低邊際成本。目前就我們監控的2000多億的存量貸款餘額來說，壞賬對比起以前有了顯著的下降。東西很多，寫這麼多，看贊詳細補充吧。

然後接著說，不吹nb的說，中國嚴格意義上由銀行放給企業賬戶的真正意義上的純線上數據貸款產品，我都參與開發了，包括微眾銀行剛剛上線的微業貸(官網已開尚未大規模宣傳)基本上就是幾塊數據源的整合以及信貸流程自動化的改造，司法航空工商稅務公安行政數據都有各自領域內最好的數據源，由一手的公司把持著，市面上各種所謂各類數據的源頭，歸到底都是二三四五手，api直接對原始庫的哪幾家由於利益相關都不能說，企業數據信貸邏輯就是把你各類數據扒個底朝天，用沒法造假的流水給你核個額。

大數據風控有效，但效用多大，風控本來是一件非常系統的事情，不僅僅是大數據的問題。個人基本天天接觸，但依然懷著對金融敬畏之心。

所以我是來吐槽的....

1.Capital one 作為一個美國公司，國內為什麼有突然間有那麼多Capital one歸國的數據科學家，風控專家，大數據專家，在知乎，線下我見了不少，我一度有種幻覺，這公司肯定是中國人開的，待遇還不高，紛紛回國。

2.大數據，是從大量不相關的數據尋找相關性，成本比想像中大，效果怎麼樣，這個階段有各種賣數據的，賣服務的會有大量營銷手段告訴你，效果棒棒的。但是感興趣的可以查一下純粹的全自動化審批，只需提供四要素的產品定價多少？

3.學點金融的都知道有一隻黑天鵝，大數據能提供的都是歷史數據，黑天鵝飛來怎麼辦？這玩意和特斯拉的自動駕駛模型決策兩碼事，汽車出現意外事故情形基本是可以預知的，但黑天鵝長什麼樣，我只知道我書架上有這麼本書。

4.好不容易搞一套評分體系，比如說芝麻信用分，市面上有多少機構趴在這套評分上放貸款，尾隨，跟蹤配置貸款，期限比大機構短，那這套模型會越來越差。

5.題主這個問題實際涉及從業公司核心機密，敢掰開來跟你聊的基本不是拿真金白銀放款的。

6.如果風控的核心是: 數據+模型，那麼程序員真的可以獨步天下了，舉個例子:不會開車，沒有駕照，但是我可以通過大數據分析駕駛數據，建立模型，操作汽車自動駕駛。這樣的特斯拉，您敢開么？不懂股票，但是我有大盤歷史數據，漲跌，公告，各類新聞，建立模型，搞量化交易。也沒見有多少人走上暴富之路嘛。

聲明:以上觀點僅代表個人觀點，與從業公司無關

如果有人能把大數據審批的細節寫出來，那可能涉及泄密。

大數據審批，可以覆蓋更廣的信息，對信息進行更深入的發掘，有更快的審批速度，同時，讓審批動作更標準，更一致。

1.更廣的信息。傳統信貸審批往往局限在財務數據，資產負債收入，大數據審批，則更為廣泛，比如新網銀行就會調用芝麻分，某些app會調用電話數據，簡訊數據，甚至定位數據。

2.對信息更深入的發掘。通過對通訊錄數據的比對，可以做出某些風險驗證，比如，通訊錄中只有3.5個聯繫人。通過對銀行流水的分析，可以判斷其交易網，是否有大量的虛假交易？

3.有更快的審批速度。我手工驗證一個借款人的法院執行信息，我需要打開網頁，輸入身份證信息，輸入驗證碼，5分鐘。然而大數據審批可以在毫秒時間內給出有無的結論，如果有，給出案件信息。

4.審批動作更標準，更一致。不同審批師的經驗不同，大部分是按照審批要求逐條比對，有些則能夠憑藉職業道德與職業素養給出自己的意見，大數據審批則是統一的套路與標準。

5.風險集中，保密。過去的審批分散在全國各地，客戶經理往往也能拿到風險要求，存在被逆向選擇的風險，而大數據的核心只掌握在少數人手中，而且，可以快速更新修正。

這個問題挺大的。

簡而言之，用戶數據 → 模型（可以是AI） → 輸出。

↑

大數據

大數據在這個簡單的結構中，是基礎。

只要用戶的群體有大數據基礎就可以。比如，大型企業的貸款，就用不到大數據，因為……大型企業太少了，這個群體難有大數據。

所以，大數據的信貸審批，一定是交易頻次非常高的領域，比如消費貸、個人現金貸、小微企業貸等。

另外，當我們談到大數據來源的群體時，如果這個群體是垂直領域的場景，那麼，這種信貸就變成場景式的設計，美國智能信貸的普遍模式。

如果這個大數據來源群體，是通用群體，那麼這種信貸就是大眾化的、平台式的智能信貸，這是我國智能信貸發展、銀行業對智能信貸的普遍需求。

我自己也做大數據很久了，但是始終覺得大數據用處有限。

首先一個原因是目前行業內大部分公司打著大數據的旗號，做著小數據的事，譬如我上一家公司，吹出去都是百萬級數據，其實才幾十萬，按人頭算根本才十幾萬，並且維度相當小，缺失值又極多，類似這樣的公司其實不在少數。

說真的，在這樣的公司中，大數據技術，還不如普通的數據分析，因為拿這樣的數據建模，極容易做偏，更不用提用戶畫像，人工智慧了。做一些基礎規則，輔以一些數據特徵分析得出的規則，相對來說效果還比較好。

另一個原因是因為業務受限，考慮到客戶體驗，很多時候我們沒有辦法獲取客戶的所有信息，獲取到的那部分數據其實對客戶只能做出一個片面的推斷性描述，雖然有時候我們可能偶然間找到一個比較強相關的數據，但那種概率太小，而且不可能單獨以一個變數做模型。

只有類似阿里巴巴，京東等等大公司，獲取的變數足夠多的時候，才可能做出一個較為完整的信用評分，其他公司個人覺得仍然是需要以業務為主，謹慎為了面子，強行使用大數據技術，這樣反而得不償失，並且個人覺得，不論在何種情況下，規則都是主要手段，而模型只是錦上添花的東西，畢竟數據有時候會騙人。

想必大家都知道，金融業對信息系統的實用性要求很高，目前，金融業主要信息需求是客戶行業分析、防堵詐騙、金融的風險風析，信貸審批僅是其中之一而已。

大數據時代，基本信用都是各個公司之間通用的，說說我自己的事，記得，那是2016年初，剛好我同學還我錢，剛好用的是支付寶轉賬的，當時我也就沒在意，一個月之後，我網商貸上信貸額度，直接從1萬跳到了5萬，隨後幾個月，因個人需要，從裡面貸了5萬，貸了三個月，到期還了之後，信貸額度直接提到了12萬，我想大數據徵信，也是根據你的消費能力，個人信用綜合判定出來的。

如今的大數據時代，每個人都會消費，通過互聯網消費的，產生的數據，是可以做分析的，那麼對你的信貸審批也就是一件很輕事的事情，如何將大數據應用於實際的案例中，其應用的流程是什麼？ - 大數據多智時代

我也算一個信貸審批、平時接觸催收和數據統計、現在是一家金融機構的外訪催收人。

但我無法寫那麼高大上啊、畢竟只有實戰沒有理論且文筆太有限。忍不住就擼一發了！

徵信我就不說了。說些簡單粗暴的！應該不算泄露秘密。

公司常常利用大數據審批的技巧有以下這些：

逾期率：分為行業和地理分析；就是一個行業行業的逾期率、地理則是一個地方（包含戶口和經營地）就不要說我地圖炮了、事實就是存在的。如某沿海省且又做茶葉的客戶審批通過的幾率是很低的。甚至只要你身份證號碼是這個地方的哪怕戶籍不是了也是同樣的待遇。這些過往逾期率會導致以後審批做參考。

關係網：一般申請時會天三個到八個聯繫人不等、例如這些人當中有在本公司申請過的、會分析他的還款情況、兩個人填的信息是否符合邏輯。

外網：工商局、殺毒軟體等、工商局查企業有未受過什麼處罰、經營是否異常、手機號碼是否標註詐騙等。

這張圖是外訪時查的、可以看到被標記為經營異常、實際上是早就未經營了！消費習慣：銀行不會分享數據但你有本行的信用卡也可以作為參考數據、不要認為你套現銀行不知道、這樣就不對了！

先馬再答