互聯網金融產品如何利用大數據做風控？

01-01

現在互聯網金融行業例如微眾，搞金融產品都是想用大數據來做風險控制，這個怎麼玩的呢？

互聯網金融產品太多，這裡以P2P網貸為例，從風控涉及的相關環節分別來嘗試討論。

銷售環節：

了解客戶申請意願和申請信息的真實性

適用於信貸員模式，風控關鍵點：

親見申請人，親見申請人證件，親見申請人簽字，親見申請人單位。

審批環節：

進行基本信貸政策的核查，主要是核實申請信息、證件資料、是否偽冒申請。

系統會審核剔除不符合基本信貸政策要求的客戶，例如有嚴重不良徵集記錄的，內部已經有違約記錄的，或者近期有較大風險被納入關聯黑名單的，不符合監管政策要求的客戶。經過基本審查後，不同的申請人會依據客戶信息的分類，被自動分發到不同的信貸流程中，這種不同的流程一般會根據客戶的分類、申請額度的高低、是否新客戶、是否存量等客戶等因素進行設計，從而進入具體的審核環節。審核環節會採取系統審核和人工核查兩個交互部分，審核不能過，有疑問的，或者通過的才能分別進入後續的環節，包括拒絕、退回補充調查、退回補充資料、通過、有條件通過等。

適用於信貸工廠模式，風控關鍵點：

1、客戶填報信息的邏輯校驗。客戶填報信息包括其填寫在申請表上的申報信息，以及提供的資質證明文件中的信息。欺詐客戶由於編造了全部或部分信息，很可能在自行申報的相關信息中存在不符合常理的情況。利用互聯網大數據提供的位置服務，能夠將客戶填寫的地址信息定位為地址位置坐標，並與客戶常用物流地址位置坐標進行比對，如果發現客戶提供了一個距離過大的地址，則該地址信息存在虛假的可能性；針對移動端渠道，比如PAD，可以定位互聯網客戶的具體申請位置，與申請信息中填寫的地址信息或職業信息進行對比驗證；還可以收集客戶填寫申請過程的行為信息，如填寫了多長時間、修改了幾次、修改了哪些內容，這些信息項可以成為申請欺詐模型的變數或是申請欺詐策略的重要規則。

2、客戶填報信息與公司自有存量客戶信息的邏輯校驗。比如：多個申請件填報的單位電話相同，但對應的單位名稱及地址不同，批量偽冒申請件的可能性就很高。

3、外部信息的對比校驗。惡意的申請往往會隱瞞對其不利的事實，如負債、公司運營存在問題、等待處理的法院執行信息等，通過爬蟲抓取互聯網上申請人的企業經營信息、法院執行信息可以核實申請人自身的真實資質。

授信環節

進入評分規則引擎的客戶，會按類型走到不同的細分模塊，以適應不同的細分模型，包括不同的產品、不同的行業、不同的客戶群，如車貸、消費貸、抵押貸、個人經營貸等。

風控關鍵點：

不同類型的借款申請調用不同的信用評分規則引擎。

根據用戶授權許可自動抓取的數據：

個人信息，抓取用戶在互聯網上留下的電商購買數據、搜索引擎數據、社交數據(微博/人人網等)、信用卡賬單郵箱信息、學信網信息等多個維度的數據，得到有關個人性格、消費偏好、意願、學歷等的個人信息。

商戶信息：抓取商戶的電商交易數據(物流、現金流、信息流數據)，電商的經營數據(如訪客量、交易量、用戶評價、物流信息等)。

最後通過特定模型轉化為個人授信評分數據與商戶授信評分數據。

附：大數據授信數據來源圖

貸後存量客戶管理環節

存量客戶授信調整是存量客戶管理中的重要一環，多種經營手段最終都會涉及授信客戶的調整，不重視授信額度的管理，很有可能造成風險的快速上升，將引入端的「好客戶」變成存量端的「壞客戶」也是有可能的。

風控關鍵點：

1、違約情況觀察，比如是否發生早期逾期，連續多期不還欠款、聯繫方式失效等

2、信息關聯排查，比如存量客戶中是否有與新增的黑名單、灰名單數據匹配

小微商戶的存量風險管理過程中，可以從數據合作方獲取商戶交易流水信息，對其交易流水進行監測預警，對於突然出現的資金流入、流出，不符合經營規則的交易流水下滑情況，正常營業的大額交易等，均可以觸發預警；通過大數據實時監測，一旦在外部數據監測過程中發現客戶的嚴重負面信息、公安違法信息、法院執行信息、稅務繳稅信息、行業重要新聞、借款人社交關係網中的重大負面情況、借款人的網路瀏覽行為、資金支付結算情況等，可以及時觸發預警。

貸後逾期客戶管理環節

還款意願差和還款能力不足是客戶逾期的主要原因，這個環節主要涉及逾期客戶管理與失聯客戶管理

風控關鍵點：

1、催收模型、策略優化。不同客戶對於不同的催收手段的不同反應，可以通過大數據來挖掘規律。比如對於一個幾乎無上網記錄的客戶，發送電子郵件進行催收，一般達不到觸達效果，採取語音提醒可能效果更佳；對於一個微博控、知乎控，同樣內容的催收還款提醒文字，通過微博、知乎私信發送比通過手機簡訊發送的效果更好。

2、失聯客戶識別與修復失聯客戶信息。比如，與外部電商擁有的客戶物流信息進行交叉核實，發現客戶申請貸款時間提供的聯繫方式與近期網購中使用的聯繫方式均無法匹配，則可能意味著客戶更新了聯繫信息，這時就可以主動發起與客戶的溝通及聯絡，避免客戶失聯的發生；對於失聯客戶，互聯網積累的大量關聯信息，能夠為摸清客戶的工作、生活、社交網路提供幫助。

資金流動性管理環節

流動性風險是P2P網貸平台的主要風險，跑路P2P網貸平台的一個重要原因就是發生了擠兌。大數據下的流動性管理其實是實時BI的一個應用。傳統BI數據T+1，大數據是實時BI。

風控關鍵點:

整合平台所有借款端與投資端兩端數據，從以下兩個維度進行

1、資金維度

2、業務維度

更多細節見之前的一個回答

P2P平台流動性最重要的指標是什麼？

放款環節

放款環節是防止賬戶接管與資金挪用的關鍵環節。

風控關鍵點：

指定賬號資金劃轉與定向支付。比如，客戶出於培訓進修的學費借貸，在申請過程中就要求客戶事先提供學校的相關賬號。

小結

P2P大數據風控模型構建路徑

千萬不要迷信所謂的大數據風控，尤其是現在。大數據風控是個很好的概念，也是所有貸款類企業的理想，但理想與現實總是差著十萬八千里。

大數據風控的核心點在於有效數據的數量和質量，問題恰恰就在這裡。理想狀態下，存在超級部門，可以構建完整的大數據平台。現實情況卻是，有效數據散落在各個角落，成為信息的孤島，沒有任何一方有能力把數據整合起來，包括央行徵信中心，目前也只是信貸數據，工商水電稅收海關訴訟等其他部門的數據壓根整合不了。

至於很多互聯網企業吹噓的大數據，就更扯了。阿里、蘇寧、京東等電商的購物數據金融價值相對高一些，基於你購物的習慣、檔次判斷你的信用層級；其他騰訊的社交數據金融屬性就差一些；百度的搜索數據就更差一些。除了這幾家巨頭，一般的小P2P平台，哪來的大數據？都是扯淡罷了！

10月5日，更新完畢

——————————

現在提大數據風控的文章，大都是講個幌子，一點實質內容都沒有。

今年早些時候因為工作的原因，對這方面有點興趣，某次跟一位老師談到大數據風控的時候，聽到一些大數據風控的實際例子，我在這裡給大家分享一下。

我們來看一下傳統的信貸風控模式，貸前，貸中，貸後三部分中最看重的是貸前，而對貸中貸後並不是非常注重。

而這樣的思想在互聯網金融上是絕對要不得的。互聯網金融的客戶什麼牛鬼蛇神都有，其降低風險的主要手段其實並不是完善而大量的數據收集、統計和分析。

而是風險的分攤。

這也是金融行業最簡單的貸款風險控制手段。如果我做十筆就可能會虧一筆，那我每九筆的利潤至少要能攤平這一次的虧損。

大數據的使用對於確定盈虧出清利率提供了相對合理的手段。

似乎這樣就已經可以了？只要事先選擇合理的利率和合適客戶就解決問題了？

可惜事實總比你想的更奇葩。數據是靠譜的，分析卻可以不靠譜，人卻可以更不靠譜，這點我不多說，大家都明白。

互聯網的大數據在這一點上是比不上傳統的信貸風控手段的。

那位和我聊天的老師在這一點上說的很有意思。

他說，互聯網金融做的客戶，多半是銀行不想做不願做的，它們只是撿了別人不要的東西，哪天銀行真想要了，買來就是。

誠然這裡面多少有些一廂情願，不過前半句倒是事實。從一開始，互聯網金融就選擇了傳統信貸所難以下手的市場。謹記這點便引出了為什麼我要在前面說，互聯網金融絕對不能放鬆貸中和貸後的風控。

而恰巧，大數據能幫互聯網金融做到的最棒的部分，還就是貸中和貸後。

關於貸中管理，這位老師講了一個很有意思的案例。

他提到有某家金融機構，使用大數據監控某個區域內企業的流水，如果某段時間流水出現了異常，那麼他們就會派人去調查具體發生了什麼事。

這種方法在現行的傳統風控手段中也是很常規的，但大數據給我們帶來的便利除了降低人力成本，更主要的是可以發掘更多的判斷依據。

尤其在借款人有意隱瞞目前經營狀況的時候，一些經營外的數據就有可能產生意義。

舉個簡單的例子，如果借款人有打算跑路了，那除了現金流的變化，也會有些其他的變化，比如購買旅行箱，訂機票，國外相關網站的瀏覽。

而在貸後方面，大數據的介入除了給我們提供分析手段，更方便了我們對於客戶需求的發掘。或許在以後，銀行可以為個體提供更為貼心和前瞻性的服務，而這些也是大數據應用的重點。

關於大數據的前景：

大數據目前不一定是單獨一家企業可以掌握的，以後也不一定。

目前出現的對大數據的應用情況是，用戶數據的採集和共享。

在未來的一段時間內，因為法律法規不健全，必然會出現嚴重侵犯個人隱私的商業行為，而大數據會不會因此受阻，我個人是抱悲觀態度的。

大數據會有用，但首先要降低金融服務的成本。無論數據如何，最終還是需要人。而人的成本只會越來越高。

以上是我對大數據應用的一點思考。可能不完全切題，歡迎討論。

大數據風控的話題實在是炙手可熱，有不少人如巫術一般的崇拜大數據，覺得大數據的魔棒一揮，各種問題迎刃而解。也有人說這個是純屬炒作概念，憑著熱度來忽悠一波熱錢進入接盤。

這猶如小馬過河一般的評論，使得任何一個有興趣投資大數據金融領域的投資者心存疑惑，大數據這玩意兒究竟價值何在，水又有多深？

其實大數據風控和傳統的評估角度並沒有本質的區別。互聯網金融產品，和做其他任何商業產品一樣，都是為了解決把什麼東西（產品）提供給什麼人（客戶）才能最賺的問題。

利用大數據做風控只是通過發揮互聯網的優勢，利用新的原材料和與其相匹配的技術手段，幫助互聯網金融產品提高風險管理賺錢的效率。

舉一個很簡單的例子，比如某個老太太準備擺攤賣水蜜桃。

首先她要有貨，整來一堆大桃子進了倉庫。一看這些桃子有大有小，產地還不一樣，總不能賣一個價錢。老太太撓撓腦袋，按照若干指標分好，首先按照產地分，這是陽山的水蜜桃，那是南匯的桃兒，再一堆兒是平谷的桃兒；再按照大小分，一個桃一斤多的一堆，一個桃半斤的一堆，還有一堆個頭忒小的再堆一堆。然後想想這不同採摘的時間按說品質也有區別，不過光按照產地和大小分就分出來九堆桃子，倉庫堆滿，再分就分不下了。

信用估值的方法類似與老太太分桃子的等級，按照大小，產地，採摘時間，可以把桃子分成N個分類。信用評價也是一樣，可以用不同的指標來劃分客戶群體。按照傳統的方式，光按照流水銀行流水，通話，就可以抽樣出職業，年收入，收入變動情況等一些傳統指標（通常是幾個或者十幾個），對用戶進行評估和授信。

而到了大數據手中，這信用估值的指標可以達到更大的量級。傳統評估可能僅限於用戶提供的少量資料和一些調查獲得的信息。大數據評估可以獲得到用戶的更多信息，比如電商瀏覽和購物，平時交易流水的多少，交易發生的時間，用戶交易的地點，以及任何和用戶信用略有關係的其他指標。整個參與到信用評價中的指標可能多達上千個。

在獲得了數千個指標之後，這些指標彼此正交，如老太太按產地和大小兩個指標組合，對桃子分了三六九等一般。依據這數千個指標正交之後會產生的上億的組合（數據可不象桃子那樣佔地方），可以對人群進行極為精密的劃分，以劃分的結果進行建模，會得到比傳統手段更加精準的模型。

分好桃子，老太太又傷了腦筋，我分了這麼多種桃子，我該咋定價呢？前幾天看市場上桃子賣三塊，感覺沒平谷的甜，個頭也沒半斤的大。這我就按照這個做樣本，不大但甜的賣五塊，大個不甜的賣四塊，又大又甜的我賣個七八塊。

然後老太太推個三輪兒，裝了九筐桃子，準備出去賣了，第一天去了菜市場，一堆大媽光撿便宜的買，大桃兒一個都沒賣出去。老太太痛定思痛，大桃兒定價各減一塊。

第二天推車去了寫字樓附近擺地攤，一堆白領吃了午飯出來買水果，凈揀大個兒的買，小桃兒這回無人問津了。

在進行了評估之後，金融企業需要根據不同渠道對應的客群設計對應的產品。大數據依據對於人群的精密描繪，為金融產品定製提供了更加靈活的可能性。金融企業可以根據客群的不同，制定更加有靈活性的產品，從而實現更高的利潤。就如老太太不必一天天的測試不同地方什麼桃子最好賣。盡量讓每個客戶面前，都放著這個客戶所在客群分類中最合適的桃子。

第三天老太太想了想，裝了一車大桃兒來到寫字樓，沒想到剛支好攤，來了兩個小騙子，給了一百假紙幣買了倆桃，隨後，遇到城管，連桃兒帶車都被扣了……

在金融產品上線運行之後，欺詐問題往往會浮現出來，形形色色的中介防不勝防，好不容易過了中介羊毛黨這關，說不定那天突發的系統性風險又會找上門來。對於以往的評估手段，因為獲得的信息面相對還是較小，對於欺詐用戶難以應對，在黑產中可以輕易做出銀行流水和通話記錄。一個在現實中欺詐不已，但是在信用上清白且優質的人可以憑空製作。但是對於大數據風控評估來說，所用的評估指標來自生活的方方面面，偽造記錄無異於重新投胎，使得欺詐難以實現。

最後一點，對於金融天災一般的系統性風險，大數據模型因為對人群的精密分類，因此在異常信息上也格外敏感，在產品運行中，會得到比以往更多更豐富的反饋信息，可以在系統性風險發生之前就給出足夠的預警，給了金融企業躲災的可能性。

後來，買桃子的老太太在大數據諮詢師的幫助下，建立了互聯網桃子企業，終於成為桃子界的一匹獨角獸，這就是後來的事情了 : )

本文作者：ZRobot金融科技公司研發負責人張晨

你所處地理位置可能不僅僅決定你的膚色、口音、飲食習慣。隨著Fintech的發展，地理位置還能決定你能從金融機構借到多少款。IT技能的成熟，讓LBRM（Location Based Risk Management）體系成為金融機構判定用戶風險水平的重要工具。

什麼是LBRM風控體系？地理坐標決定你的貸款額度

隨著Fintech近年來的飛速發展，各類IT技術，系統布置日臻成熟，Fintech公司的重心也進一步轉移到了業務發展上。對於Fintech公司而言，大數據無疑是將金融與技術相互結合起來的重要工具之一，也是技術驅動發展的重要手段。

從客戶的日常活動範圍可以推斷出客戶所處的生活環境，消費物價，以及工作地點等等信息，無疑可以在一定程度上反應出客戶的信貸能力。由此我們提出了LBRM（Location Based Risk Management）的理念，即基於位置信息的風險管理應用。

具體來看，地理位置信息主要包含兩大特徵：集（jìng）群（tài）與軌（dòng）跡（tài）。

集群特徵：

早在遠古時期人類便學會相互合作狩獵，形成大大小小的部落。而現代人不論是出於對基本生活設施，醫療衛生等物質方面的需求，亦或是對社交娛樂，擇偶多樣性等方面的精神需求，人類總會聚集到大大小小的城鎮內。這種集群是現代社會自然而然地形成的，比之行政區域劃分更有意義，比如上海右下角的南匯地區，不論從語言文化還是生活習俗等方面都與上海市區有很大的區別。

軌跡特徵：

客戶在不同時間的位置數據所展現出的日常活動範圍以及移動軌跡，可以很好的反應出客戶的工作，生活等方面的信息。比如上圖的客戶，我們結合獲取位置信息的時間以及當地的建築物信息，可以很快地判斷出左邊是客戶的起居場所（多為晚上和早上獲取到位置信息），而中間則是客戶的工作地點（多為白天和下午），右上角則可能是客戶下班後去採購建材了，右上角的建築物是個建材市場。

基於位置信息這兩大特質，通過位置信息可以很好地分析出客戶真實的工作，生活等情況，從而在反欺詐，尤其是甄別中介包裝，偽冒資料等方面有著得天獨厚的優勢。其次當出現一些地域性較強的信用風險事件時，也可以及時的做出風險策略調整。

從風險管理的全視角，位置信息也有非常重要的作用，如下表所示：

我們的LBRM策略實踐初探：對地理區域進行風險畫像

位置信息的獲取主要有以下四種渠道：WIFI定位，IP地址，GPS定位以及運營商基站定位。下圖所示為我們省唄客戶在註冊時的位置分布，可以明顯的看到我們的客戶主要集中在沿海地區，直轄市及各省省會，而這些地方也是我們省唄目標客群的聚集地。

數據基礎：省唄APP遍布全國的海量用戶

LBRM風控體系在省唄風險管理上的實踐

實踐一、對欺詐用戶的識別

場景1：偽冒/中介包裝（依據省唄真實案例改編）

隨著互聯網的普及，各種欺詐手段也不斷流傳開來，信用包裝便是其中的一大類。好多人資信檔案看著有房有車，收入穩定，其實只是各種信用包裝，甚至是冒用他人資料。

上圖為某信用包裝公司的互聯網小廣告

偽冒、中介包裝案例：客戶張某某（局部放大圖1號）今年8月來申請省唄，資信檔案顯示客戶為某名校本科學歷，戶籍所在地為北方某城市，工作在上海，同時在上海還有套房貸，且各家徵信機構的信用記錄都良好。但定位則顯示客戶所在地為嘉興，且幾個緊密的聯繫人（局部放大圖2-8號）也都在嘉興，客戶因出差而在嘉興的概率較小。經系統預警，綜合排查後確認為該客戶偽冒客戶。

場景2：網路中介（或稱線上中介）代辦（依據省唄真實案例改編）

遇到經濟問題的客戶往往會通過各種不同渠道尋找借款機會，尤其是涉及賭博，吸毒等違法行為的客戶。其中通過線上中介進行借貸的客戶，隨著互聯網的發展也在逐年遞增。相比通過線下中介借貸的客戶，此類客戶往往逾期後難以收回貸款金額，還款意願也就相對較低，相對風險也就越高。

在某寶上搜索小額貸款可以找到大量的中介

網路中介代辦案例：客戶華某某，在北京某地使用水果手機註冊，註冊完成後不久即在瀋陽登陸，並申請貸款。首先，該客戶短時間內位置變動過大，從北京到瀋陽用了不到1小時。其次，申請所在地與客戶資信所提供的住所地址不符合，且客戶本人的手機歸屬地也在瀋陽。第三，客戶連續多次在瀋陽地區申請貸款。各種跡象表明客戶疑似為網上中介代辦，貸中管制後確認為中介代辦。

實踐二、信用風險識別

上圖為省唄在全國範圍內收集整理的風險點

根據我們統計，全國高風險聚集點數量排名前三的分別為福建，江蘇以及河南，如下圖所示。這個結論與我們之前在風險管理上累積的經驗所得也一致，相信廣大風險從業人員也都知曉。

上圖為全國三大高風險地區

有別於傳統針對個人的客戶畫像，省唄的LBRM完善了各個區域的區域畫像，並將不同地域劃歸到不同的風險層級。

上圖為我們在華東地域的信用分區展示，其中不同顏色表示不同的信用等級

我們根據不同地區的實際風險表現結合當地可支配收入，最低工資等，將不同城市，不同區域劃分為不同的風險等級。通過這種基於位置的打分結合申請人的其他資信情況，做出更加精確的信用評分。此外，我們還會根據一些特殊的事件調整相應區域的風險管控，例：東北特鋼違約，微商管制等。

地理位置信息是互聯網金融在基於大數據來進行風險管理過程新增的一個比較重要的數據變數。和其他風險變數一樣，它也不是完全不能通過技術手段來做假，以蒙蔽大家的徵信策略；但在結合了LBSRM及既有多個變數後，使得客戶畫像更趨真實、更趨完善，更讓信用包裝、作假者的馬腳在大數據面前更容易現形。最後，套句我們風險人員常用的話來說，道高一尺魔高一丈，能否真正做到道比魔高，還是要靠自身在風險控制上的專註度和專業能力。

我來說點實際的。之前採訪過一位智能信貸公司的數據決策總監。他是這麼和我說的：

其實現在做互聯網金融風控的，只要稍靠譜的，數據源都差不多。

比如公司的【內部數據源】包括——在自有平台的用戶借貸記錄，用戶申請時的行為數據，還有內部或行業間共享的黑名單、灰名單等。

【外部數據源】有比較常見的八家個人徵信機構（雪梨醬註：2015年1月，央行開始允許芝麻信用等8家機構開展個人徵信業務）還有就是互聯網那金融平台有時會對接一些用戶銀行卡的欄位數據，在用戶授權的前提下，會把這個卡的信息和銀聯的相關數據去比對。

但是這位總監覺得，大數據風控的核心點在於：對數據的理解有多深。做大數據風控的人對數據要極其敏感，因此他們會花很多時間在變數上。

他向我舉過兩個例子。

第一個是和電商合作做變數的例子：他們可以通過這些合作看到用戶訂票的信息、機票的信息，比如公務艙、經濟艙這些信息——這本身其實也能說明一個人的基本經濟情況。

但是他們會做得更細，會繼續做一些疊加或衍生。比如他們會不看公務艙和經濟艙的區分，而看飛行每公里的消費單價。因為公務艙和經濟艙的價格也會波動很大，有的時候經濟艙也有特價票、公務艙也會有優惠活動，所以他們會看每公里的消費金額。

第二個例子是流水話單。他們可以基於同一份電話單，做出很多不一樣的變數。比如說用戶是否跟某某類的店打過電話？打電話的頻次怎麼樣？趨勢怎麼樣？

如果用戶經常跟貸款中介打電話，或者銀行催收中心打電話，那用戶應該相對比較缺錢，或者是曾經有過違約的歷史。

相反，如果用戶經常給花店打電話買花，說明用戶可能是個「好人」；如果經常給嬰兒店打電話，說明他可能有孩子，有孩子的話一般比較穩定、也靠譜一些。

他們會花非常多的時間去衍生這些變數，因為它更直接地反映了這個人的消費行為。當然，也有些時候，這些可能是無用功，有時甚至90%做出來的變數都沒有用，但試錯篩選出哪怕只有不到10%的可用變數，最終風控效果才是最重要的。

所以，總監覺得，做風控模型這事兒，一方面是個比較「藍領」的事兒，因為工作需要做得非常細緻。但另一方面，是做模型有時也比較「藝術」，因為這是一個比見仁見智的事情。

以上。

有興趣的小夥伴請讀全文：讀秒任然：大數據風控中，怎樣判斷你是不是一個「好人」？ - 知乎專欄

互聯網理財行業呆的時間不長，幾點拙見是我目前的看法，供參考。

目前的互聯網金融行業，所謂的大數據風控主要針對於網路借貸（P2P），這裡的P，指導意見明確提出是個體的意思，即包括個人和企業。

那麼，問題就演化成，面對個體和企業的借款需求，平台如何利用大數據做風控來減少壞賬率。

相對於前面幾位大神的觀點，我可能要提出更悲觀的觀點，中國的大數據風控在徵信系統還未全面建立起來之前，都是扯淡，在相對特定的封閉生態圈或群體，可能會存在相對穩健的大數據來做風控。

原因是多方面的：包括但不限於

1、徵信系統：a，建立時間晚；b，接入渠道少；c，數據本身就不怎麼完善可信

2、我國金融體系成熟程度：一個只發展極短的受嚴格管制的金融市場，還沒有足夠的數據積澱。

3、國人的基本信用觀念及素質低下。

那麼，現階段，網貸平台在做大數據風控時有哪些出路呢，我覺得有以下幾種：

1、根據特定的封閉領域的大數據做風控，但具有資金掌控權作底牌。比如

淘寶的電商貸：電商的應收賬款一般在支付寶要停留7天左右，若電商提出融資需求，可以根據電商的各項經營數據決定貸與不貸，貸多少，一般貸款額度不超過電商3天累計應收賬款。阿里的風控表面上是基於電商各項經營數據的判斷，實質是擁有對回款的實際掌握權，說白點，你不還錢，7天押在支付寶里的錢你就別想拿了。這種風控模式也只能在包括阿里、京東等大型電商平台的生態圈裡能夠鋪開了，但有複製性嗎，沒有。

2、特定的封閉領域的第三方做擔保。比如

江蘇的開鑫貸。開鑫貸擁有國開行和江蘇國資的雙重背景，融資對象僅限於江蘇省內精選的小貸公司推薦的優質借款人（或中小企業），由小貸公司為本息安全對付做擔保。平台實質是將風險全拋給了小貸公司，而小貸公司由於資本金的限制，也願意將債權轉讓給開鑫貸，輕資產運行。實質是小貸公司利用幾年積累的大數據來做信用輸出。這種風控模式只能夠有政府牽頭統籌各方資源與意願的情況下才會成功，開鑫貸的背景功不可沒，有複製性嗎，沒有。還有類似的是陸金所的穩盈安逸系列，借靠平安全牌照金融體系的大數據，平安旗下的擔保公司做擔保，沒有足夠的實力是複製不了的。

如果把前面幾種稱作硬風控，即能通過相關手段保證款項損失率接近於零。其實這算不上真正的大數據風控。

真正的大數據風控，體現的是風險定價，即10個借款人，1個壞帳，則平台從9個借款人中賺取的利潤必須覆蓋該壞帳。但這其實是個偽命題，如下：

平台利潤＝貸款利率－資金成本－運營成本－風控成本（包括壞帳及損失撥備）

平台利潤想提高，就必須增大貸款利率，但相對也意味著壞賬率更高，得不償失。而且政策層面也不鼓勵高利。運營成本在目前行業跑馬圈地的時期，根本下不來。風控成本與貸款利率有一定正相關性，而且平台為了提高安全性也不會降低。因此目前唯一可以降的只有資金成本了，2014-2015的網貸收益率下降見證了這一點。但資金是嗜血的。。所以最後就是各個變數間的博弈了，呵呵。

下面就是所謂的真正的大數據風控，屬於軟風控，體現的是風險定價的屬性，只要平台的利潤能覆蓋貸款損失，餘額儘可能多，就可以延續。

3、特定人群的大數據風控。比如

大學生消費貸，大學生相對於中國其它階層具有更好的信用及個人素質，較高的消費需求，因此，這部分市場競爭也較為激烈。平台會根據大學生的學校，學歷，網購頻率及金額，信用卡消費及還款情況，來決定其還款能力及還款意願。同時記錄其家庭住址，身份證號，手機號，父母姓名及聯繫方式，關係圈等信息，確保在極端情況下能通過告知父母，朋友等方式進行催收，但此種催收方式的合規性目前還有待商榷，畢竟侵犯了個人的聲譽及隱私。總體來說，特定人群的大數據風控，壞賬比率會相對降低，風險定價合理的話，平台會有一定的盈餘，有一定可複製性，但貸後還要依靠催收來解決，而且催收行業目前還沒有監管層面的認可及指導意見。類似的還有房屋裝修消費貸款，購房首付消費貸款，汽車消費貸款，旅遊消費貸款，甚至整容消費貸款等，都瞄準特定人群的產品，有一定經濟基礎，而且大多設計成分期付款，避免集中兌付的還款壓力。

當然，在前面幾種對於借款人的審核中，都會盡量多的要求借款人提交基本信息資料作參考，包括人行徵信報告，個體基本信息，消費信息，關係圈及聯繫方式等，這是基礎。

其它大數據風控歡迎補充。

講了這麼多，只是想給那些整天講大數據風控牛叉，萬能，能顛覆銀行的人清醒下，沒你想的那麼簡單，路還很長，別被表象迷惑了。

自己的一些思考，當做梳理知識了。

題主所說的是用大數據做風控。從演算法模型上來說，正如許多答主所講，這個大數據模型具體怎麼操作價值不菲，行外人無法輕易得到這麼機密的信息。因此我嘗試從風控理念出發回答這個問題。

大數據風控在金融業領域的提出，就不得不提到它與傳統風控模式的比較。

傳統信貸模式下：金融機構對客戶的資質評價多依賴於客戶提供的申請材料。

大數據風控最終希望達到的效果是：申請材料的簡化並不意味著金融機構不再需要更多信息，而是這些信息不再從申請人本人處獲取，而是從人們生活軌跡中發掘有信貸價值的數據，依此進行風險管理（正與互聯網產品追求用戶體驗的價值觀不謀而合）。數據的來源上面的答案寫得非常詳細，包括社交、徵信、消費、地理位置、行為等，不再贅述。

目前，大數據可以從以下幾個方面幫助互聯網金融的風控：

1、信貸准入：

在產品設計環節，將貸款申請人的互聯網數據作為重要的信貸准入標準，作為衡量還款能力和還款意願的重要輔助數據。比如，關聯的社交賬號必須有一定數量的好友，正常使用非死號。貸款發放機構還開始接入第三方徵信機構的互聯網信用數據（雖然還非常不成熟）。

2、產品定價：

根據貸款申請人的互聯網數據進行評分，分數更高的申請人將能夠申請更低利率或更高金額。

3、客戶群管理：

其實別說大數據，如果僅僅能做到客戶數據的系統整理和分析，就已經可以完成很多事情。傳統銀行的數據很多，但質量參差不齊，幾十年的數據儲存系統也不是說變就能變，不同資料庫之間的聯繫也很弱。但如果互聯網金融機構能夠利用大數據的優勢，描繪用戶畫像，清楚用戶的消費喜好和生活軌跡，就能推斷不同客戶群體的這些互聯網行為和最終還款行為的相關性，進行系統的客戶管理。

設想，如果能分析各群體客戶的違約率（貸款機構的風險成本）和群體願意接受的貸款金額和利率（貸款機構的收益），就能夠對整個機構的盈利有更好的把控能力。說到底，風控就是平衡風險成本和收益。

4、貸中及貸後的動態監測。

這是大數據風控相對於傳統風控的優勢之一。對於傳統風控模式下的貸中、貸後管理來說，對一筆貸款的追蹤和監測需要耗費很多人力，查看固定資產狀況啊，親自和貸款人定期溝通看是否有異常情況等等。但大數據的使用可以減少部分的成本。如比對貸款申請人的IP地址有無異常，通過互聯網交易數據監測貸款人的公司/店鋪是不是正常經營等，並且對不同類型的客戶使用不同的催收策略。

5、貸款用途控制。

隨著線上支付的完善，我們能在互聯網上買的東西，使用的服務越來越多。這也就意味著，每個這樣的服務/產品提供商都有潛力成為線上貸款的入口，而大數據就是背後的功臣。花唄就是一個很好的例子。

用傳統風控的角度來看，這種類型的貸款能夠很好的控制貸款用途（花唄的錢只能用來淘寶，不能用來炒股買房）

上述幾點並不是互相完全獨立的。正如我們發現大數據在互聯網時代貫穿貸款流程的前、中、後期，並為風控提供了新的思路。雖然目前很多互聯網金融模式其實根本還是線下模式搬到線上去做，審核貸款的方式和理念與傳統銀行無異（比如宜信）。但我還是非常期待幾個大玩家在這個方面的表現。

去掉概念包裝，最核心就一條：看你有沒有信用卡。

你兄弟姐妹、你朋友、你哥們找你借錢你會借嗎？借多少？借多久？互聯網能掌握比你更準確的數據嗎，那大數據能對個人放款起到作用嗎？融資不是玩感情，適當的有點用，說什麼顛覆性的模型就是然並卵。應該是基於特定邏輯下的輔助工具而已，適當提高效率，降低壞賬率是有點可能的。

回來填坑，相關：P2P審核→徵信產品經理→脫線。

這個回答想從借款人（風控對象）角度談一談大數據and風控。

1大數據

審題：所謂的大數據，實際上是有關借款人線上數據的集合。如果在線下年代，這些數據可能散落在縣官、親戚朋友之間，集市上，當鋪里等等。但是現在這個時代，那就可能存在各類網站的賬戶信息里。但是這裡有一個最重要的點，就是所有的這些數據一定是圍繞著借款人的，也就是風控對象，其他的數據，相對而言都是沒有任何意義的。

那這些數據又分哪些呢？

（1）官方或類官方數據

你說自己不網購、不訂外賣、不玩任何應用甚至連手機都是最原始那種，那是不是你是沒有大數據的？錯。

公安系統、法院、失信、工商、社保、學信等也都是有數據的。

儲蓄卡、信用卡、貸款等雖然你自己沒有往外披露，也還是在記錄著你的信息的。

官方數據目前有一個綜合評估信用情況的資料，就是信用報告，包含了你申請信用卡或貸款時填寫的個人信息、你的信用卡使用情況、貸款情況、刑罰記錄、固話欠費記錄等。

（2）個人賬戶數據

當然，你的儲蓄卡賬戶數據也是你自己的數據。

但這一類主要想說的是，由你自己私人行為產生的數據。比如你的購物數據、社交數據等，這些相關信息保存在你的京東或淘寶或微信QQ等各種平台上你的賬號里，平台有相關許可權的人可以直接拿到這部分數據，比如，各種根據你行為進行演算法計算後的興趣推薦等等。

（3）其他民間數據

你不常用的平台賬號發過的信息，或者別人發布過的包含你資料的信息，甚至各種新聞報道，你參加比賽的結果公示等等。

那為什麼叫大數據呢？因為通過某些關聯點可以把所有這些數據關聯聚集到風控對象下。姓名、身份證號碼、手機號碼、工作居住地址等，身份證號碼、手機號碼是重要的點，你的銀行卡是不是都有預留手機號？你APP的賬號是不是都是手機註冊的？你支付是不是經常用支付寶而支付寶又實名認證了？等等。理論上講，只要有關聯點，數據就已經關聯起來，只剩拿不拿得到的問題而已。至於大數據的專業分析，在此不討論。

2風控

審題：對於借款人來講，相關機構想做的風控是哪些方面的呢？風控，直白解釋就是風險控制，假如我們把錢放出去，會有哪些風險呢？這個人講的事情是不是騙我的？這類事情我是不是該借錢？借給他能不能還得起？

這樣大致就分出了風控類型。

（1）反欺詐

你提供給借款機構的資料是不是真實的？你的身份證照片、流水、工作證明是不是假的？你聯繫人是不是詐騙為生的？你是不是詐騙集團包裝的客戶？

（2）還款意願

你是不是信用卡老是逾期？你同學朋友是不是說你欠了錢？你的房租是不是老是欠著後面才交？

（3）還款能力

關於還款能力主要包含：收入、支出、資產、負債。你每月的工資？你的消費數據？你房產、車產等？你的信用卡、貸款等。

（4）其他風險點

你從事的是不是高危行業或者詐騙事件常發區？你所在公司是不是剛剛報道了巨額虧損面臨倒閉？你是不是有一些不良嗜好比如濫賭？你近期是不是賣車賣方永久出國？你是不是其他同類公司都不想貸而丟過來的劣質客戶？你是不是父母手術急需高額手術費（有點無情但真的不會貸給你）？你在其他民間借款機構是不是也有借款並且逾期嚴重？你借錢是不是為了還以前的貸款？

所謂風控，就是控制所有可能導致你不還錢的風險點，你的資料是假的不行，你的資料有隱瞞不好，你的資料真實但是不夠標準不好，你還款習慣不好不行，你當下有巨大財務危機不行，等等。

那最後了，怎麼用大數據做風控呢？首先，先要有數據，然後自然是把風控相關點用大數據方式篩出來。然而，我們肯定不會在網上留下所有信息，所以，傳統的風控方式實地也好電話也好等等都還是有用的，不要太迷信。

——————————————————華麗麗的分割線——————————————————

占坑，十個贊了就答~

以下對大數據風控進行一個簡要抽象概括，希望有所幫助：

風控三大核心：反欺詐、還款意願、還款能力

大數據：以API介面、網路爬蟲、批量購買、設備抓取、用戶提交等形式獲得的數據

使用大數據解決風控問題就是：

通過以API介面、網路爬蟲、批量購買、設備抓取、用戶提交等形式抓取數據判斷用戶是否欺詐以及他的還款意願和還款能力

實現方法：決策引擎、決策樹、邏輯回歸等

舉例：

用戶入場數據抓取

設備信息抓取 &>&>&> 第三方API介面驗證設備黑名單、IMEI信息----a

通訊錄抓取 &>&>&> 決策引擎(通訊錄個數、通訊錄異常字元、通訊錄號碼異常識別)----b

用戶身份信息驗證 &>&>&> 身份API公安介面認證、學信網認證、照片人臉識別、銀行卡驗證----c

用戶行為數據 &>&>&> 填寫時間、修改次數、跳出次數、分享情況----d

用戶運營商數據 &>&>&> 爬取用戶六個月通話記錄----e

用戶電商數據 &>&>&> 爬取用戶歷史至今電商交易數據----f

......----g

數據清洗

（略）

數據建模

反欺詐：對a.b.c獲取的數據進行Y/N判斷，命中則拒絕

還款意願、還款能力：d.e.f.g獲取數據進行Logistic建模OR決策樹建模

模型驗證

（略）

模型開發

（略）

模型投產

（略）

以上！

具體大數據風控的方法論不細說，談談個人對大數據風控的理解：

提一個問題：數據資源是稀缺的么？

答案：只看當下，則數據資源必然是稀缺的，但長遠看時過剩的。為什麼這麼說？

當前數據資源稀缺的原因：

擁有成體量的有價值的數據信息的公司很少（BAT等寥寥幾家）
數據孤島：各家擁有優質數據資源的公司組建了牢不可破的數據封閉體系，並不能很好的互通。
數據變現的模式還不成熟，玩法剛剛建立。（金融領域風控模型對數據的應用算是比較領先的）
數據整合模式不成熟，缺乏大的平台型數據公司。造成有價值的數據過於分散，接入成本高。（徵信公司的出現有希望改善目前的情況）
由於第3，4點，造成的部分擁有優質數據的小公司，並不能高效的利用自己的數據資源來獲利，缺乏共享的動力。
很多小公司即使自己不能很好的利用數據，但都意識到了數據是寶貴的資產，不會輕易給出。部分小公司也開始學習大公司，開始了整合各方數據為己用。

綜合以上幾點，我們可以發現目前的行業現狀是：

幾家大公司獨自吃著自己鍋里的，同時提防著別家來搶。有的大公司看到小公司碗里的肉不錯，說要和小公司合作，但模式尚不能說很完善，有可能最後兩個人都吃不到（數據的價值不能通過合作而變現，或合作成本過高）。部分數據平台開始張羅場子，要搞共享，多贏，標準化，暫時還沒看到結果。

那為何又說數據長遠看是過剩的呢？

舉一例，如果依靠數據，各家公司如何判斷一個人是孕婦？

百度可以通過某個賬號經常搜索的關鍵詞來判斷（例如生孩子疼不疼？）
阿里可以通過某個賬號的年齡，性別，消費信息，商品點擊來判斷（是否點擊查看過母嬰類產品，但沒購買，是否購買過孕婦類產品，結婚幾年？）
騰訊可以通過微信里的聊天記錄判斷（加了哪些群？討論哪些話題？朋友圈分享了哪些內容）
小米可以通過其在手機里安裝的哪些APP來判斷（例如母嬰類app）

我們可以看出：未來時代的數據無處不在，證明一個事實可以有很多種辦法，各家均各顯神通，並不存在唯一的，壟斷性的數據壁壘。以往的大公司的數據神話就會破滅。

最終的格局：YY一下，可能是某幾家大型的數據公司，分領域壟斷了整個國內的數據市場。數據本身成為了標準化的商品，可以被低成本的接入，銷售，使用。以芝麻信用為例，依託於阿里體系內的數據位基礎，輸出芝麻信用分。同時以標準化的方式接入各類數據，最終再以某種商業化的方式做輸出（不只芝麻分一個維度哦），成為徵信市場數據的入口和出口。

大數據風控即大數據風險控制，是指通過運用大數據構建模型的方法對借款人進行風險控制和風險提示。

互聯網金融大數據的採取渠道主要是通過對流量較大的平台以及同類大平台上的數據進行挖掘，並建立信用評級發放金融產品，其次便是一些互聯網金融公司主動將數據貢獻給第三方徵信機構，再對這些徵信數據進行分享，不過值得注意的是，這只是一部分的數據，並不是每家企業都願意將數據無條件風險的。

大數據風控利用數據分析和模型進行風險評估，依據評估分數，預測還款人的還款能力、還款意願、以及欺詐風險，能夠有效的減少投資人的投資風險，在一定程度上有利於保護投資人的資金安全。

在P2P風險控制層面，在P2P企業中談及風控，大家都會不約而同地說用大數據來做風控，但再去細問，大多數都是語焉不詳，這既有商業機密的考量，但更重要的原因是大數據挖掘的能力不足大致的，大數據真正的技術含量和價值體現在提取和利用上，而不在於對數據的佔有。

目前國內的數據大多處於獨立孤島，很難形成由共享而成的數據鏈和數據網，而這恰恰是大數據風控所需要的。

由於互聯網金融涉及貨幣發行（比特幣）、第三方支付、投資理財（網路銀行、保險、基金、證券、財富管理）、信貸（P2P、眾籌、網路微貸）、徵信等等，各個領域的風控策略並不盡相同，不能一概而論，下面討論只能涵蓋了常見的風控策略。

個人認為「大數據」除了強調數據的海量外，更重要的在於用於風控的歷史數據的廣度和深度，其中：

數據的廣度：指用於風控的數據源多樣化，任何互聯網金融企業並不能指望依據單一的海量數據就解決風控問題，正如在傳統金融風控中強調的「交叉驗證」的原則一樣，應當通過多樣化的數據來交叉驗證風險模型。以下的風控策略也如此，可能對同一風險事件採用了多種策略。

數據的深度：指用於風控的數據應當基於某個垂直領域真實業務場景及過程完整記錄，從而保證數據能夠還原真實的業務過程邏輯。

一個關於數據深度典型的反例：第三方支付貌似有豐富的真實交易記錄，但由於大部分場景下無法獲取交易商品的詳細信息及用戶身份，在用於風控時候價值大打折扣。

回到題主的話題：互聯網金融產品如何利用大數據做風控。大致有如下一些常見方法：

1、基於某類特定目標人群、特定行業、商圈等做風控

由於針對特定人員、行業、商圈等垂直目標做深耕，較為容易建立對應的風險點及風控策略。

例如：

針對大學生的消費貸，主要針對大學生人群的特徵

針對農業機具行業的融資擔保。

針對批發市場商圈的信貸。

2、基於自有平台身份數據、歷史交易數據、支付數據、信用數據、行為數據、黑名單/白名單等數據做風控

身份數據：實名認證信息（姓名、身份證號、手機號、銀行卡、單位、職位）、行業、家庭住址、單位地址、關係圈等等。

交易數據/支付數據：例如B2C/B2B/C2C電商平台的交易數據，P2P平台的借款、投資的交易數據等。

信用數據：例如P2P平台借款、還款等行為累積形成的信用數據，電商平台根據交易行為形成的信用數據及信用分（京東白條、支付寶花唄），SNS平台的信用數據。

行為數據：例如電商的購買行為、互動行為、實名認證行為（例如類似新浪微博單位認證及好友認證）、修改資料（例如修改家庭及單位住址，通過更換頻率來確認職業穩定性）。

黑名單/白名單：信用卡黑名單、賬戶白名單等。

3、基於第三方平台服務及數據做風控

互聯網徵信平台（非人行徵信）、行業聯盟共享數據（例如小貸聯盟、P2P聯盟） FICO服務

Retail Decisions(ReD)、Maxmind服務

IP地址庫、代理伺服器、盜卡/偽卡資料庫、惡意網址庫等

輿情監控及趨勢、口碑服務。諸如宏觀政策、行業趨勢及個體案例的分析等等

4、基於傳統行業數據做風控

人行徵信、工商、稅務、房管、法院、公安、金融機構、車管所、電信、公共事業（水電煤）等傳統行業數據。

5、線下實地盡職調查數據

包括自建風控團隊做線下盡職調查模式以及與小貸公司、典當、第三方信用管理公司等傳統線下企業合作做風控的模式。

雖然貌似與大數據無關，但線下風控數據也是大數據風控的重要數據來源和手段。

風控的核心是要準確預測每一筆借款違約概率。顯而易見，這需要量化的工具，也就是模型。假設x代表與借款人相關的各類數據，y代表是否違約（1=違約，0=未違約），則我們需要找到一個函數f，使得f(x)=y。我們先介紹一下x，y，f在國外的情況。以美國為例。

x ，y：在美國，人們一般在上大學的時候就會擁有人生中第一張信用卡。這樣等到後續買房（房貸）買車（車貸）的時候，就已有了不短的信用歷史了。美國有3家徵信公司（Equifax，Experian，TransUnion）。基本上所有銀行，貸款，金融機構都會上傳信用數據給這3家公司，包括借款，還款，逾期等數據。徵信公司會對原始數據做清洗和處理，進而產品化和商業化這些數據。這些提供數據的公司同時也是數據的使用方。任何公司都可以買到脫敏的具體到個人的信用歷史數據，用作分析和建模。由於徵信公司能夠以處理完的欄位形式輸出數據，在美國，x一般是小而精的。小是指一般一個人的徵信數據實際大小不大。精是指這類借款、還款、違約的歷史數據，對於風控建模來說，會是最有用的一塊數據，因為歷史借貸信息實打實地反映了一個人的信用情況。

f：如果有了非常新鮮的魚，簡單地蒸一下就會非常美味。同樣的道理，由於大多數美國人已經有了足夠的信用歷史數據，通過這些數據來預測一個人未來的違約概率，這裡所用到的模型也不用很複雜。一般情況下，簡單的決策樹和一些回歸類的模型已經能夠解決90%以上的問題。非常有意思的是，類似FICO這樣的公司的商業模式就是提供生成f的能力，也就是基於3家徵信公司提供的數據，提供一個比較標準化的信用分給銀行和金融機構。

如上所述，美國的徵信體系包括了數據提供方（同時也是使用方），數據整理存儲方（3家徵信公司），和提供數據分析解決方案的第三方（例如FICO）。整套體系經過幾十年的演變進化，已經成為了一個生態。

我們所說的"大數據"並非指絕對的樣本量的巨大，而是把常規的信貸徵信數據以外的信息統一稱為"大數據"。目前看來，由於美國的徵信生態體系已經比較完善，其它非信貸類數據在風控建模里的應用實際上比較有限，在大多數情況下錦上添花多過雪中送炭。例如美國最大的P2P公司LendingClub早年曾經嘗試只基於Facebook的社交數據來決定是否放貸。試了一段時間發現不行後，還是回到了徵信數據為主，其它數據為輔的體系。目前LendingClub只考慮給FICO信用分640分以上的借款人放貸。

在美國，相比全面替代基於傳統徵信數據的風控模型，大數據能夠起到的作用可能更多的會在某個特定用戶群體上的性能優化。例如，我們發現FICO分在580-600分這個區間的用戶的逾期率是15%。這是比較高的風險，大多數銀行和貸款公司是不做這個群體的，因為需要覆蓋這麼高的風險所需要的利率可能高於他們的業務允許範圍了。然而，15%的人違約的反面是85%的人還是會還錢的。如果能夠通過技術手段利用一些徵信數據以外的數據，來提高這個群體里好人vs老賴的識別度，從平均15%違約率的群體里把相對比較好的借款人（比如違約率是5%）挑選出來，則這個群體瞬間就可以做了。已經有一些公司看到了這樣的機會，也已經開始利用大數據建模做這類銀行服務不到的客群了，比如最近比較火的ZestFinance。

記得我們前面所說的，風控的核心就是能夠產生一個f(x)，用來量化違約概率。理想情況下，最好f(x)=y。這裡就有一個雞和蛋的問題。沒有足夠的y就做不了分析，所以除了一些很明顯的信息外，我們是不知道什麼樣的x對於預測y會有幫助，也就是說在沒有足夠樣本之前是很難確定該收集哪些數據的。反過來，如果有y的樣本夠了，但一開始就沒有意識到應該存哪些x，這些樣本的意義也會很有限。這個問題在那些幾乎沒有信貸記錄的白戶客群上尤其嚴重。最終的解決方法只有不停地做測試，收集x和y，迭代x。相對於資金成本，時間成本更大。例如下圖所示，用戶在網頁上填身份證的耗時實際上與這個人的風險是相關的。很快的人很有可能是直接複製粘貼。而填的很慢的人很有可能是記不住自己的身份證號。這兩種情況下，欺詐的可能性都會高一些。

目前國內的雲圖徵信是專門做大數據風控這一塊兒的，但他們對接的主要是銀行和供應鏈中的核心企業 http://www.yuntucredit.com

　1、基於某類特定目標人群、特定行業、商圈等做風控。由於針對特定人員、行業、商圈等垂直目標做深耕，較為容易建對應的風險點及風控策略。 2、基於自有平台身份數據、歷史交易數據、支付數據、信用數據、行為數據、黑名單/白名單等數據做風控。　3、基於第三方平台服務及數據做風控互聯網徵信平台（非人行徵信）、行業聯盟共享數據（例如小貸聯盟、P2P聯盟） FICO服務、Retail Decisions(ReD)、Maxmind服務。 4、基於傳統行業數據做風控人行徵信、工商、稅務、房管、法院、公安、金融機構、車管所、電信、公共事業（水電煤）等傳統行業數據。　5、線下實地盡職調查數據包括自建風控團隊做線下盡職調查模式以及與小貸公司、典當、第三方信用管理公司等傳統線下企業合作做風控的模式。線下風控數據也是大數據風控的重要數據來源和手段。

說句實話，其實沒辦法，現階段做不到，大數據與風險這種東西在目前金融系統下其實有著決定性的缺陷，再怎麼做也是沒辦法的

基於線下多年的數據，其實是可以改造fico決策引擎的，用於國內也有一段時間了，真正的作用於分析，並用擬合的演算法得出一定的參量，這套模型目前已經成功在生產環境內運作，雖然決策的變數各有不同，但設計模型的思路基本都是一致的，阿里小貸在用，芝麻評分在用，閃銀在用，量化派在用，51信用卡在用，宜人貸極速借款也在用，各家都有擅長和偏重的數據愛好。

阿里的aliyun引擎，51信用的tdms引擎，宜信的shadow引擎，不都工作的挺好的嗎，但你要問我具體怎麼設計，這至少值300萬，我為什麼要告訴你。

怕被老大看到，匿了

互聯網金融的本質其實還是金融，風險控制是金融的命脈。我覺得互聯網金融平台對融資企業的風險控制呈現多樣化，可以舉幾個例子：

1、通過更多的大數據，降低風險。比如京東和阿里，他們掌握網貸公司的所有在線銷售數據和線上的商店的生殺大權。企業的違約成本會很高，又有大數據做支撐所以這兩家的風控會比較好。

2、通過更多獨家數據來降低風險。江蘇有家P2B網貸平台叫開鑫貸（和當地的小貸公司合作），主要是信息撮合，由於開鑫貸是國有背景，之前小貸公司的財務系統就是他們開發的。這樣一個優勢再加上有國開行的背景，現在很受歡迎。

3、通過大數據的挖掘和分析降低風險。比如人人貸，有利網。這兩家也是積極倡議央行開放個人的徵信系統的兩家公司。主要是挖掘獨立第三方信息，降低違約風險。

由於互聯網金融是普惠金融，如果平台不掌握貸款人全面的數據來做決策使得壞賬風險一定會上升。互聯網金融企業還是根據自己的優勢來選好方向把控風險,我覺得這是很有必要的。目前出現了如神州融一類做大數據風控的平台，神州融做大數據風控的模式就是通過大數據整合，全面挖掘出相關信息，作風控。大數據風控無非就是數據全面挖掘，來進行可靠決策，以此降低風險。