大數據風控用了什麼模型?有效性如何?
風控具體指的是什麼?
風控中得數據、特徵、演算法分別有哪些?具體的風控應用案例有哪些?風控的評估效果如何?風控過程中得注意點?本題已加入知乎圓桌 ?金融科技浪潮 ,更多「金融科技」話題討論歡迎關注
目前貸款的風控因為每一個樣本的收集都需要放款來收集,想想每人放一萬,一個億也就只能放1萬人,所以樣本量不會太大。所以所謂大數據風控主要是大在特徵的數據上。很多時候是用了很多傳統上不怎麼敢用的特徵。比如傳統風控比較害怕missing value 比較害怕不穩定的特徵 這些都是大數據風控需要解決的。
說到模型,既然是特徵多,樣本少,那就需要一個非常抗過擬合的模型。另外如果是單獨針對反欺詐而不是信用,因為問題比較非線性,所以需要一個有非線性能力的模型。滿足這兩者要求的都可以。
當然上面說到的只是針對預測貸款用戶好壞的二分類問題,至於很多風控領域的其他問題,就有不同的解決方案了。
說到有效性。據我所知目前市場上有一些非常小額短期的產品已經可以完全按照一個模型放款並盈利了。完全不需要人參與。這類產品通過小額解決了樣本少的問題。通過短期解決了收集label慢的問題。所以還不太容易推廣到大額長期產品上去。我理解,目前大數據風控主要分為三類:
- 反欺詐模型
- 二元好壞模型
- 資產包風控模型
一、反欺詐模型
大數據風控只能用於小微資產(現金貸、消費貸、小微企業貸),而不可能用於基建、政信。對於小微資產,還款能力不是核心問題,主要風險是還款意願。因此目前市面上大數據風控90%的價值在於反欺詐。
反欺詐的大數據風控主要基於兩套工具:交叉驗證、聚類分析。
交叉驗證主要是由人工判斷規則,系統校驗是否符合實際情況。如通訊錄和通話記錄校驗、電商記錄校驗、設備指紋校驗、多信息源地理位置校驗。以現金貸產品為例,大多數現金貸產品的基礎風控邏輯就是兩個攝像頭,後攝像頭識別身份證,前攝像頭做人臉的活體識別,人臉對上身份證,就做好了反欺詐,之後就扔到二元好壞模型做評估。
聚類分析和交叉驗證的區別是,交叉驗證很多時候根據一些人工的規則,但是聚類分析主要是根據結果反向推導。比如通過歷史資產的履約情況,發現在19-25歲區間的人群風險較低、發現輸入地址時間比較長的人群風險較高、發現填寫收入在30000以上的風險比3000以下還高。有的規則最後可以通過邏輯解釋,有的規則最後根本也無法理解為什麼。但是如果一個新的進件,和之前的「壞客戶」比較相似,那麼他大概率是壞客戶。
以同盾為例,主要向資產、資金、支付、場景四方輸出反欺詐SaaS,提供:
- 交叉驗證工具
- 聚類分析報告
- 黑(灰)名單資料庫
二、二元好壞模型
二元好壞模型的核心價值是量化定價,包括授信額度、貸款期限、利率等。主要工具就是評分卡,先給用戶信用評分定級,然後不同級別不同利率。宜人貸分為ABCD類客戶,利率分別為17%、27%、34%、40%;Lending Club分為從A1-G5共35個級別,利率水平從6%到26%不等。(16年初數據)
至於貸款額度,一般隨行就市。
- 個人現金貸:小額現金貸以隨行就市為基礎,通過拍腦袋決定,在1000-5000不等。
- 個人消費貸:由於中國居民槓桿率較低,基本上3C、醫美、教育的資金需求都低於客戶授信額,因此直接使用交易金額就行。對於車貸行業,一般也是簡單分檔,30萬以上車審核較嚴,10萬以下車分36期,客戶還款壓力也不大。
- 小微企業貸:目前大數據應用不多,主要因為小微企業造假動力強,基礎數據都難以確保真實性。目前小微企業還是以抵押貸款、法人貸款、供應鏈融資為主,信用貸主要還是依靠IPC方式通過線下業務員重製報表實現。電商類企業的風控模型基本上是根據流水的比例來。
三、資產包風控模型
上述都是基於單筆資產的方法論,但是從資產包層面的風控有不同的考慮。
假設還款是1,逾期是0,不同的客戶有不同的表現:
- A:1111111111
- B:0000000000
- C:0011011101
A是好人,B是壞人,這兩個問題沒有異議。很多時候,基於前兩種模型我們會認為C是壞人,但是從資產包層面,他提供了不菲的罰息收益。
此外,資產包的風控還要考慮不同資產的相關性,考慮優先劣後配比後的預期風險改變,考慮流動性的風險。
四、目前的市場格局和問題
第一個問題,長尾徵信公司的價值。
放貸市場是碎片化的,但是徵信服務提供商有規模效應,應當是集中的。也就是百融同盾兩家爭天下,芝麻信用、騰訊信用作為兩個資料庫對外輸出和輸入數據。
我搞不懂,在one or zero的市場環境下,為什麼現在冒出那麼多小的徵信公司,還拿到融資,商業價值在哪裡?尤其是像某些單一數據源的徵信公司,我感覺被收購的價值都沒有,大公司不如坐等你死然後收編團隊?這個問題我沒有答案,向各位專家請教。
第二個問題,過擬合問題。
信貸是周期性的,大周期小周期一堆。科技也是有周期性的,學生貸火起來,所有公司干學生貸,2年吃完整個市場,其他任何資產都面臨創業公司蜂擁而上的局面。
數據量有限的情況下,模型可能過度地學習訓練數據中的細節和噪音,以至於模型在新的數據上表現很差,這意味著訓練數據中的噪音或者隨機波動也被當做概念被模型學習了。而這件事,在市場環境發生變化之前可能沒有任何人知道。
第三個問題,系統性風險。
目前大數據風控應用最廣的是小額現金貸,因為他的數據反饋快(30天一反饋),因此比較容易做機器學習。市場上所有現金貸看下來,壞賬率約為4-8%,都是一開始8%或者更高,通過機器學習降低到4%左右。但這個數據其實意義不大,依然無法反駁復貸的擔憂:現金貸的借款人重複借款,本質上每個借款人都成為一個小的龐氏騙局池。就像當初和泛亞一起玩的經紀公司都盈利,但是最後還是免不了崩盤,過度相信科技和數據也許是金融領域更大的風險。
利益相關:沒服務過徵信相關項目,完全技術白痴,僅代表個人觀點。
由於題主提出的問題圍繞著風控模型,而討論模型必定和實際的應用場景和數據源相關,因此就前四個問題一併回答。
首先金融科技公司大致分為三類,基於線上垂直領域(教育、醫療、電商)、基於特定客群(學生、藍領、白領)、基於線下場景(車貸、租房)。不同公司在數據維度、授信客群、產品上都有較大區別。基本而言,風險主要集中於信用風險及欺詐風險。
在此簡單介紹下消費信貸產品在貸款各個環節風控主要模型對兩類風險的把控。
一、模型在信用風險的用途:
1.授信准入階段
首先是授信准入階段,此階段最重要的模型是進件評分卡模型,數據來源主要分為申請信息、歷史消費信息、外部信息(例如多投借貸、公積金等)。常用模型包含LR、Xgboost、FFM等。不同模型的選取由是否需要在線更新、可解釋性、線上部署環境等多種因素決定。LR的研究非常成熟,有完整的工業分散式解決方案和在線增量學習的理論基礎,包括各種帶正則項的變種,是非常理想的建模方法,很多時候它還會作為基準型,用於評價複雜模型的提升效果。
一般的線性模型會遇到兩個問題:
一是非線性特徵的學習,比如年齡。一般使用的方法是進行變數離散化,把年齡分成不同的段或者使用稀疏編碼或者自編碼等演算法對品類或者其他信息進行重構。
二是交互影響,例如收入特徵和年齡特徵的交叉。高收入的中年人是乾爹和乾媽,高收入的年輕人是高富帥和白富美,兩者的特點完全不一樣。所以我們也會使用Xgboost等模型加工非線性特徵,或使用FM/FFM類演算法學習交叉特徵,以此提升模型擬合能力。
此外在這個環節需要注意的是,由於很多公司的數據維度是有限的,分數低的用戶並不一定是逾期風險較高的,而可能僅僅是留下數據較少的用戶,隨著業務的逐步擴張,怎麼再去找更多的維度或者在原有數據維度上構建更細膩度的特徵來刻畫之前無法覆蓋的用戶群體是關鍵。
其次由於黑產的猖獗,時刻需要提防刷分、養號的用戶,最好的解決方式是通過分析異常群體的行為,構建有區分度的特徵或者引入更多數據維度使得可以更加細膩的刻畫正常用戶的行為,最後還需要結合產品去完善模型。
業務擴張的時候,客群的分布可能發生較大變化,引起的概念漂移也是值得關注的。
2.用戶生命周期階段
當用戶准入後需要進行用戶生命周期管理,常用到模型是行為評分卡。
和准入階段不一樣,在這個階段,用戶由於大多已經有過至少一次的還款行為,因此可以在數據維度加入借貸數據。
除此之外,需要考慮如何調整額度和息費,保證優質的用戶得到更低的息費和更高的額度,而數據表現較差的用戶需要用更高的息費來覆蓋風險。
但不顧風險的一味最求高收益和不求收益的低風險都是沒有意義的。定價模型的重點在於對用戶需求和風險的合理預估,調整各個用戶群體的息費和額度檔次。實則可以看成對資金在不同風險回報的分配,使得在一定的風險下,總體風險收益最大化,技術上會涉及很多帶約束的優化問題。
3.催收階段
最後一個階段,一小部分用戶會逾期進入催收階段。
這個時期重點是失聯修復和催收評分卡,即刻畫用戶經過一定的催收動作後還款的可能性。
失聯修復很好理解,就是通過各種社交數據,建立起關係網路找出與欠款人可能相關的人或者欠款人的其他聯繫方式。而催收評分卡需要使用到催收數據,催收數據大多是文本音頻類型文件備份,因此對這種非結構類型數據的挖掘是這個階段的核心。
催收的時機,是催收成功最重要的因素。由於催收資源有限,我們需要按照一定的分配規則來分配催收資源。在逾期的較早時期,應該將更多的資源放在較難催收的用戶上,而其他的用戶可能由於是忘記還款或者其他的非惡意拖欠原因沒有還錢,可能給予一段時間會自我救贖;而在催收晚期,則需要放置更多催收資源在能夠催回的用戶上,盡最大可能降低損失。
二、模型在反欺詐風險方面的用途:
除了上述的信用風險,還有一塊較大的職責就是欺詐風險。
現階段,業界更多關注的是有組織參與的中介欺詐,常見的如批註、盜號、薅羊毛、養號、套現等諸多行為的識別。由於是團伙作案,更多是基於社交網路的社團發現演算法來對中介的識別,或者是利用套現中的地址集中性相似性等特點來識別中介,或使用時間序列演算法來分析用戶的歷史行為軌跡,手機感測器信息等生物指紋數據來核實身份。
欺詐風險的難點有別於信用風險,在較多場景下很難定義好壞用戶。因此關鍵在於標籤的獲得。通常需要同案件調查人員配合,因為他們能夠準確定義欺詐,同時能夠還原犯罪手法,針對於模型Y變數定義,X變數設計都很有幫助。
其次,由於對抗性強,因此如何檢測未發現的欺詐模式和模型的更新速度更加關鍵。目前這一塊工作業界發展都比較滯後。
最後,授信客群的變化或者欺詐團伙作案手法的變化導致原有模型可能失效,加上風險的滯後性,最新可用的訓練數據可能已經離目前較遠,如何從最新的數據獲取模式與舊的數據模式的遺忘是難點。
三、補充
最後,補充如下幾點模型評測的注意事項:
1. 由於線下訓練環境和線上真實用戶群體存在差異,模型的泛化能力很重要,需要確保模型學習到的是有區分度的模式而不是數據中的噪音。
2. 線下使用評測指標主要是刻畫準確度與區分度的ks、auc、洛倫茲曲線和Lift曲線等和模型穩定性指標psi。
3. 客群逾期率的高低和公司產品的形態有重要關係,短期提升可以通過反欺詐技術得到改善、而中長期需要依託信用風險模型、但最終還得看產品的授信客群,面向不同客群的風控模型的指標對比試沒有意義的。
感謝風險管理-決策智能部提供回答。
結合平時的工作經驗回答下,大數據風控一般來講有如下幾個特徵:
1.高對抗性現在黑產非常龐大,刷單、薅羊毛、密碼爆破、掃號、發帖機、灌水等等時時刻刻都在發生,無時無刻不在攻防。2.靈活性攻擊者不斷變化特徵和行為,風控策略每天都需要更新,必須要保證風控策略的靈活性。3.準確性
風控策略首先需要保證準確性,在保證準確性的同時再去提高召回率,準確性太低肯定會引起大量用戶投訴。大數據風控對模型的挑戰:
1.模型的泛化能力我們平時上線的一些模型,上線時可能效果非常好,但是上線後命中量基本是直線下降狀態,一周後命中量可能降到接近零。不得不佩服黑產的強大,比較簡單的模型意義不大,幾天甚至幾個小時就可以嘗試出來並規避。我們知道複雜的特徵和模型可以增強模型的泛化能力,採用複雜特徵和更多維度的特徵是很有效的。2.模型的可解釋性風控模型識別出來的數據需要做相應的處理,任何機器識別處理都不可能完全避免用戶的投訴和異義,對於模型一定要了解業務特徵,能夠轉化為客服和用戶可以理解的語言去解釋,使得任何處理我們都有理有據。3.模型的更新速度高對抗性場景下,模型快速更新是關鍵使用的模型:
1.聚類: 比如常見的相似文本聚類,大量用戶發相似帖子是常見的灌水行為,需要處理。2.分類:比如我們根據已經識別的有風險和無風險的行為,去預測現在正在發生的行為,根據關鍵字動態去識別預測效果不錯。3.離群點檢測:比如登錄行為,當同ip登錄大量登錄失敗,這種行為可能是暴力破解,當同ip登錄基本全部成功,這種行為可能是機器登錄,採用離群點檢測發現這兩類行為並處理。4.深度學習:廣告圖像識別,黃色圖像識別等具體模型和技術:我們主要使用了kmeans,dbscan,隨機森林,c4.5決策樹,logistic regression,cart,adaboost,svm,em,深度學習等模型。數據和特徵比模型更重要,數據和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。使用的框架有spark,storm,hadoop,caffe,libsvm,scikit-learn等更新一下有效性指標中的區分能力指標:
KS(Kolmogorov-Smirnov):KS用於模型風險區分能力進行評估,指標衡量的是好壞樣本累計分部之間的差值。好壞樣本累計差異越大,KS指標越大,那麼模型的風險區分能力越強。
KS的計算步驟如下:
1. 計算每個評分區間的好壞賬戶數。
2. 計算每個評分區間的累計好賬戶數佔總好賬戶數比率(good%)和累計壞賬戶數佔總壞賬戶數比率(bad%)。
3. 計算每個評分區間累計壞賬戶佔比與累計好賬戶佔比差的絕對值(累計good%-累計bad%),然後對這些絕對值取最大值即得此評分卡的K-S值。
·GINI係數:也是用於模型風險區分能力進行評估。GINI統計值衡量壞賬戶數在好賬戶數上的的累積分布與隨機分布曲線之間的面積,好賬戶與壞賬戶分布之間的差異越大,GINI指標越高,表明模型的風險區分能力越強。
GINI係數的計算步驟如下:
1. 計算每個評分區間的好壞賬戶數。
2. 計算每個評分區間的累計好賬戶數佔總好賬戶數比率(累計good%)和累計壞賬戶數佔總壞賬戶數比率(累計bad%)。
3. 按照累計好賬戶佔比和累計壞賬戶佔比得出下圖所示曲線ADC。
4. 計算出圖中陰影部分面積,陰影面積占直角三角形ABC面積的百分比,即為GINI係數。
以下是原文
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
樓主範圍太廣。不同的行業有不同的風控目標,不同的風控過程和程度,也有不同的風控結果。其次同一行業風險也分多種風險,對不同的風險(信用風險,操作風險,市場風險)也有不同的應對辦法以及模型建設。
只講一講中國金融行業中的銀行的信用風控與大數據的淵源。
1,風控意義與大數據建模分析優點:
中國的金融行業必定在金融全球化的洗禮下一步步找到更大市場,相比中國製造業有成長更快的趨勢。而此刻,風控就顯得尤為重要。都知道收益越大風險越大,當然而我們更想的如果是在中間找到一個平衡點讓收益大的情況下擁有儘可能小的風險。而大數據建模就可以儘可能實現這點:提高審批效率,降低人工成本,減少因非客觀判斷原因造成的失誤的風險。
2,大數據建模目標。第一點目標做信貸工廠的量化建設:清洗銀行歷史數據用於數據建模形成評分卡,再與規則結合對貸款生命周期三個階段(申請貸後催收)的好壞客戶提供決策建議的預測框架(自動通過,人工審核,審慎審核,還是建議拒絕)。
第二點目標內評合規:背景是巴塞爾協議:衡量銀行的資本充足率和資本準備是符合巴塞爾協議的規定,如果不符合應該採取什麼樣的措施。
3,關於建模:前:建模的變數以及數據都是通過層層原始分析,挖掘分析,變數分組,變數降維,過度擬合VIF檢測,以及業務邏輯選擇出來的。中:而模型的建設本來有方差分析,相關性分析,邏輯回歸,決策樹,神經網路分析這幾種。但是由於Y變數都一般為非線性所以基本都用LOGISTIC邏輯回歸。後:模型建好後還需要用PSI檢驗模型客群的穩定性,用KS或者GINI函數檢驗模型的區分能力。(公式我就不給啦~感興趣的孩子肯定有自己學習的方式)如果不太理想就再改進,這是一個做循環的閉環式過程直到選到最佳的。(PS:建模工具:SAS,
由於可以處理相當龐大的數據且在美國極其權威的認證而著稱的。別的我就不評價了嘿)
4,好的信用風控的評估效果一主要從準確性,穩定性,可解釋性三個方面來評估模型。其中準確性指標包括感受性曲線下面積(ROC_AUC)和區分度指標(Kolmogorov-Smirnov,KS),穩定性指標主要參考群體穩定指數(Population Shift Index,PSI)。可解釋性可通過指標重要度來進行評估,其中指標重要度用于衡量各個解釋變數對演算法預測結果影響的程度。注意:一定要將大數據建模與業務邏輯緊密聯繫!
分割線----------------------------------------------------------
當然,個人覺得知道模型背後的理論也是非常有必要的。讓我們順著邏輯回歸來講。
一
首先是假設檢驗中假設建立。什麼是假設檢驗呢,假設檢驗背後的原理是什麼呢,我們模型中具體的假設是什麼呢。
假設檢驗分為原假設H和備擇假設H0,我們後面會推翻H來證明我們的H0是正確的。
假設檢驗的原理也就是我們要推翻的這個H的理由是:小概率事件不可能發生。(在此我舉一個經典的例子)
在模型中我們的假設便是我們邏輯回歸的因變數和自變數之間沒有線性關係。
也就是這裡面的beta們都是0。
二,never say yes.在原假設正確的前提下,確定檢驗統計數並計算出統計數的估計值(即構造統計量並計算統計量的估計值)
一般我們會把統計量構造成符合正態分布、卡方分布、F分布的情況,由構造的統計量不同可分為u檢驗、卡方檢驗、F檢驗等。
這裡我們以卡方分布統計量為例子:
在各種假設情形下,實際頻數與理論頻數偏離的總和即為卡方值,它近似服從卡方為V的卡方分布,因此可以用卡方分布的理論來進行假設檢驗。
三、計算P值,或確定臨界值,並比較臨界值與統計數值的大小,根據」小概率事件在一次實驗中幾乎是不可能發生的原理「得出結論統計結果分析
顯著性水平:這裡的顯著是一個統計學的概念,是指原假設發生是一個小概率事件,統計學上用來確定或否定原假設為小概率事件的概率標準叫做顯著性水平。原假設發生的概率如果小於或等於5%,一般認為認為是小概率事件,這也是統計學上達到了」顯著「,這時的顯著性水平為5%。
拒絕域:當由樣本計算的統計量落入該區域內則拒絕原假設,接受備擇假設,拒絕域的邊界稱為臨界值。當原假設正確時,它被拒絕的概率不得超過給定的顯著性水平a(阿爾法),阿爾法通常取值為0.05,0.01,因此落在拒絕域內是一個小概率事件。
還是以卡方檢驗為例
以下是卡方分布的密度函數,X軸是卡方值,Y軸是發生的P概率。
換句簡單易懂的話就是,我們計算實際頻數與理論頻數的偏離程度即卡方值非常大的情況下概率是非常小的是不會發生的,當X2卡方值遠遠大於3.84,相應的我們X軸遠方對應的就是越來越小的P概率。那麼也就是說我們的假設是不成立的,也就是說因變數和自變數之間他們是相關的。並且在原假設情況下卡方值越大也就代表越不可能不相關,也就是越可能相關。
當然在確定檢驗我們單個係數的時候會用來卡方檢驗,整個模型的檢驗的時候就會用到我們F檢驗,T檢驗,他們都和我們的卡方有一定的聯繫。
為什麼覺得大家都在胡扯一氣...
行業普遍使用的模型:Logistic回歸
目前國內90%以上的建模團隊都使用Logistic回歸做評分卡,當然還有少數人使用決策樹,神經網路和機器學習目前還沒在此行業有顯著成果。
Logistic製作評分卡模型的衡量標準是K-S值的大小,依據數據質量和建模能力在0-0.5之間,一般在0.3以上才可用,好的模型可以達到0.35。
芝麻分模型的K-S值在0.32左右。
以上是針對主問題給的答覆,附加問題太多太散,涉及面太廣,建議題主先熟悉下這個行業
以上!相對於傳統風控,大數據風控在建模原理和方法論上並無本質區別,只不過是通過互聯網的紅利,採集到更多維的數據變數,通過分析數據的相關性來加強或者替代傳統的強因果關係。
建模原理和方法論上並無本質區別
大數據風控即大數據風險控制,是指通過運用大數據構建模型的方法對借款人進行風險控制和風險提示。
要理解大數據風控,首先要把傳統金融風控搞清楚。這裡以銀行的信用卡部門為例, 解析一下傳統銀行的信用審批流程。(附圖綜合了幾家銀行信用卡中心的審核流程)
信用卡審核簡易流程圖
從流程上看,銀行的信用審核,是以風控評分卡模型的自動審核為主,以人工審核為輔的模式,在需要特定審核的環節由人工進行,比如驗證你的工作、校驗你聯繫人的真實性等。這也是為什麼在現實生活中一部分人在信用卡申請過程中會收到人工審核電話,一部分人並不需要該驗證環節即可獲得信用卡。
從審核數據上看,對於銀行來說,影響審批額度的主要因素包括客戶基本特徵(包括男女、年齡、教育程度等等)、客戶的風險暴露情況(社會收入、債務情況、還債能力綜合評估)、現有的社會表現(房貸還款情況、其他銀行信用卡使用情況等)。
不管是中資還是外資銀行,大致都遵循了這樣一套風險評估和信用審核的邏輯。對比之下,就可以看出,時下互聯網金融鼓吹的大數據風控在原理和方法論上跟傳統金融的風險控制並沒有本質區別。
市場空白給予機會 以數據相關性替代因果關係
大數據風控相對於傳統風控來說,建模方式和原理其實是一樣的,其核心是側重在利用更多維的數據,更多互聯網的足跡,更多傳統金融沒有觸及到的數據。
比如電商的網頁瀏覽、客戶在app的行為軌跡、甚至GPS的位置信息等,這些信息看似和一個客戶是否可能違約沒有直接關係,但實則通過大量的數據累積,能夠產生出非常有效的識別客戶的能力。
大數據風控與傳統銀行風控的比較
數據量大是大數據風控一直宣傳的活字招牌,至於多少的數據量級才能算得上大,業內一直沒有統一或者較為通用的標準。 根據公開資料,螞蟻金服的風控核心CTU 投入了2200多台伺服器,專門用於風險的檢測、分析和處置。新華網的報道顯示,螞蟻金服每天處理2億條數據,數據維度有10萬多個。京東金融2016年6月,投資了美國的大數據公司ZestFinance,之後還與其聯合發起成立了合資公司ZRobot。ZRobot主要定位在為互金企業提供數據建模、信用評分、資產定價、欺詐識別等服務。京東金融依靠中國最大的電商-京東的數據量,在國內已算大數據擁有者。
聚秀資本合伙人江南憤青表示,按照惠普副總裁提及的大數據概念,全球有能力進行所謂的大數據應用的公司不超過50家。大量的公司只是在做數據的優化,根本不能稱之為大數據風控。
在數據維度這個層級,傳統金融風控和大數據風控還有一個顯著的區別在於傳統金融數據和非傳統金融數據的應用。傳統的金融數據包括我們上文中提及的個人社會特徵、收入、借貸情況等等。而互金公司的大數據風控,採納了大量的非傳統金融數據。比如阿里巴巴的網購記錄,京東的消費記錄等等。
在運行邏輯上,不強調強因果關係,看重統計學上的相關性是大數據風控區別於傳統金融風控的典型特徵。傳統金融機構強調因果,講究兩個變數之間必須存在邏輯上能夠講通因果。一位不願具名的前城商行信用卡中心負責人表示,在銀行的信用評審中,他們即便發現了一些非傳統變數在統計上看來跟審核結果存在某種相關性,如果不能夠在邏輯上講通,他們也斷然不會採用。
「比如我們發現在某個時間點來申請的客戶,從後期數據表現上來看逾期的概率就是比較高。但如果沒辦法從邏輯上解釋通其中的道理,我們是不會貿然把它作為因變數放在審核模型當中去的。」
但與傳統金融機構不同,互金機構的大數據風控吸收的正是大量的潛在相關性數據。為何說是潛在?因為通過互聯網的方式抓取大量數據之後,一定會有一個數據分析和篩選的過程,在這個過程中,大量數據會被證明不相關直接被踢掉。留下的相關性數據才會被運用到風險審核當中去。
傳統的線下小貸公司在放貸過程中,會有一些自己的經驗判斷,在面對一些特定行為特徵、生活習慣的客戶會首先有一個自己的直觀打分判斷,這些是長期經驗累積的結果。現在一些互金公司可以通過技術化的手段把這些也變成輸入變數納入到風控審核當中去。
大數據風控需要納入非傳統變數,將風控審核的因果關係放寬到相關關係是有其業務原因的。伴隨著互聯網金融的火熱,大數據風控逐漸升溫。中國的互聯網金融,服務的客群簡言之可以分為兩類:無信貸歷史記錄者和差信貸歷史記錄者。而這兩部分人群,恰恰是中國傳統金融機構沒有服務到的兩部分人群。
這兩部分人群包括中國的學生、藍領、以及一部分的白領等。這部分客群,在央行沒有徵信報告,幾乎沒有過往金融服務記錄,照搬傳統金融的風險審核會出現水土不服的狀況。
對傳統金融機構而已,在對一個客戶進行信用風險評估時,工作單位是強變數。這直接關係到他的社保記錄。但對一個沒有固定工作的客戶來講,工作單位就變成了一個弱變數,對於最後的風控審核助力有限。
同理,學歷、居住地、借貸記錄這些傳統的強金融風控指標可能在面對無信貸記錄者和差信貸記錄者時都會面臨同樣的問題。這迫使互金公司需要通過其他方式補充新的風控數據來源,並且驗證這些數據的有效性。
場景廝殺激烈 大數據風控有效性有待驗證
相對於傳統金融機構,互金公司擴大了非傳統數據獲取的途徑,對於新客戶群體的風險定價,是一種風險數據的補充。但這些數據的金融屬性有多強,仍然有待驗證。
而數據的金融屬性取決於如何去挖掘,如京東電商上購物記錄其實是目標客群很好的刻畫,送貨的地址,GPS經常駐留的地址等,是一個人的居住地的概率很大。在這一點上,騰訊的微眾銀行、京東金融,螞蟻金服等互聯網巨頭手中都掌握著海量的數據。
各大公司的風控體系 來源:根據網路公開資料整理
根據《證券日報》報道,微眾銀行旗下微粒貸的單筆均借款金額低於1萬元,逾期率低於0.3%。「微眾可以拿到騰訊的數據,這是其他所有公司沒發比的,在小額借貸領域,他們的優勢太明顯了。」前述不願具名人士透露。
巨頭優勢明顯,但大公司不可能面面俱到,布局下各種場景。並不代表創業公司的路已被堵死。在互聯網巨頭尚未涉及的領域,小步快跑,比巨頭更早的搶下賽道,拿到數據,並且優化自己的數據應用能力,成為創業公司殺出重圍的一條路徑。
有一個穩定的場景,能夠在自然狀態下真實地採集到客戶行為所展現的數據,這是大數據風控的前提。在一些尚未被巨頭嗅到的場景領域,競爭廝殺已經非常激烈。
農分期、會分期、房司令、租房寶、蠟筆分期、學好貸、愛旅行、趣分期、分期樂、買單俠、優分期·······農業、租房、藍領、學生、旅遊等各個場景和不同人群下的爭奪已經日趨白熱化。
陸金所CEO計葵生在2016年的中國支付清算與互聯網金融論壇上自曝陸金所的年華壞賬率在5%——6%。並且,根據騰訊財經的報道,計葵生指出,如果風控做不好,P2P的行業壞賬率將遠超10%。根據新經濟100人的報道,學生分期起家的分期樂壞賬率低於1%。銀監會數據顯示,2016年第三季度,我國大型商業銀行的不良貸款率為1.67%。
而在今年11月,《21世紀經濟報道》披露的蘇寧消費金融公司的貸款不良率高達10.37%。該文章指出,蘇寧內部人士透露,10.37%的壞賬絕對不是行業最高的,很多面向大學生提供分期消費的平台,不良率超過25%。
壞賬率、不良率、逾期率,各種不同的指標計算口徑不同,結果大相徑庭。缺乏統一的行業標準,野蠻生長下也不乏充斥著故意誇大和謊言之嫌。互金行業的壞賬像一個披著面紗的女郎,始終不得其真容。
不同客群的壞賬表現有其梯度差異,但是良好的數據獲取和數據應用能力可能會在一定程度上優化數字表現,成為企業的一道有力護城河,這也是留給創業公司的一個機會。
國內的大數據風控困境
首先是中國徵信體系的不完善。要知道大數據風控的第一步就是獲取數據。波士頓諮詢的報告顯示,央行個人徵信記錄覆蓋率僅僅為35%。而互金企業的目標用戶也多為信用卡無法觸達的人群,可想而知,這批人就更沒有什麼信用記錄可言了。而各家消費金融公司的數據相互分享可能性很小。現在大多數公司的做法是將自己的數據共享給第三方徵信機構,再從徵信機構那裡獲取數據,但這種數據的有效性存疑。獲取有用數據或許成為很多公司構建自己的大數據風控模型的第一個難題。
其次是中國的團體欺詐現象。前Capital One高管,現任趣店CRO的粘旻環女士就表示,「目前國內的信用市場,反欺詐仍然是頭號難題」。在中國,這種欺詐套現早已做成了一個產業鏈,從中介公司到商家甚至是自家公司的銷售,沆瀣一氣。通過各種方式召集法律意識淡薄的用戶來進行借貸,再將借到的錢瓜分。而詐騙分子跑路後,還款以及逾期都壓到了用戶的頭上。
然而前來申請借款的用戶用的都是真實的信息,平台給用戶的額度也在合理的範圍內,這樣的詐騙方式讓平台處於很被動的處境。現在的處理方式只能是發現一起就抓一起,發生之後處理的速度是關鍵。不過粘旻環女士也表示之後會採用更主動的方式來防禦。「目前,我們在搜集我們自己和同行們遇到的相關案例,尋找這部分容易被利用的人群身上的共性。在有足夠的樣本以後,我們可以梳理出這些用戶的畫像,並建立相關的風控模型。」
第三個難題就是金融行業頻發的「黑天鵝」事件。如今大數據被吹的神乎其神的一個重要原因就是認為它可以有效地推演及預測未來。但是立足於統計學基礎之上的大數據可以預測出跳出規則之外的黑天鵝事件嗎?恐怕很難。在國內大數據風控的發展僅僅經歷了幾年的時間,在這期間中國還未發生過類似2008年美國次貸危機的大規模金融危機。因此,國內大部分公司構建的大數據風控體系沒有經歷過極端經濟環境的壓力測試,屆時可能完全失靈。
做風控審核,其實是審人,人性的展現,大數據模型雖然講究的是大和相關性,但用於金融的風控,有些前提是必要的:
1 這些個大數據必須是客戶自然行為的流露和展現,這樣才能避免逆向選擇,數據才有效。
2 採集的過程穩定,可持續,這樣才長久。
3 數據夠一定厚度,才能真正起到作用。
現在的阿里騰訊京東做金融大數據風控都有如上一些特點。
第一次用知乎回答問題,回答的不對的地方歡迎指正。
一、什麼是風控,具體指什麼?
很多行業會用到風控這個辭彙,像券商、保險、銀行甚至製造業,都會設置風控這個崗位,風控的意義是通過各種手段去管理可以預見的風險,保證公司業務的收益。 本人做的是個人貸款風險建模,對其他行業不是很了解,這裡主要講個貸。個人貸款的風控具體通過反欺詐、信貸策略、審批、貸後管理手段保證貸款本金和利息能夠收回。二、用到的大數據有哪些,獲取渠道?
目前用來建模的數據包含:1、申請表數據(身份信息、收入水平、工作單位、聯繫人等),這部分是申請貸款時客戶自己填寫的。2、行為數據(消費能力、地理位置、購物偏好等),這部分是通過客戶授權採集到的。3、信貸歷史(信用卡數量、還款歷史、房貸信息等),這部分是央行徵信查詢獲得的。4、行內數據(存款額、卡數量、用戶等級等),這部分是存量客戶在某行存款、開卡等記錄。三、應用案例
1、欺詐風險用到模型主要是社會關係網路模型,通過每筆案件之間的關係,判斷新案件是欺詐申請的可能性。2、信用風險主要用到模型是邏輯回歸建立評分卡(也有的用決策樹),量化新申請人可能違約的概率,根據評分高低制定不同的授信規則和催收策略。3、貸後管理也用到行為評分卡,例如額度調整和客戶風險分池管理等。 現在很多金融機構都能夠用大數據模型自動做出決策,大數據風控也用到很多場景中,比如租房分期、手機分期、二手車等。前幾天本人剛剛通過某知名房產中介的app,貸款租了一套房子,全程無人工審核,兩分鐘搞定,非常便捷。四、評估效果 模型效果評估指標大同小異,KS值,GINI係數,ROC等都是評價模型區分好壞客戶的能力,以目前我國數據質量來看,一般來說KS達到37以上就不錯了。再一個是人群穩定性PSI指數,當客戶趨於不穩定時,就該重新調整風控策略,或者重建評分卡了。五、風控工作的注意點 每個行業不一樣,單以個貸來說,每家公司的優勢都不盡相同,目前做消費貸款的公司既有企業,也有網商,還有銀行系。這個問題真是不好回答,只能說八仙過海各顯神通吧。之前採訪過一位智能信貸公司的數據決策總監。他是這麼和我說的:大數據風控的核心點在於——對數據的理解有多深。做大數據風控的人對數據要極其敏感,因此他們會花很多時間在變數上。
關於把什麼變數放在模型里,他和我舉過兩個例子。
第一個是和電商合作做變數的例子:他們可以通過這些合作看到用戶訂票的信息、機票的信息,比如公務艙、經濟艙這些信息——這本身其實也能說明一個人的基本經濟情況。
但是他們會做得更細,會繼續做一些疊加或衍生。比如他們會不看公務艙和經濟艙的區分,而看飛行每公里的消費單價。因為公務艙和經濟艙的價格也會波動很大,有的時候經濟艙也有特價票、公務艙也會有優惠活動,所以他們會看每公里的消費金額。
第二個例子是流水話單。他們可以基於同一份電話單,做出很多不一樣的變數。比如說用戶是否跟某某類的店打過電話?打電話的頻次怎麼樣?趨勢怎麼樣?
如果用戶經常跟貸款中介打電話,或者銀行催收中心打電話,那用戶應該相對比較缺錢,或者是曾經有過違約的歷史。
相反,如果用戶經常給花店打電話買花,說明用戶可能是個「好人」;如果經常給嬰兒店打電話,說明他可能有孩子,有孩子的話一般比較穩定、也靠譜一些。
他們會花非常多的時間去衍生這些變數,因為它更直接地反映了這個人的消費行為。當然,也有些時候,這些可能是無用功,有時甚至90%做出來的變數都沒有用,但試錯篩選出哪怕只有不到10%的可用變數,最終風控效果才是最重要的。
所以,總監覺得,做風控模型這事兒,一方面是個比較「藍領」的事兒,因為工作需要做得非常細緻。但另一方面,是做模型有時也比較「藝術」,因為這是一個比見仁見智的事情。
以上。
有興趣的小夥伴請讀全文:https://zhuanlan.zhihu.com/p/25583752
風控是什麼:
? 顧名思義,風控就是風險控制,最大程度地控制作弊和欺詐的發生,保障網站
的正常運營和用戶體驗
? 風險和作弊行為的發現、識別和處置
? 風控和反作弊是持續的博弈過程,cat-and-mouse game,時效性強,對抗性強
? 三板斧:rules;models;strategy流程包括:
產品體系:
數據:
一般業務數據:用戶、商品、交易、點擊、瀏覽、搜索、評價、服務、處罰等
安全業務數據:設備數據(UA、cookie、MAC、Umid、IMEI、IMSI)、位置數據(IP/LBS/GPS)、行為信息、生物信息、其他
演算法:
機器學習:分類、聚類、graph演算法
異常檢測
圖像演算法:人臉識別、OCR、圖像搜索
絕大多數場景使用RF/GBDT+LR/C5.0
注意點:
? 部分高風險業務,可以投入人力審核,追求更高的準確率/召回率
? 風險(異常)佔比少,屬於非平衡數據集
? 對抗意識強,模型衰減快,需要結合處置手段? 風控的成本與回報意識,平衡人力和風險? 能夠採用更複雜的演算法,但需要平衡用戶體驗和可解釋性
效果評估:
case 1:如何判斷某筆交易是否虛假?
其他:
- 具體的問題定義需要從業務的漏洞、運營規則、法律等方面去思考判斷
- 處罰的機制需要平衡用戶的體驗
- 樣本和特徵、召回都需要大量領域的知識沉澱
- 評分和識別邏輯要能講的通
作者:許鐵-巡洋艦科技鏈接:風險管理中的物理思維 - 混沌巡洋艦 - 知乎專欄來源:知乎著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
反脆弱的世界觀
1: 隨機之美。
因為宇宙需要它永葆青春。當無常的巨浪襲來, 請在內心裡欣賞她的優美。
我說複雜性和隨機性是美的,因為它其實是宇宙的創造性力量,它摧毀,破壞,並選擇強者,讓宇宙常常更新,常常進步。就像印度教的那位大神Shiva,她優美的舞蹈永不停息,這一邊毀滅世界,那一邊創造新生。人生的優美,在顛覆性和建設性的力量的博弈平衡,發生在你身上的無常,是在賦予你新生。如果沒有永恆不停的隨機性, 我們將生活在一個不值得一活的世界。富者恆富,貧者恆貧。拖勒密的宇宙里,靜靜的供奉起亞里士多德的神像。一個可以精確預測的世界,出生等於死亡。
2: 世界是非線性的。
複雜系統的運轉之所以複雜,源自其組成元素之間的非線性相互作用。在這裡,1+1等於2的機會幾乎為零,它大於二或者小於二,複雜系統的元素之間通過非線性作用關係組成複雜網路,其具有的複雜因果關係,往往非我們窮思竭慮所能達。
非線性告訴我們什麼? 規模越大的系統往往越脆弱。
如果你知道墨菲法則,你會更加理解這點。墨菲法則說,如果一個系統可能出錯,它終將出錯。 其實這就是描述基於複雜性產生的脆弱性。當一個過程,一個系統,充滿相互關聯的步驟或者元素,而過於複雜,它的崩潰幾乎是一個時間問題。 因為這樣的系統由於非線性效應,一個元素的損壞將導致整個系統的損壞。 而由於系統內原件過多,出現一個原件損壞是早晚的事情。所以如果可能出錯,終將出錯。
但是自然里通過進化留下的複雜系統,卻往往可以修正因為規模效應導致的脆弱。比如人類的大腦,大腦有10億級別的神經元數量,其實很多原件是類似的功能,即使丟掉一部分也可以正常運轉。有的人被切去半腦卻可以正常生活,即是證明。大腦就是一個典型的九頭蛇怪,你砍掉它的一部分,它就在另一部分產生類似的功能。
世界的非線性啟示我們對自然法則的敬畏,而不是任意的改變複雜系統。
3: 世界是個分布函數
分布函數的世界觀告訴我們,看待未來事件,我們要切實的把它看成一個多種可能性的疊加態,而不是非黑即白的確定態。
對於經典物理的系統,平均數往往占支配性作用,熱力學裡衡量物理屬性的各個量,從溫度,到壓強都是平均數。但是平均數在複雜系統面前,往往不堪一擊。其原因在於-分布函數。
分布函數是對隨機事件的最佳描述方法, 它把一件事的所有可能結果列舉出來,並且對應每個結果用一個數表達它發生的可能性。考慮分布,叫我們在高度隨機的事物面前考慮各種可能性,並根據每種可能的權重進行決策而非過度傾向某個選項。真正依據分布函數進行思維是很難的一件事,因為我們的大腦的天性是把一些可能無限放大另一些無限縮小,這些往往和我們的心情和剛剛收到的信息有關。比如常見的如果一個新聞剛剛播放了飛機事故,很多人就不敢做飛機,因為心理放大這種事情的概率。
複雜系統的分布函數決定其性質而非平均數,對這個問題我在高斯與天鵝里已經進行了很詳盡的描述。用一句話說,就是冪律函數統治複雜系統。而冪律函數裡面極端事件的發生具有比高斯分布大得多的概率。
圖: 冪律的大頭和長尾是它的標誌,而高斯是大肚。高斯的性質取決於肚子,而冪律則同時決定於大頭和長尾。
理解了風險的運作機制,才能更好地實現風險管理。
反脆弱的世界觀
1: 隨機之美。
因為宇宙需要它永葆青春。當無常的巨浪襲來, 請在內心裡欣賞她的優美。
我說複雜性和隨機性是美的,因為它其實是宇宙的創造性力量,它摧毀,破壞,並選擇強者,讓宇宙常常更新,常常進步。就像印度教的那位大神Shiva,她優美的舞蹈永不停息,這一邊毀滅世界,那一邊創造新生。人生的優美,在顛覆性和建設性的力量的博弈平衡,發生在你身上的無常,是在賦予你新生。如果沒有永恆不停的隨機性, 我們將生活在一個不值得一活的世界。富者恆富,貧者恆貧。拖勒密的宇宙里,靜靜的供奉起亞里士多德的神像。一個可以精確預測的世界,出生等於死亡。
2: 世界是非線性的。
複雜系統的運轉之所以複雜,源自其組成元素之間的非線性相互作用。在這裡,1+1等於2的機會幾乎為零,它大於二或者小於二,複雜系統的元素之間通過非線性作用關係組成複雜網路,其具有的複雜因果關係,往往非我們窮思竭慮所能達。
非線性告訴我們什麼? 規模越大的系統往往越脆弱。
如果你知道墨菲法則,你會更加理解這點。墨菲法則說,如果一個系統可能出錯,它終將出錯。 其實這就是描述基於複雜性產生的脆弱性。當一個過程,一個系統,充滿相互關聯的步驟或者元素,而過於複雜,它的崩潰幾乎是一個時間問題。 因為這樣的系統由於非線性效應,一個元素的損壞將導致整個系統的損壞。 而由於系統內原件過多,出現一個原件損壞是早晚的事情。所以如果可能出錯,終將出錯。
但是自然里通過進化留下的複雜系統,卻往往可以修正因為規模效應導致的脆弱。比如人類的大腦,大腦有10億級別的神經元數量,其實很多原件是類似的功能,即使丟掉一部分也可以正常運轉。有的人被切去半腦卻可以正常生活,即是證明。大腦就是一個典型的九頭蛇怪,你砍掉它的一部分,它就在另一部分產生類似的功能。
世界的非線性啟示我們對自然法則的敬畏,而不是任意的改變複雜系統。
3: 世界是個分布函數
分布函數的世界觀告訴我們,看待未來事件,我們要切實的把它看成一個多種可能性的疊加態,而不是非黑即白的確定態。
對於經典物理的系統,平均數往往占支配性作用,熱力學裡衡量物理屬性的各個量,從溫度,到壓強都是平均數。但是平均數在複雜系統面前,往往不堪一擊。其原因在於-分布函數。
分布函數是對隨機事件的最佳描述方法, 它把一件事的所有可能結果列舉出來,並且對應每個結果用一個數表達它發生的可能性。考慮分布,叫我們在高度隨機的事物面前考慮各種可能性,並根據每種可能的權重進行決策而非過度傾向某個選項。真正依據分布函數進行思維是很難的一件事,因為我們的大腦的天性是把一些可能無限放大另一些無限縮小,這些往往和我們的心情和剛剛收到的信息有關。比如常見的如果一個新聞剛剛播放了飛機事故,很多人就不敢做飛機,因為心理放大這種事情的概率。
複雜系統的分布函數決定其性質而非平均數,對這個問題我在高斯與天鵝里已經進行了很詳盡的描述。用一句話說,就是冪律函數統治複雜系統。而冪律函數裡面極端事件的發生具有比高斯分布大得多的概率。
圖: 冪律的大頭和長尾是它的標誌,而高斯是大肚。高斯的性質取決於肚子,而冪律則同時決定於大頭和長尾。
理解了風險的運作機制,才能更好地實現風險管理。
風控流程:目標+過程+結果
風控目標需要考慮到風控目標的數據量,數據類型,數據誤判代價,數據的更新頻率等。風控過程中,數據量大的時候可能數據演算法或者機器學習方法更合適,但是數據量或者壞樣本數據較少的情況下類似判斷方法或者權重判斷更加優秀。數據類型也影響著演算法的選擇,不是所有數據都適合市上主流演算法,比如過多的名義變數下,lg模型並不是很合適,需要預處理或者選擇其它方式。至於誤判代價,是犯錯成本,犯錯成本更大的情況下,有時候演算法結果需要規則修正,並不是說從始而終的演算法解決。最後頻率上考慮上線後的數據及時性,是考慮固定規則還是實時的動態判斷。之外,還有很多很多因素。風控結果上,考慮到反饋形勢,是單純的0/1還是0-1,需要考慮犯錯成本。至於演算法選擇上,行業比較好的算大家都在用的邏輯回歸,也比較常見的是gbdt,但是演算法是死的,可以考慮不通過的損失判斷函數之類的,個人用過的其它比較好的還有:
SVM 作為史上最強分類器,解決這種小樣本複雜問題的利器,綜合量化判斷模型確實有不少採用SVM的,不過不一定要做直接判斷結果,可以做backup-key。DNN和CNN在部分情況下效果很不錯,大流量,不計較小損失的情況下,效果可以複製。個人感覺,用的場景很苛刻,也不好解釋,但是有小場景下單意料之外。至於規則修正選擇上,很多key-valve的排序方法,或者說一些傳統的ahp方法等等,在數據量缺失等前期算是很不錯的決策方案。其實,個人在敏感部門,只能匿名,個人想法,歡迎討論,拒絕水表。首先,貌似美國基本上都用三大徵信局的信息,最傳統的評分基本上都是用FICO來做的。同時,各家平台也會嘗試著用機器學習、神經網路等大數據處理方法,但探索的居多,有結果的少。
其次,現在國內互聯網金融基本的業務規則並沒有太大變化,大數據整體應用也只是剛剛開始(不是做一兩個分析案例那種),所以fico評分的框架思路會持續沿用,嘗試加入新的變數看看模型效果。
最後,還是看好大數據的發展,看好區塊鏈技術的發展,期待技術逆襲。圖片來源:http://36kr.com/p/534577.html
上面兩張圖片都是關於著名的互聯網金融公司Zest Finance。
關於有效性,它的官網是這麼寫的:ZestFinance underwriting models offer a 40% improvement over the current, best-in-class industry score也就是比業內風控平均水平高出40%。現在國內的雲圖徵信是專門做這一塊兒的,貸中、貸前、貸後有14種大數據風控模型,實時動態監控,可以參考 http://www.yuntucredit.com
不邀自來;覺得光擺一些Fancy的圖表流程一點用都沒有…騙幾個外行贊而已…
我就只談一談保險行業的欺詐風控吧…
目前保險行業做的風控最好的是平安。其他幾個基本停留在業務風控上。為什麼這麼說呢?因為平安是少有的做了業務數據外的操作數據風控的集團。
其次人保人壽也都搭建了基於業務數據的風控模型,構建了黑名單灰名單,有一套完整的風控體系。(主要說的是壽險財險車險)單就結果來看,事後查出並追回的騙保費用全國來看少說也有幾千萬級別了。
我倒覺得現行模型表現並不如樹模型好,尤其是保險行業樹模型反而更貼近業務更能Make Sense地發現風險點。
我們也嘗試做了預測總模型,效果怎麼說呢,比猜好很多,但是依舊離實用比較少。
另外銀行的欺詐方面建行,滙豐都做得不錯,不過細說就深了,因為銀行內部風險特別大,此外欺詐風險只是銀行面臨風險很小的一部分。
總之數據質量很重要。比它更重要的是領導的支持,大數據風控這個東西你沒個領導的支持,沒個管理的部門,沒有激勵的機制,只有模型,都是空的。手機答題,忽略排版!幫題主縮小一點範圍,我姑且把題主的模型認為是現在的互金公司的風控模型,而不是一般的互聯網公司防盜號,防薅羊毛的那種。現在的這一類風控模型大多仍然是沿用之前傳統銀行信用卡中心那一套,俗稱評分卡。這種評分卡一般分為三種,分別是a卡,用於客戶申請信用評估;一種是b卡,也被稱為行為評分卡,用於評估客戶貸中的風險;一種是c卡,用於催收策略。前兩種模型有過接觸,最後一種不太清楚具體的業務方法。現在一般說的風險模型就是a卡,也是三種模型裡面最重要的,因為如果在前面能成功的把壞客戶擋在申請外面,後面兩種模型就顯得無足輕重了。相比之前的信用卡時代,現在的小貸公司能拿到的數據遠遠比以前拿到的數據要多,但觸碰到的隱私紅線的機會也會更多,這其中也和現在第三方徵信公司的野蠻發展有很大關係。通常在申請的時候,客戶會被要求填幾個基本信息,如姓名,身份證,手機號及其他一些人口屬性信息,貸款公司拿到幾要素之後就會去拋第三方徵信公司的數據介面,從而拿到自己沒有能力拿到的數據。綜合各方的數據,一般拿到的數據可以分為這麼幾類:一類是人口屬性信息,這其中比較重要的如性別,年齡,學歷,行業等;一類是device信息,包括手機型號,ip地址,lbs地址等;一類是借貸信息,如在各種機構下面的申請,借款,還款信息等;還有一類是補充信息,這類信息通常會觸碰隱私紅線,如話單信息,通訊錄信息,app使用信息,歷史lbs軌跡等。另外多一嘴,很多人認為話單的作用會隨著微信的盛行而大幅減弱,從而完全失效,但是在實際使用中,尤其是在負面信息的表達上,話單的效果還是相當搶眼的,另外一個比較好用的信息就是設備上app的安裝和使用情況,簡直就是彌補了多頭借貸的信息,並且相比借貸信息,也增加了一部分正面信息,這能更好的提高模型區分好壞的能力。現在風控模型中最常用的演算法仍然是邏輯回歸,它的地位這麼穩也是有一定道理的,最大的好處就是可解釋性,可解釋性在這一領域有很大用處,這一好處不僅僅是對客戶好解釋,這也和現在小貸公司獲取外部數據有關,現在公司從外部數據拿到的數據一般不是底層的原始數據,而是中間加工過的數據,有加工就意味著不穩定性,這種不穩定也會造成風控模型的不穩定,所以當某一變數發生較大變化時,如何評估對現有模型的影響,比如預測的結果會前偏還是會後偏,如何調整策略等。其他的演算法,如隨機森林,gbdt,xgboost等都會做一些嘗試。模型建好之後,會面臨比較複雜的測算過程,如模型在外推樣本上的穩定性、有效性如何,如何定策略,在這一策略下,我的拒件率,逾期率會怎麼變化,都需要評估出來所以在我的認知當中,演算法和跑模型不是最重要的,預測目的,建模樣本選取,變數衍生,模型測算,策略制定才是關鍵。後續有空再針對某一點做詳細的介紹。
用什麼模型不是最重要的吧,難在feature選擇上,不同的feature出來的結果可能會有很大的差異。
這話題開放的……風控分貸前風控,貸中風控,貸後風控,說穿了,就是別人找你借錢,前期你要評估這錢借出去有沒得還,該以多少點借出去,借出去之後到錢還回來整個過程你還要盯著,避免他突然跑路或者是風控具體指的是什麼?萬一他耍賴皮說不還你要怎麼讓他還。數據么,當然是金融行為數據最相關了,現在用電商啊社交什麼的數據來做分析,就跟你走訪時候了解他朋友他平時都是些什麼生活習慣差不多啦。演算法每家各不同,但是應該沒有誰真的願意講出來吧,畢竟是核心。風控應用案例:螞蟻花唄借唄、騰訊的微粒貸都算是啊。至於效果么,估計怎麼也得明年才會有相關的報告出來,畢竟數據積澱需要時間,而且前期應該不會太好看。然而大數據風控是趨勢,各家產品在市場的不斷調整中競爭優化,會越來越有效的。前期嘗試或者作為必需信息來源的補充渠道嘛。產品那麼多肯定有個自然的篩選過程的。蜜蜂數據對接多家大數據徵信產品,也是會經過篩選對比的。雖然目前發展的時間跟整個行業一樣,不長,但是可以為徵信公司和平台的溝通搭橋,避免他們相互交叉一一對接試錯來著!
感覺大數據對風控沒有明顯的作用。 針對消費者的小貸業務也是根據存款額,消費額來定,同樣是萬分之五的利率。邏輯和銀行是一樣一樣的。而且借貸到期後強制扣款,這點比不上銀行。 不看好。總體上,國內對大數據抱有過高的不切實際的期待。實際上消費者的消費決策並不能依靠過去的數據來進行判斷。 it做流程規範的空間,做娛樂的空間也是有限的。在信用社會,總會有一隻或者無數只豬在天上飛,問題是它們掉下來時別砸到自己。
推薦閱讀:
※SPSS做相關分析,通過了顯著性檢驗,但相關係數低,怎麼解釋?
※假設有一個「真」隨機序列,那如果把這個序列記錄下來重新放一遍,請問還是「真」隨機么?
※1000桶水,其中兩桶有毒,豬喝毒水後會在15分鐘內死去,想用一個小時找到這桶毒水,至少需要幾隻豬?
※Statisticians和Data Scientist到底是怎麼聯繫在一起的?
※如何在 R 中高效快捷地處理大量數據?