大數據風控「污名化」溯源

大數據驅動的金融科技行業,正承受著業務和心理上的雙重壓力。

業務上,「支付寶年度賬單」事件讓公眾對個人數據信息使用心生敵意;心理上,大數據行業更承受著來自監管的質疑。

曾被譽為Fintech中最具革命性技術的「數據驅動」風控模型,直接被潑了一盆冷水。《關於規範整頓「現金貸」業務的通知》中明確要求「謹慎使用『數據驅動』的風控模型」,而包括上海在內的各省市近期轉發文件中,對上述要求再一次強調。

監管層已洞察到消費信貸行業亂象,充斥著以「數據驅動」為名、實則無風控、以高利率覆蓋高壞賬的市場主體。

大數據風控作為一個新生事物,目前還處在摸著石頭過河的階段。麻袋理財研究院認為,監管對「數據驅動」風控模型的質疑並非全盤否定,而是對其「概念化」、「空心化」趨勢的警示。大數據風控成了背鍋俠,背後根源是業界的浮躁——投機鑽營,搶抓現金貸風口,盲目追求快速做大規模,實則忽視風控。

一、大數據風控是如何被「污名化」的

互聯網時代效率為王,大數據、人工智慧等技術日趨成熟,讓高效的量化風控有了更多的想像力。

但另一方面,不少機構用大數據概念拔高品牌,機構間的競爭更加劇了大數據概念的濫用。「偽命題」、「大忽悠風控」也成了監管和業內常有的批評聲音。

「大數據風控」概念被濫用,已形成三大誤區:

1、用「大數據風控」掩蓋無風控之實。

2、缺乏自主風控能力,完全依靠第三方徵信數據平台。如趣店曾經對芝麻信用的依賴。

3、把大數據或者大數據模型等同於風控。

這其中,現金貸行業用「大數據風控」掩蓋無風控之實問題非常突出。

麻袋理財研究院認為,大數據風控特別適用於小微資產(現金貸、消費貸、小微企業貸),這類資產主要風險是還款意願,因此大數據風控90%的價值在於反欺詐。大多數現金貸的風控邏輯就是,根據用戶提交的信息,在第三方徵信平台跑一遍數據,剩下全部交給二元好壞模型進行風險定價。

二元好壞模型的價值在於量化定價,包括授信額度、期限、利率等,主要工具是評分卡。如Lending Club把借款用戶分為A1-G5共35個級別,對應由低到高的不同利率。而小額超短期現金貸(類似於payday Loan)以隨行就市為基礎,判斷全部通過拍腦袋決定,但原則是用超高利率覆蓋風險。因為在本金中預先扣除了高額砍頭息,所以超短期現金貸可以不風控,甚至用戶不還錢也沒關係。

真正的大數據風控要求高,難度大,既需要大量有效數據,又需要精密可靠的模型,還需要經過時間的檢驗。目前業內魚龍混雜,很多公司要麼缺數據,要麼缺技術,要麼缺實踐。為避免大數據風控成為空談,需要行業自律與監管層共同努力,避免大數據風控被污名化。

二、大數據風控核心問題在哪?

除了概念化的品牌包裝導致的污名化趨勢,大數據風控被質疑有其內在的原因。

(一)數據質量問題

影響大數據風控的有效性,首要原因是數據的真實性不高,包括社交數據和電商交易數據。

1、社交數據的真實性問題

虛擬社交行為與現實世界中存在較大偏差,大部分實質上可歸結為感性的「秀炫曬」,那麼機器根據預先設置的特徵參考提取數據,難以形成對象的真實用戶畫像。美國的Lending Club和Facebook曾進行過相關合作,結論是社交數據有效性欠佳。

2、電商交易數據的真實性

我國電商行業發展中都遇到過嚴重的刷單現象,導致交易數據嚴重失真。

(二)大數據風控有效性問題

1、孤島數據的融合問題

大數據用於風控、營銷的本質差異在哪裡?營銷可以管中窺豹,如果有人在京東上面買了一本考研資料,那麼可以從這個行為判斷出此人準備考研。但是如果僅僅通過這一個維度的數據,就判斷此人是一個好人,這可能很難。必須要收集這個人在多個角落的數據,接近360度都是一個好人的時候才能判斷。所以大數據應用在風控最大的挑戰,就是不能像營銷一樣可以隨心所欲地管中窺豹,必須要收集儘可能全的數據才能洞悉一個人,才能給一個人下結論。

但是,這360度全方位的數據,包括金融數據、消費數據、行為數據等等,從小數據到大數據、從靜數據到動數據、從薄數據到厚數據,收集起來絕不是那麼容易的。

因為新興的消費金融機構目前被排除在央行徵信體系之外,所以大數據風控多以互聯網行為數據為基礎。而目前任何一家大數據風控提供商都難稱得上維度全面,芝麻信用、騰訊信用也都只是基於阿里、騰訊在網路交易、社交等行為數據優勢。

實際上,業內用以判斷信貸風險的數據可分為強變數數據,如信貸、工商、社保等來源於傳統金融機構和政府數據;和商品生產、流通、消費環節中產生的中變數數據;以及互聯網社交等弱變數數據。那些只以單一維度弱變數數據為基礎的大數據風控有效性不佳。

2、系統和數據沒經過壓力測試

1)業務激進導致風控模型沒有驗證調整的時間

良好的規劃對公司業務管理至關重要。規劃首先應明確公司是處於擴張業務、管控業務還是精簡業務的總體戰略,然後對公司內外部的資源和競爭優勢進行分析,最後設計出符合公司預期的產品。

信貸是周期性的,科技也是有周期的。消費金融行業發展過程中存在對某一類資產蜂擁而上、風口期過後又迅速退出的問題。基於互聯網思維大幹快上的過程中,由於缺乏業務規劃,適用於業務擴張期的大數據風控模型會被過度地學習數據中細節和噪音,比如模型上線以來25歲的用戶都是優質用戶,於是25歲作為標準進入決策引擎,顯然缺乏邏輯,這就是機器學習中的「過擬合」問題。實際上在情況變化之前是沒有辦法發現問題的,而互聯網思維沒有給予模型足夠的調整時間,最終造成有效性欠佳。

2)沒有經過經濟周期的檢驗

Capital One的風控模型曾把是否申請了入學貸款作為重要風控指標,因為學生在更高學歷畢業後,往往獲得較好的工作,是潛在優質客戶。但次貸危機把這個邏輯打破了,風控模型突然失效,因為名校畢業生也面臨失業。

現實世界免不了黑天鵝事件,黑天鵝事件卻是在大數據預測規則之外,一旦出現會衝擊大數據風控模型的基本假設,進而影響大數據風控的有效性。從這個角度上說,大數據風控是無法預測的。傳統的風控技術已經歷三十年、五十年周期的迭代。但是大數據的檢驗成效現在看不了。沒有經過經濟周期的檢驗正是大數據風控被質疑的核心問題。

三、正確理解數據驅動的風控模型併合理使用

因為能有效降低成本、提高效率,幫助把金融服務覆蓋到更多人群,大數據風控對於普惠金融不可或缺。作為未來消費金融行業的重要著力點,如何正確理解「數據驅動」的風控模型,併合理使用呢?

(一)正確理解「數據驅動」,必須基於業務邏輯

相對於「數據驅動」的,應該就是「業務驅動」或「信貸邏輯驅動」,他們的區別就是「數據驅動」往往關注的是「相關關係」,但「業務驅動」更多關心的是「因果關係」。

在信貸業務中, 常用的因果關係有「通過收入評估推斷償債能力,能力越高風險越小」、「通過歷史的信貸記錄來判斷,記錄越好風險越小」等。

這些樸素的金融邏輯與潛在風險之間是存在著很強的因果關係,因此在絕大多數傳統的金融機構,都是通過對此類判斷來推斷借款人的風險。這些規則是被千百年來人類社會的實踐所驗證過的。而只要嚴格的按照類似的規則來對借款人進行審核,借款人的風險會在一個可控的範圍內。但這些信息對於在很多互聯網實時的場景中獲取難度大,成本高。

近年來隨著大數據、人工智慧等技術被神化,以及數據獲取成本,難易程度等多方面的原因,「相關關係」逐漸被應用到風控審查的流程中,通常「相關關係」指的是那種通過數據分析發現的某些與風險相關的指標,但難於被業務或金融邏輯所解釋的關係,如前述「25歲」的例子。這個可能就是被質疑的「數據驅動」了。

「因果關係」和「相關關係」其實各有優缺點,一個穩,一個準。兩者結合可以更好的促進業務的發展,同時對於相關關係的深入研究,來發現其中的因果關係,可以更好的促進我們對於借款人行為的理解,將其轉化為「因果關係」。麻袋理財研究院認為,探索傳統的邏輯回歸加機器學習而形成的整合式應用的方法是王道。

(二)端正大數據風控應用理念,不能盲目崇拜演算法

風控不僅僅是大數據模型,風控更應該是一個完整的閉環體系,大數據模型對於風控管理是非常重要的,但它只是其一。風控體系包括很多層面,例如貸前、貸中、貸後全面的風控系統的搭建,包括新產品上線的風險評估、渠道管理、反欺詐人工調查,還有操作風險管理、資產管理等都是風控體系中非常重要的環節。

對演算法、大數據風控的盲目崇拜和錯位應用,是極大的誤區。

基於「了解你的客戶」的原則,不同的客戶群體、消費場景、產品設計所面臨的風險點是不同的,沒有一套風控模型可以包打天下;風控體系搭建非一日之功,數據驅動也非一針見效的靈丹妙藥,需要不斷的迭代、優化,小步快跑。

所以不要在這個領域裡面對新鮮的演算法盲目崇拜甚至直接移植,還需要更多的從業者一起去探索和再創新。

(三)把大數據風控作為傳統風控手段的補充

基於以上兩點得出的結論是,信用風險評估的強相關數據還是金融數據,互聯網行為數據為基礎的大數據風控只是一個補充,不能夠完全替代傳統的信貸風險管理。麻袋理財研究院認為,大數據風控可以從數據緯度和分析角度提升傳統風控水平,是一個必要的補充,可以讓傳統風控更加科學嚴謹,但是不是取代傳統風控的模型和數據。

(四)建立完善的風控模型管理制度

業內對於風控模型,一般會經歷幾個階段才會進入業務應用:模型研發、模型驗證、模型評審、模型校驗、模型應用監測。每個流程都會對模型的正確應用產生很重要的影響。

決不能因為「互聯網思維」大幹快上而把流程簡化成模型研發和模型部署兩步,這不是「不謹慎」,是草率。

同時建立完善的風控模型檔案制度。模型文檔的完整和流程的可追溯,是業務持續運行,降低風險的重要保證。

四、小結

麻袋理財研究院認為,對「數據驅動」風控模型的質疑並非全盤否定,而是對其「概念化」、「空心化」趨勢的警示。大數據風控是背鍋俠,背後根源是業界的浮躁——善於投機,力求抓住業務風口,盲目追求快速做大規模,忽視風控。

金融講究的是穩而不是快,講究的不是抓住機會而是不犯錯,金融領域最具競爭力的不是暴利而是持續穩定盈利。

業界基於互聯網思維,追求每次都能踩准台階,但是在每個台階上站的都不穩,以至於一次次尋找更高的台階。大數據風控是唯一能夠滿足需求的風險管理方式,但行業連走完一個完整模型管理流程的時間都沒給。拔苗助長,用完就扔,這種情況值得反思。

要為大數據風控正名,首先必須真的在做大數據風控,正確認識大數據風控與傳統風控的關係,業界需要探索傳統業務邏輯加機器學習而形成的整合式應用的方法。

本文版權屬於麻袋理財研究院(微信公眾號:madailicaiyanjiuyuan)

推薦閱讀:

乾貨 | 構建風控系統之排坑掃雷(二)
銀監會首次點名要求清理現金貸,在這個現金貸的高速發展期,是先觀望還是強勢出擊?
互聯網金融產品如何利用大數據做風控?

TAG:大数据风控 | 金融科技 |