大型持牌消費金融公司-人工智慧風控體系構建
(本案例由 CreditX氪信 受大數據產業垂直媒體 數據猿 邀請所撰寫, 已授權其在相關渠道推廣)
案例背景
nnnnnnnnnn當下,普惠金融持續爆髮式增長,2015年中國消費信貸規模達到19萬億,同比增長23.3%,預計2019年將達到41.1萬億。風口背後,一方面是傳統金融未服務到的人群基數龐大,且長期缺乏金融產品,因此普惠金融產品是剛需,規模潛力巨大,滲透率低;另一方面,當下智能手機普及,新交互方式極大提升信貸效率,且數據爆發時代使得海量數據獲取成本和難度大幅降低,在此之上運用技術對龐大人群進行定量風險分析和匹配金融服務不僅成為可能,而且規模效應明顯。
因此,整個金融業態正在技術、資本和市場的共同作用下發生數字化重構。面對劇烈變化的市場競爭格局和趨嚴的監管政策,金融機構紛紛通過引入先進技術強化其核心競爭力,提升其原有體系的效率。其中,尤為關鍵的是構建其自動化的數據能力,將專家的深厚經驗賦能機器,讓機器刻畫紛繁數據與目標的複雜關係,以搶佔消費金融爆發窗口期。
氪信在此背景下,與多家大型領先的金融機構深入探索人工智慧在消費金融領域的成熟應用,針對客戶核心需求已形成包括數據、模型、引擎在內的一整套完整解決方案。
周期/節奏
nnnnnnnnnn項目於16年10月開始,17年2年結束。
nnnnnnnnnn
客戶名稱/所屬分類
nnnnnnnnnnnn
大型持牌消費金融公司·風控
nnnnnnnnnn任務/目標
nnnnnnnnnnnn
在線上信用貸場景搭建一整套從數據到演算法到平台的數據架構體系,並在風控反欺詐和授信業務中得到具體的落地應用。
nnnnnnnnnn挑戰
nnnnnnnnnnnn
從業務實施落地的角度看,客戶面臨的挑戰主要可以分為三個方面,分別是「數據」、「怎麼用」和「跑起來」的問題。
nn首先,針對第一個「數據」挑戰,本質是該用哪些數據的問題,現在金融場景可用的數據早已遠遠超出傳統強徵信數據的範疇,我們可以看到辟如互聯網行為、電商、社交、運營商等廣泛的大數據都在金融領域內嶄露頭角,但結合到客戶不同業務和場景,哪些場景該用哪些數據?不同數據在其中的價值又有幾何?具體能夠表徵哪些維度的風險?這些都需要大量摸索的實踐,僅靠金融經驗,或者技術本身,任何一個都無法單獨解答這些問題。而這個問題的答案恰恰很多時候就直接決定了業務的成本和收益。
nn其次,針對「怎麼用」問題,這確實是當下技術給我們帶來提升最大的點,也是最痛的點。事實上,由於數據的不同,這相當於重構一套與傳統風控體系並行的數據架構體系,在這過程中,如何將海量稀疏、超高維、低飽和的大數據與風險掛鉤?如何挖掘非結構化數據價值時窮盡風險?如何最大化技術和現有業務的結合深度?即使在當下深度學習、硬體框架取得突破性發展的今天,真正落地為金融風控體系的工業應用,轉化為巨大的商業價值,我們都還有較大的鴻溝需要趟過去。把難點分解,可以看到需要三個因素的合力作用,包括成熟的機器學習技術、深厚的金融領域知識以及支持機器學習建模的平台,缺一不可,而對金融機構來說,這一整套在大數據生態體系上的經驗尚不豐富。
nn
第三,針對「跑起來」的問題,試想,我們有了清晰的數據認知,結合不同場景和風控業務我們也摸索了一套經驗證的數據使用方式,但如何與我們的業務系統對接,成為實時的數據服務?這還需要一整套支持機器學習特徵、模型計算的引擎。這其中也涉及很多方面的考慮,包括系統架構、操作管理、可靠性、可擴展性、運維監控以及模型自迭代等等。最終,如何實現從數據、特徵到規則、模型持續優化的閉環系統?如何平衡靈活性和功能性以保證業務能夠快速落地並取得實際的效果提升?這其實也超出了傳統風控引擎的能力範圍。
實施過程/解決方案
上述三個方面的挑戰貫穿風控的各條業務線,此次案例的解決方案著眼於風控核心的反欺詐和授信兩個階段來闡述如何解決這幾個問題,並構建一整套完整的申請貸前風控體系。
- 反欺詐
首先是反欺詐,現在線上欺詐風險變化非常頻繁,以往單一的個體欺詐已迅速演變成有組織、有規模的團體欺詐和相應的關聯風險。傳統反欺詐手段包括驗真、客戶信息邏輯校驗、外部信息對比校驗、灰黑名單過濾等方式主體還是在識別個人風險,無法根據千絲萬縷的關係挖掘潛在的群體欺詐,這需要基於網路的全局風險識別能力來覆蓋風險漏洞。
nnnnnnnnnn氪信一方面針對機構的存量數據,利用辟如申請資料、運營商等數據構建複雜網路,如圖所示,每一個申請人、id、手機號、設備、地址等都是網路中的實體,而諸如申請人擁有設備、手機號呼叫手機號等有向聯繫就是圖中的邊,邊的權重為關係的緊密程度。另一方面氪信採用先進的動態社區挖掘演算法(如Louvain Community Detection)實現風險分團,並利用無監督PageRank演算法等計算相應的全局風險特徵和局部風險特徵,在此之上訓練基於有監督演算法的集成機器學習模型。事實上,這不僅在方法論層面有所突破,相對以往基於有限維度的網路和規則模型,在最終識別效果上也有較大的提升。
nnnnnnnnnn另外,在系統層面,整個體系的「跑起來」和持續優化非常重要。氪信一方面提供圖挖掘查詢引擎,支持實時的查詢相應,實時的網路關係更新,並輸出查詢實體的風險等級、解釋以及風險關係網路展示;另一方面氪信也引入主動式預警和人工研判機制,將模型結果和專家經驗實時地反饋到網路反欺詐產品,使得模型不僅能夠甄別事實,更應該是學習到專家認定為欺詐的經驗,從而真正形成完整的數據和模型優化閉環。
- 授信建模
第二塊合作是授信建模,由於線上信用貸的產品形態決定了整個客群相對次級,大部分為央行白戶,因此機構能夠獲取到的數據非常有限,往往僅限於APP、運營商、場景數據及少量驗真事實類數據等,本質上這個業務的建模就是基於弱數據的風險建模過程,氪信基於金融場景沉澱形成的金融知識圖譜,提供一系列從數據到特徵到模型的全維知識體系。
建模的第一步是特徵工程,眾所周知,特徵是機器學習建模的原材料,對最終模型的影響至關重要。特徵加工和衍生工作越完備,那麼構建的機器學習模型效果越好。但是,面對不同數據,不同業務場景,特徵加工衍生往往是最耗時間與資源的工作。
尤其在弱數據方面,充斥著大量文本、時序類數據,人工特徵定義的方法天然存在較大局限性。辟如在文本上,專家可根據豐富的經驗計算相應的統計量、tf-idf指標等等來提取特徵捕捉一些敏感詞等,但不可置否的是,由於線上風險的演化頻繁,專家總有無法抓到的新黑產術語,這帶來了風險上無法窮盡的難題。
nnnnnnnnnnnnnnnn氪信引入基於深度學習的特徵提取框架,使用不同的深度學習模型來擬合不同的數據類型,自動從大量龐雜的非結構化數據中生成高質量的深度學習特徵。如下圖,通過將諸如文本等數據轉化為向量,用深度學習提取向量空間中的關係可自動生成抽象的特徵表徵,進一步我們就能計算語義相似性,並運用分類器網路實現非結構化數據與金融風險的深度掛鉤。
事實上,深度學習在這塊的價值是在於對金融專家經驗體系的補充,在處理人工難以固化為特定風險知識或規則的基礎上予以最大彌補。另外,比較意外的是,機器生成的特徵在模型效果最後的提升已顯現出較大的提升,也驗證了深度學習對於挖掘深層時序關係,文本內容深層含義在超越人工定義深度方面的價值。具體模型方面,我們知道在基於弱數據的特徵加工和衍生後,機構往往會面臨非常多的特徵維度,少則幾千,多則上萬,且非常稀疏、低飽和。這遠遠超出傳統風控基於評分卡體系的建模能力範圍。
nnnn氪信引入複雜集成模型來解決這一問題,集成模型從「voting」的思想去簡單理解,就是針對不同類型的數據我們選用最合適的子模型來處理,然後每個子模型投票做出決策。相對單一模型有限的預測能力,「好而不同」的模型集成效果明顯會卓越很多,此外無論從穩定度、容錯、還是抗擾動能力來講,集成模型也都在性能和泛化能力之間取得了極好的平衡。
複雜集成模型框架除了在當前場景和業務的建模中有較好的表現,它的另一個重要價值還在於領域適配方面的能力,任何一個單獨領域子模型都可以快速遷移應用到新的業務應用上,對機構在戰略層面實現場景間的遷移和業務冷啟動階段都可以發揮極其重要的作用。
nnnn系統層面,為了能夠支持整個機器學習模型體系「跑起來」的所有功能,氪信也落地了一整套基於大規模機器學習框架在線執行引擎,從數據接入、加工處理、得出結果再到監控自迭代,整個都是自動化的過程。現在線上信用貸的業務量增長非常快,控制風險、解放人力已成為最緊迫的需求之一,這也是這套數據智能一體化引擎的核心價值所在。
結果/效果總結
nnnnnnnnnn最後,在整個線上信用貸場景實踐下來,經過跨多個時間段多批次的驗證,可以看到,效果上還是有非常直接的提升。僅基於有限的弱數據,模型層面,性能相比傳統模型提升了大約70%,最大ks值始終穩定在0.3以上,風控維度也從之前的數十維擴展至2600多維;業務層面,經測算,壞賬率也有46%的直接下降。
推薦閱讀: