智能反欺詐演算法概覽及典型應用案例
從上個世紀90年代開始,由於反欺詐領域大數據量和高時效性需求,機器學習技術得到逐步應用。Kokkinaki(1997)提出一種基於決策樹邏輯的模型,其中子節點代表不同的變數,分叉路經代表滿足不同的條件。Bentley(2000)運用基因演算法來搭建一套邏輯規則,可以根據最大發生概率將交易行為劃分為可疑和非可疑。Bolton和Hand(2002)利用對等組分析和斷點分析,從賬戶和個體的角度判斷行為鏈上的欺詐。此外,Dorronsoro(1997)基於神經網路演算法設計了一套在線欺詐跟蹤系統,Maes(2002)將貝葉斯網路應用到信用卡領域。
上述技術都是有監督學習方法論,需要大量欺詐樣本來訓練模型或者系統。銀行在實際應用中往往面臨缺少足夠欺詐樣本的問題,因此目前業內傳統的反欺詐手段還是利用專家規則,通過吸取業務專家經驗以及過去發生的欺詐案例來創建規則庫。專家規則具有更新不及時、誤報率高、維護費用昂貴等問題,因此有必要應用先進技術構建智能反欺詐模型。
反欺詐演算法庫
通過查閱國內外文獻,總結出以下幾個適用於銀行反欺詐領域的機器學習和深度學習演算法,包括無監督和有監督兩方面:
1、SKM:利用好壞客戶人群區分度高的特點,將所有客戶分為兩個聚類,同一聚類中的客戶相似度較高,而不同聚類間的客戶相似度較低。選取客戶數目少的聚類作為異常客戶,每個異常客戶到正常客戶聚類中心的距離即為客戶異常評分,評分越高越異常。聚類分析擅長從多維度整體考慮客戶之間的差異性,極值兩端分布的變數對模型結果影響大,運算效率高,結果可解釋性好;但是容易忽略單個指標的決定性作用,且劃分結果不夠精確。
圖1 SKM演算法原理圖
2、Isolation Forest:運用於挖掘異常數據的無監督模型,利用壞客戶與規律相比的差異性來劃分。每次隨機選取一定數量的樣本客戶訓練一棵iTree樹,特徵順序與分割值任選;重複多次後得到iForest森林。將全量客戶沿著每棵iTree到達葉子節點,每個客戶在iForest中距離根節點的平均路徑長度作為客戶異常評分,路徑長度越短越異常。孤立森林擅長考慮每個維度對於異常客戶劃分的影響,極值單側分布的變數更容易區分出異常客戶,且結果更為精確;然而無法從整體上考慮好壞客戶的差異,並且演算法複雜度高,結果解釋性一般。
圖2 Isolation Forest演算法原理圖
3、Auto Encoder:自編碼網路是一種適用於無監督場景下的深度學習網路模型,其主要用途是將數據進行壓縮,然後再在需要的時候用損失盡量小的方式將數據恢復出來。自編碼網路中,輸出層的神經元數量完全等於輸入層的神經元數量,通過控制隱藏層神經元的數量來達到數據壓縮的原理。在反欺詐場景中,由於欺詐客戶與正常客戶在交易行為上存在較大差異,對於整個數據集來說是冗餘信息,因而自編碼網路通過學習發現並通過壓縮和解壓縮的方法去掉這些冗餘信息。自編碼網路目前還沒有在銀行反欺詐領域中有過大規模應用,其對數據量和計算環境的高要求還有待進一步探索。
圖3 Auto Encoder演算法原理圖
4、CNN:卷積神經網路最早被用於圖像處理和識別的場景中,主要由卷積層和池化層構成。卷積層是卷積神經網路的核心,通過固定大小的卷積核的移動構造局部連接,利用參數共享大大減小網路模型計算的複雜度;池化層通常夾雜在卷積層之間或者之後,通過池化操作提取變數特徵,提高計算效率的同時防止過擬合。在客戶交易分析中,由於交易鏈與圖像類似都具有相關性,並且距離越近相關性越大,因此可以通過選取相關交易行為的辦法,將某一時刻的1D交易鏈轉化為2D交易鏈圖像,再利用卷積神經網路訓練並且找出異常客戶行為。
圖4 CNN中交易鏈數據轉化
5、LSTM:長短期記憶網路是基於RNN基礎上的一種優化神經網路模型,其優勢是可以處理現實生活中的一些需要長期依賴歷史記憶的場景,而傳統的RNN模型不具備學習如此遠信息的能力。長短期記憶網路的核心是在RNN演算法中加入了一個判斷信息是否有用的「處理器」,包括輸入門、遺忘門和輸出門,其中只有符合模型條件的信息才會被留下,其餘信息會通過遺忘門被省去。將長短期記憶網路應用到交易鏈場景中,可以更好地處理和記錄交易行為在時間軸上的關聯關係,而對於一些異常的交易行為進行區分。
圖5 LSTM演算法原理圖
兩個實際應用案例
1、CBiForest反欺詐演算法
通過前期數據和需求調研,針對數據特性提出一套基於聚類的孤立森林模型演算法(CBiForest)。在無監督的條件下,結合SKM和iForest兩者優勢,全方面、多層次地判斷和追蹤欺詐客戶。整體建模流程可以分為以下幾個步驟:
● 第一步:對於行內交易流水和登錄日誌數據進行挖掘分析,從交易金額、筆數、時間、類型、地址等多方面構造反欺詐模型特徵;
● 第二步:基於關聯矩陣、模型驗證、業務經驗等方法,篩選出重要變數23個,其中按照變數分布特性,將15個U型變數運用到SKM模型,8個長尾型變數運用到iForest模型;
● 第三步:首先利用SKM將所有客戶聚成兩類,其中數量較少的類被標記為異常客戶群體,定義每個點到正常類中心的距離作為SKM異常分數,距離越大越異常;
● 第四步:對於兩類客戶群體,再分別訓練iForest模型,每個點到iTree根結點的平均距離作為iForest異常分數,平均距離越近越異常;
● 第五步:對於每個點,將SKM和iForest模型計算得到的異常分數加權相加,得到聚合模型CBiForest的最終結果。
根據CBiForest模型的計算結果,客戶根據異常分數由高到低排列,分數越高,存在欺詐的可能性越大。我們著重分析了排名前1%客戶的交易流水,並與業務人員交流,證實了CBiForest演算法可以有效地找出交易端的異常客戶。
2、深度學習技術應用案例
目前國內利用深度學習技術進行銀行反欺詐探索的案例還相對較少,這裡以DanskeBank的應用項目為例,簡單介紹下國際上銀行反欺詐項目的領先成果。基於DanskeBank每秒60筆交易的實時數據,首先嘗試利用決策樹和邏輯回歸的聚合模型,與行內傳統規則引擎相比,降低了25-30%的誤報率,提高了35%以上的準確性。隨後更近一步,利用包括CNN、LSTM在內的多種深度學習模型進行嘗試,將測試集上的AUC提高到了0.9以上。
可以預期,伴隨國內銀行數據環境的優化和硬體系統的升級,這些有監督的深度學習演算法也都可以在國內銀行業進行嘗試,以便進一步提高欺詐行為的主動預測能力。
關於技術與應用的思考
本文對幾種演算法進行了簡要說明,並給了兩個實際應用案例。實際上還有其他可以用到的智能演算法,只不過案例更多的集中在學術界而非工業界。在銀行反欺詐領域,從專家規則到大數據分析規則,然後再到智能化模型規則,這是應對欺詐的技術升級路線,也是銀行數字化轉型過程中必須具備的能力。
欺詐行為千奇百怪,欺詐與反欺詐從根本上來說還是人與人的較量,雙方都是業務專家並且配備技術手段加持。因此在實際反欺詐應用建設過程中,我們需要將更多的精力放到對業務和數據的理解上,針對不同場景選擇合適的技術方法。
人工智慧是當前熱門話題,銀行可以多個角度去發現應用場景,其中反欺詐對於數據積累與系統建設的要求最高。關於智能反欺詐,我們有個最樸素的觀點,就是通過更豐富的數據與更複雜的演算法來應對欺詐風險,當然還需要更加強大的計算平台。
銀行反欺詐是一項沒有盡頭的工作,創新思維與工匠思維貫穿始終。通過研究創新能夠實現反欺詐模型的技術突破,但更重要的還是用工匠精神去打磨數據產品從而實現持續的價值轉化。
參考文獻:
[1] Frank, M. 2017. Top 10 Fraud Types for 2017 Based on Losses. Frank on Fraud.
[2] Kokkinaki, A. 1997. On Atypical DatabaseTransactions: Identification of Probable Frauds using Machine Learning for UserProfiling, Proc. of IEEE Knowledge and Data Engineering Exchange Workshop;107-113.
[3] Bentley, P., Kim, J., Jung. G. & J Choi.2000. Fuzzy Darwinian Detection of Credit Card Fraud, Proc. of 14th Annual FallSymposium of the Korean Information Processing Society.
[4] Bolton, R. & Hand, D. 2002. 『StatisticalFraud Detection: A Review』. Statistical Science, 17; 235-249.
[5] Dorronsoro, J. Ginel, F. Sanchez, C. & CCruz. 1997. 『Neural Fraud Detection in Credit Card Operations』. IEEE Transactionson Neural Networks, 8; 827-834.
[6] Maes, S., Tuyls, K., Vanschoenwinkel, B. & BManderick. 2002. Credit Card Fraud Detection using Bayesian and NeuralNetworks, Proc. of the 1st International NAISO Congress on Neuro FuzzyTechnologies.
[7] Liu, F. T., Ting, K. M., and Zhou, Z.-H. 2008a.Isolation Forest. In ICDM 』08: Proceedings of the 2008 Eighth IEEEInternational Conference on Data Mining. IEEE Computer Society, 413–422.
[8] Liu, F. T., Ting, K. M., and Zhou, Z.-H. 2012.Isolation-based Anomaly Detection. ACM Transactions on Knowledge Discovery from Data, 6 (1); 1-39.
[9] Maria, L., ChloéO, A., Guillaume, B., Lo?c, L.,Aristide, Piwele. 2016. Credit Card Fraud Detection with Unsupervised Algorithms. Journal of Advances in Information Techonology Vol. 7, No. 1.
[10]Fighting financial fraud at Danske Bank with artificial intelligence presentation, Teradata 2017
[11]A Hybrid Semi-Supervised Approach for Financial Fraud Detection, Jinmiao Liu, Jiang Tian, Zhuxi Cai, Yue Zhou, Renhua Luo,Ranran Wang, International Conference of Machine Learning and Cybernetics(ICMLC) 2017, Ningbo.
歡迎關注個人公眾號,多多交流。
推薦閱讀:
※聽說今天IOS 11更新了,我們來聊聊為什麼 UserAgent 中出現「 iPhone;U; 」的訂單都是高危的?
※設備指紋技術優劣的評估標準?
※大數據與智能反欺詐應用淺析
※反欺詐模型因變數怎樣定義?