探索大數據挖掘技術在商業銀行領域的應用
摘 要:由於大數據的快速發展,傳統的以業務經驗模式進行的資料庫營銷面臨極大挑戰。針對這種情況,提出基於大數據的數據挖掘技術方法。首先了解業務需求,根據業務目標設計模型,接著進行數據整合、數據清洗等,然後建立模型、對模型結果進行評估。實驗結果表明,應用大數據挖掘技術能有效的提高精準營銷的成功率、進行風險防控以及運營優化管理。
引 言
隨著大數據時代的到來,商業銀行數據資產的價值也愈發顯得更加重要,為此,探索數據的應用場景和商業模式,建立技術平台,推動商業銀行從傳統資料庫營銷到數據化運營,最終到運營數據的轉變,成為各家商業銀行重點工作。筆者所在的銀行依託分行大數據平台,致力於大數據+人工智慧+數據挖掘的探索與研究,從2014年就啟動了數據挖掘的相關工作,開發了卡分期模型、信用卡疑似套現評分模型、信用卡客戶流失預警模型、信用卡逾期預警模型、網點選址優化模型、大額存單交叉營銷模型、中高端客戶流失預警模型等。下面就精準營銷、風險預警、運營優化三個主要應用場景介紹近三年運用大數據挖掘技術建模實踐的成效。
1 精準營銷
我行基於大數據平台豐富的數據來源及高效的分散式計算技術,通過邏輯回歸、決策樹、神經網路、支持向量機等機器學習演算法,結合業務目標進行分析挖掘、構建模型、制定精準營銷方案與策略。下面以大額存單交叉銷售模型和信用卡賬單分期模型為例簡要介紹建模方法及收效。
1.1 大額存單交叉銷售模型
個人大額存單產品自推廣以來,維持了較高的存款貢獻與客戶層級上升貢獻,是分行應對同業競爭、拓展存款和客戶的技術手段和措施。為更好地推動大額存單客戶群的維護與拓展,爭攬客戶行外資金,亟需通過該交叉銷售模型找出高響應的客戶進行大額存單精準營銷活動。
1.1.1建模樣本及目標變數定義
建模樣本定義為資產5萬-100萬的客戶,模型的目標變數定義為首次購買大額存單的客戶。時間窗口定義:觀察期,6個月;表現期,3個月,經統計分析,樣本的目標變數過少,為此,我們將兩個觀察期和表現期的數據分布疊加起來,重新整合樣本後進行建模。
1.1.2數據預處理
源數據來自客戶基礎屬性、客戶持有產品、客戶交易行為、客戶基礎屬性變化、客戶持有產品變化、貸款信息、代發薪信息、跨行轉賬信息等數據。數據預處理主要包括變數衍生、異常值檢驗及處理、缺失值檢驗及處理三個部分組成。
變數衍生:指根據業務的一些經驗值和數據分析結果,主要針對客戶交易行為衍生了分渠道、分產品每月的交易金額最大值、均值、最小值及每個產品和渠道對應的交易趨勢等變數。
異常值檢驗及處理:異常值是指一個變數的值非常極端或者出現頻率非常低。對於一般的數值型變數根據蓋帽原則,將最大值cap值P99分位數;有業務實際意義的,根據業務邏輯來處理。對應字元型變數通過查看其分布來檢驗,並根據業務邏輯來處理異常值。
缺失值檢驗及處理:對缺失值處理同樣要分數值型和字元型兩部分,對應數值型變數缺失值的填充方法有總體均值填充、類均值填充、回歸預測填充等,本次模型主要採用總體均值填充的方法和業務實際來填充。對字元型變數的缺失值我們用N來填充。
1.1.3分析建模
變數首次篩選:由於源變數較多,首次篩選去掉那些對目標變數影響不大的變數將會減少後續工作量。結合變數的IV值和單個變數進入邏輯回歸模型的結果,篩選出相對重要的變數。
變數分組:由於LOGISTIC回歸只能對數值型變數進行建模,對字元型變數需要預處理或分組衍生出啞變數,同樣的對數值型變數也做了分組處理。我們在目標變數的監督下,對變數進行分組處理。並將分組結果轉換為變數對應的woe值。
變數二次篩選:對轉換為woe值後的變數做共線性診斷,剔除相關性較強的變數。
模型開發:首先將建模樣本分為訓練集和驗證集,採用逐步回歸的方法進行LOGISTIC回歸的開發。基於此模型結果我們可以預測出資產5-100萬的客戶首次購買大額存單的可能性的大小。根據模型的評分結果,給定營銷組A、B和對照組C、D,其中A和C是響應率前10%的客戶,B和D組是響應率後90%的客戶。前10%的客戶提升度為5倍,營銷組A的成功率約為對照組D的9倍。
我行業務部門開展了為期1個月的大額存單交叉營銷活動,最終大額存單銷售量為近500位客戶,購買大額存單近600筆,認購總金額2億多元,人均認購金額超過50萬元。購買客戶中,AUM月均較上月新增的客戶近400位,佔比約78%,AUM提升金額近5000萬元,高於中高端客戶平均增幅,帶動了分行開門紅個人存款及客戶發展工作。
1.2 信用卡賬單分期
1.2.1建模樣本及目標變數定義
針對最近兩年有消費的信用卡客戶,篩選當月賬單餘額絕對值>1111且賬單月內消費金額>1111的客戶,預測其在未來一個月分期的可能性的大小。
1.2.2數據預處理
源數據包括每日卡信息表、中銀卡新發卡數據表、中銀卡關係表、中銀卡客戶信息數據、中銀卡賬戶遲繳數據、中銀卡交易數據、賬單客戶信息表。數據預處理主要包括變數衍生、異常值檢驗及處理、缺失值檢驗及處理三個部分組成。
變數衍生:針對客戶的消費行為衍生了客戶近6個月消費金額、最大消費金額、月均消費金額、分期金額、分期次數、利息次數等變數。
異常值檢驗及處理:數值型變數通過查看其分位數來檢驗,根據蓋帽原則將最大值cap值P99分位數,當P99分位數為0,但最大值不為0時,將P99分位數以上的值設為1;字元型變數通過查看其分布來檢驗,並根據業務邏輯來處理異常值。
缺失值檢驗及處理:對缺失值處理同樣要分數值型和字元型兩部分,對應數值型變數缺失值的填充方法有總體均值填充、類均值填充、回歸預測填充等,本次模型主要採用總體均值填充的方法和業務實際來填充。對字元型變數的缺失值用N來填充。
分析建模流程同大額存單交叉銷售模型一致。根據模型結果,可預測出信用卡客戶賬單分期的可能性的大小,業務人員通過模型打分的篩選結果進行精準營銷,取得了良好的業務成效:根據模型結果撥打賬單分期響應率高的前60%的客戶基本可覆蓋98%的分期客戶。通過近10個月電話外呼對每月符合賬單分期的客戶進行卡戶分期營銷,項目期間卡戶分期累計新增交易額近7億元,同比增長20.5%,實現手續費收入近4000萬元,同比增長24%,手續費貢獻佔比37.7%。
2 風險預警
隨著互聯網金融迅速崛起,各家商業銀行紛紛研究大數據風控的應用場景,筆者結合大數據、人工智慧、銀行風險防控等技術,為銀行加強金融風險管控,保護客戶資金安全提供保障。
2.1 中高端客戶流失預警模型
我行2016年一季度中高端客戶降級流失率為20%左右,中高端客戶的流失導致的損失是比較嚴重的,為預測中高端客戶流失的可能性,需找出潛在的流失客戶,支撐客戶經理的維護工作,定製差異化的產品、服務和營銷策略來挽留客戶,以防客戶流失。
經過對歷史數據的分析驗證,建模樣本及目標變數的定義為:當前6個月資產月日均20萬以上,且相對前6個月資產減少不超過50%的客戶,未來6個月任意月份資產月日均減少90%以上的可能性的大小。
數據預處理及分析建模流程同大額存單交叉銷售模型一致。模型上線後的樣本外數據驗證結果前10%客戶提升度為3倍,同建模結果基本一致。經過模型評分的數據支持,近半年分行客戶降級流失率減少5%,挽回近5000萬的資產。
此模型的結果同時部署到分行大數據平台midas工具中,利用大數據平台的分散式計算能力,能夠實時的得到模型打分結果,並將客戶的一些影響流失的重要指標情況實時的反饋給客戶經理。下一步,我們將基於此建模方法利用大數據平台的midas進行機器學習,不斷的對模型結果進行迭代優化,形成客戶流失預警模型的閉環營銷流程。
2.2 信用卡疑似套現評分模型
信用卡套現行為給銀行帶來了呆壞賬的風險,需要通過系統智能化的識別,根據持卡人及商戶的交易行為特徵,建立疑似套現模型,提高疑似套現卡片的甄別率及工作效率的同時,降低銀行風險敞口。
通過分析客戶最近6個月的消費情況,對客戶是否存在套現給定一個評分,該模型是一個經驗模型。
為此引入兩個概念,客戶在某商戶的大額交易:客戶在商戶交易單筆金額大於3000元;客戶在某商戶的可疑金額:最近6個月,客戶在某商戶大額交易筆數至少3筆,且累計交易金額大於等於50000元。
信用卡套現主要從客戶角度和商戶角度入手,如果商戶涉嫌套現,那麼商戶消費金額中有很大比重來自套現,再引入商戶可疑度指標,設為ε,商戶可疑度=所有客戶在該商戶的可疑消費金額/該商戶的所有消費金額。涉嫌套現的商戶一般不正規、不知名、手續費較低。
對商戶信息進行清洗和分類,引入白名單,在知名商戶的消費不計入套現。不可疑商戶標準:普通商戶可疑度<0.25;房車商戶可疑度<0.3;第三方支付商戶可疑度<0.1;批發類商戶可疑度<0.15。
如果客戶涉嫌套現,其在可疑商戶消費金額的比重就較大,引入指標α,β,γ,定義M為客戶的總消費金額,Mi為客戶在某商戶的可疑金額,Mj為客戶在某商戶的可疑金額2,即最近6個月內,客戶在某商戶至少5個月有大額交易,且累計交易金額>=5萬元。Mx為客戶的可疑金額,定義為客戶在所有商戶的可疑金額之和。
(1)
(2)
(3)
這樣,我們初步得到評分公式
(4)
同時經過分析我們發現,取現越多和在知名商戶的消費越多,客戶套現的概率越低,最後我們得到優化的評分公式
(5)
n1:最近6個月內,客戶在可疑商戶每筆消費3000元以上的次數。
n2:最近6個月內,客戶在可疑商戶每筆消費9900元以上的次數。
模型應用於信用卡高額度客戶排查、套現排查、套取積分等排查工作中,按模型提供數據,已開展對套現評分最高的500張卡片進行排查,共處置近90張卡片,成功率為業務經驗排查的6倍,為分行優化信用卡資產結構及客戶質量、有效遏制不良資產新增的提供有效的決策支持。
3 運營優化
在構建了網點選址優化模型後,對其中四家支行的選址進行了對比分析。該模型主要基於客戶位置、屬性及商圈經濟等數據的人流分析、潛在客戶分析、位置畫像分析、人群畫像分析和應用偏好分析,提供金融網點評估建議,作為網點選址優化的依據。
3.1 人流分析
分析人流密度及分布,主要評估人口類型是居住人口、工作人口還是流動人口。
3.2 潛在客戶分析
分析客戶的活動區域分布、客戶的基本屬性信息、消費信息等數據。通過look-alike相似人群擴展機器學習演算法,將高PA客戶群作為種子用戶,作為機器學習的正樣本,剩下的客戶則為負樣本。從而將上述問題轉化為一個二分類的模型,正負樣本組成學習的樣本。經過對模型的訓練,利用模型結構對客戶進行打分,最終得到我們想要的潛在高PA客戶群。即根據相似人群的擴大,尋找出符合業務的潛在客群。
3.3 位置畫像分析
通過對周邊資源的分析,以及金融同業的分析,評估周邊交通便利層度。
3.4 人群畫像分析
主要分析客戶的年齡、性別、學歷、職業、婚育狀況、車輛情況、應用使用偏好、消費品位、消費品類等多維度。
3.5 應用偏好分析
這裡我們著重分析客戶對金融類APP的偏好,主要包括金融同業、互聯網金融機構等消費傾向的分析。
四家支行從上述五個方面對比分析發現:四家支行的定位差別很大,支行1處於核心區域,位置環境優越,人群質量和業務都佔優,潛在客戶群大,各方面都具有明顯的優勢;支行2和支行3處於人口密集區,中國銀行手機銀行APP安裝率較高,說明老客群體相對較多,50歲以上人群在四個支行中人群佔比最高;支行4相對於其他三個支行劣勢較多。
4 結 語
大數據挖掘可讓金融機構更加了解客戶,在一段時間內,大數據在金融應用中還將以營銷、風控和運營為主要場景。未來,金融機構在合規的前提下,將引入更多維度的外部數據,在大數據分析挖掘取得的成效的基礎上,一方面豐富數據指標體系,進行模型的優化工作,全口徑掌握客戶使用銀行產品和服務的狀態,以及與其他客戶的關係,對客戶進行全視角的風險評估;另一方面,充分利用大數據平台計算架構的優勢,基於大數據平台的分散式計算能力進行機器學習,為業務發展提供實時的決策與支持。
發表於:《計算機應用與軟體》 2017(9)
PS:網舟科技,長期專註於金融保險、通信、航空、互聯網、旅遊酒店等行業的電子渠道大數據運營,為客戶提供全球領先的電子渠道轉型諮詢、大數據挖掘和應用定製服務,助力客戶互聯網轉型,提升數字化運營和數據營銷能力。
推薦閱讀:
※坐擁百億級數據的劉濤 如何窺探數據背後的深意
※數據分析無處不在
※推薦系統:信息系統的雙子星
※數據缺失值的4種處理方法
※利用大數據促進可持續發展