【玩轉數據系列三】利用圖演算法實現金融行業風控
來自專欄 凡人機器學習
一、背景
本文將針對阿里雲平台上圖演算法模塊來進行實驗。圖演算法一般被用來解決關係網狀的業務場景。與常規的結構化數據不同,圖演算法需要把數據整理成首尾相連的關係圖譜。圖演算法更多的是考慮邊和點的概念。阿里雲機器學習平台上提供了豐富的圖演算法組件,包括K-Core、最大聯通子圖、標籤傳播聚類等。
本文的業務場景如下:下圖是已知的一份人物通聯關係圖,每兩個人之間的連線表示兩人有一定關係,可以是同事關係或者親人關係等。已知「Enoch」是信用用戶,"Evan"是欺詐用戶,計算出其它人的信用指數。通過圖演算法,可以算出圖中每個人是欺詐用戶的概率,這個數據可以方便相關機構做風控。二、數據集介紹
數據源:本文數據為自己生成,用於實驗。
具體欄位如下:數據截圖:
三、數據探索流程
首先,實驗流程圖:
1.最大聯通子圖
最大聯通子圖的功能很好理解,前面已經介紹了,圖演算法的輸入數據是關係圖譜結構的。最大聯通子圖可以找到有通聯關係的最大集合,在團伙發現的場景中可以排除掉一些與風控場景無關的人。本次實驗通過「最大聯通子圖」組件將數據中的群體分為兩部分,並賦予group_id。通過「SQL腳本」組件和「JOIN」組件去除下圖中的無關聯人員。
2.單源最短路徑
通過「單源最短路徑」組件探查出每個人的一度人脈、二度人脈關係等。distance講的是「Enoch」通過幾個人可以聯絡到目標人。
如下圖:3.標籤傳播分類
「標籤傳播分類」演算法為半監督的分類演算法,原理是用已標記節點的標籤信息去預測未標記節點的標籤信息。在演算法執行過程中,每個節點的標籤按相似度傳播給相鄰節點。
調用「標籤傳播分類」組件除了要有所有人員的通聯圖數據以外,還要有人員打標數據。這裡通過「已知數據-讀odps」組件導入打標數據(weight表示目標是欺詐用戶的概率):
通過SQL對結果進行篩選,最終結果展現的是每個人涉嫌欺詐的概率,數值越大表示是欺詐用戶的概率越大。
四、其它
作者微信公眾號(與作者討論):凡人機器學習
http://weixin.qq.com/r/G0wQCELE7h_RrQZr9xkJ (二維碼自動識別)
推薦閱讀:
※《機器人與弗蘭克》
※叢林法則---創造人工智慧的一條生物學思路
※大規模百科知識圖譜CN-DBpedia
※數據處理急救包 | 遇到有這六大缺陷的數據集該怎麼辦?
※銀行圈發生巨變,從未如此猛烈