反欺詐之血緣關係分析和犯罪傳導監測

05-22

反欺詐之血緣關係分析和犯罪傳導監測

來自專欄大數據反欺詐

文前小故事：隔壁阿姨最近總是帶個包鬼鬼祟祟地出去，媽媽好奇，今天跑過去串門，問她最近在忙什麼，她一下就忍不住哭了起來：
我被人騙了……好多人去要錢……我把我姐和我女兒也坑了……那是我姐夫的安葬費……還有我侄子……
媽媽安慰她，讓她慢慢說。然後才理出了事情的原委：她在超市門口接到小傳單，理財投資，年化18%～24%，就自己投了10萬塊進去，感覺很好，每個月都返利息，還安排他們去旅遊，送各種日用品。後來，她陸續拉著自己的姐姐，女兒，侄子，七大姑八大姨都去投資，自己也追投了幾十萬。去年4月份，投資公司老闆跑路到了美國。從去年到現在，她總是去參與各種各樣的「討債」活動，但也都是無功而返。

這樣的事情並不少見，一個人是受害者，會無意間牽連自己的親朋好友也成了受害者；一個人推銷保險，也都是先從親戚朋友下手；一個人搞傳銷，會把親爸親媽親同學發展成下線；一個人犯罪，會拉著全村人一起犯罪（比如電影《巨額來電》中的林阿海）……

近期，一銀行找到我，說他們現在有一個立項，題目是《數據血緣關係智能分析和犯罪風險傳導監測》，希望聽聽我的建議。今天正好聽到媽媽跟我說起這件事，就想，還是針對這個課題，好好整理下思路，講一講我的看法吧。同樣還是黃姐姐的風格，為了僅圍繞反欺詐做探討，本文僅會講解與反欺詐相關的知識點，想系統學習的朋友，請參照其他資料。

#數據血緣關係

數據血緣關係，英文Pedigree，也稱Provenance或linkage，指的是數據源（source）到衍生（derivation）欄位的鏈路，也就是數據從產生，到加工組合拆解，再到最後消亡的整個生命周期的過程，用一個成語概括，就是數據的「來龍去脈」。之所以稱為「血緣關係」，是因為這與人類社會很像。通過一步的加工可類比「直系血親」，通過多步的加工可類比「旁系血親」。這裡舉個例子，以下是從一個用戶那裡獲取的user agent

Mozilla/5.0 (Linux; Android 7.0; BAC-AL00 Build/HUAWEIBAC-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/6.2 TBS/044022 Mobile Safari/537.36 MicroMessenger/6.6.6.1300(0x26060634) NetType/WIFI Language/zh_CN

從這裡，我們可以分解出：手機品牌、操作系統、版本號、網路情況、瀏覽器信息等等，這些欄位的「父親」就是user agent，屬於直系血親。現在，我們通過這裡解析的操作系統+版本號，再加上從其他渠道獲得的device id和電池電量，將4個欄位組合成一個新欄位，命名fingerprint。那麼，fingerprint則擁有4個「父親」，與user agent屬於旁系血親。市面上有很多幫忙梳理數據血緣關係的工具，基本思路都是將其鏈路可視化。一般有：信息節點、數據流轉線路、清洗規則節點、轉換規則節點、數據歸檔銷毀規則節點。

對於反欺詐建模，數據清洗和特徵衍生往往是第一步，也是最為重要的一步。可以說，數據質量直接影響著模型結果（用爛水果，無論如何都榨不出一杯美味的果汁）。而數據血緣關係，無論從數據價值評估還是從數據關係梳理上，都可以給建模人員提供有效的幫助。這裡再舉一個前兩天遇到的案例，一個群組84人，我們發現這些人有人用wifi，有人用4G，IP卻完全相同，十分詭異。在去對這一現象做判斷前，我們先是要確定數據的準確性，也就是追根溯源，看網路信息是從哪個源頭衍生出來的，再去判斷這個源頭的有效性。如果有一個好的數據血緣分析工具，則可以快速定位。如果判斷數據準確，才能再進行下一步分析：使用4G的IP是否都是定位在運營商基站？同一地點連接的基站是否會跳轉？是否有人開了熱點？還是這是模擬器造成的詭異現象？

總之，數據血緣關係分析，可以應用於整個反欺詐建模過程：從數據預處理，參數初始化，到結果分析。

#犯罪風險傳導

一提到風險傳導，可能很多業內人士都會想到宏觀經濟中的其他風險向業內傳導，比如整個經濟的大蕭條；或者微觀經濟中銀行間或同一銀行業務間的風險傳導。事實上，犯罪風險傳導與此類似，也都是從風險源，經過某些傳導載體，傳導到各個節點，最後再傳遞到我們的研究對象，也就是風險接受者。這一過程，可能還有外部風險的影響，比如政策影響、失業比例等等。如下圖所示：

風險傳導圖

為了方便大家理解，這裡舉個例子。信用卡代還業務剛剛興起時，銀行信用卡壞賬率有顯著的下降。因為銀行信用卡的逾期會上徵信，所以一是很多暫時沒辦法償還信用卡的人，會利用信用卡代還業務償還信用卡，這樣，銀行的信用風險降低了。另外，很多信用卡代還業務在推廣期，對人員資質審核要求比較低，所以很多騙貸人員也盯上了這一福利，進行大肆騙貸，也給銀行的欺詐風險減壓。某一新型業務的興起，通常會在短期內影響整個大環境的風險分布，信用卡代還就是一個典型案例。一段時間後，信用卡代還業務的風控不斷加強，口子不斷收緊，會導致騙貸團伙轉移到其他口子，比如P2P或者消費貸。

對於反欺詐的犯罪風險傳導，一是要從業務層面分析；二是從數據層面分析。對於前者，需要從政策、宏觀經濟、失業率、同業分析、近業分析、競業分析等等角度來看（比如信用卡代還對信用卡逾期的影響）；對於後者，則可以藉助各種數學模型來分析。以下以圖分析為例，簡單介紹如何進行犯罪風險傳導分析。圖分析理論中最經典的要數社交網路分析，關於社交網路分析的基礎知識和應用請參照黃姐姐之前的系列文章《基於社交網路分析演算法（SNA）的反欺詐》。

首先，我們要明確犯罪風險傳導監測的目的，那就是提前預警。也就是對於一個群組，當某幾個人開始犯案時，其犯案手段可能會傳導到其他人，或者帶領其他人一起犯案，就像文前小故事裡提到的幾個例子。這裡，首先犯案的可以理解成風險傳導圖中的「風險源」，傳導載體可以理解成社交網路分析中的「邊」，節點可以理解成關聯社群（community），風險接受者就是我們想要去阻攔的潛在犯罪者。

現在，假設我們已經通過社交網路分析發現了一個團體，其關聯性比如：

1. 同時連接過某一個wifi，假設wifi名叫「擼個口子回家過年」；

2.同時辦理了某銀行的某個卡種的信用卡；

3. 都居住在某個小區，白天GPS定位顯示都集中在某個棋牌室；

4. 同一天出現了異地消費。

某個社群

這時，我們發現，紅圈中圈出來的5個人都向銀行提出了貸款申請，其中2個人審批通過且已經出現M3+逾期，另外3人被拒。這時，我們就有理由懷疑，整個群組都有騙貸嫌疑。那麼，對於這個群體，其在進行貸款或信用卡申請時，我們則需要特別注意，要麼拒絕，要麼降低其額度，以降低風險。

進一步分析，其背後動機可能是這樣的：一群閑散人員，不務正業，每天的工作就是打麻將，他們相互認識。可能在某天被某個外部人員遊說，帶其到某個詐騙團伙接受培訓，並交了入伙費（異地消費），回來後，他們也開始從事詐騙工作，第一步就是騙貸。而為了試探什麼樣的條件才能通過銀行貸款審核，紅圈中的五個人身先士卒，進行嘗試。對於其中2個成功騙貸的人，就可以作為成功範例，傳授其他人經驗（開始傳導）。

對於犯罪風險傳導監測模型的收益，黃姐姐拿一個實際案例來舉例，在C銀行的合作項目中，我們採用犯罪風險傳導監控，對潛伏用戶做提前預警，結果是平均可以比C銀行提前2.5天發現壞人，44%的用戶至少提前1天就被檢測到其犯罪動機。如下圖所示，發現我們的檢測點都集中在0-20天，而C銀行的檢測則在0-60天均勻分布。

對於檢測量，可以看到，通過潛伏分析，可以大大改善C銀行延遲檢測的尾部效應，如下圖所示：

結語：當今的社會是一個關係型社會，一個圈子會傾向於做同一件事，同為受害者或欺詐者。比如，孤寡老人圈子會成為電信詐騙的目標，而犯罪團伙也通常是曾經的朋友或者親戚組成的，就算你一個外人想加入，也必須通過熟人介紹才行，也已然成為行規。數據血緣關係分析作為反欺詐建模的基礎，犯罪風險傳導監測則作為反欺詐建模的理論依據和目標，越來越受到銀行風控領域的重視。

[1] Provenance, Lineage, and Workflows:

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.406.8789&rep=rep1&type=pdf

[2] 數據之間有血緣關係？數據治理不得不懂的血緣關係梳理方法

http://www.sohu.com/a/161142366_99934777

[3]風險傳導機理與風險能量理論

https://wenku.baidu.com/view/ef9f413ff08583d049649b6648d7c1c708a10b86.html

[4]商業銀行風險傳導

http://www.docin.com/p-1270342141.html