反欺詐之血緣關係分析和犯罪傳導監測
來自專欄 大數據反欺詐
文前小故事:隔壁阿姨最近總是帶個包鬼鬼祟祟地出去,媽媽好奇,今天跑過去串門,問她最近在忙什麼,她一下就忍不住哭了起來:
我被人騙了……好多人去要錢……我把我姐和我女兒也坑了……那是我姐夫的安葬費……還有我侄子……媽媽安慰她,讓她慢慢說。然後才理出了事情的原委:她在超市門口接到小傳單,理財投資,年化18%~24%,就自己投了10萬塊進去,感覺很好,每個月都返利息,還安排他們去旅遊,送各種日用品。後來,她陸續拉著自己的姐姐,女兒,侄子,七大姑八大姨都去投資,自己也追投了幾十萬。去年4月份,投資公司老闆跑路到了美國。從去年到現在,她總是去參與各種各樣的「討債」活動,但也都是無功而返。這樣的事情並不少見,一個人是受害者,會無意間牽連自己的親朋好友也成了受害者;一個人推銷保險,也都是先從親戚朋友下手;一個人搞傳銷,會把親爸親媽親同學發展成下線;一個人犯罪,會拉著全村人一起犯罪(比如電影《巨額來電》中的林阿海)……
近期,一銀行找到我,說他們現在有一個立項,題目是《數據血緣關係智能分析和犯罪風險傳導監測》,希望聽聽我的建議。今天正好聽到媽媽跟我說起這件事,就想,還是針對這個課題,好好整理下思路,講一講我的看法吧。同樣還是黃姐姐的風格,為了僅圍繞反欺詐做探討,本文僅會講解與反欺詐相關的知識點,想系統學習的朋友,請參照其他資料。
#數據血緣關係
數據血緣關係,英文Pedigree,也稱Provenance或linkage,指的是數據源(source)到衍生(derivation)欄位的鏈路,也就是數據從產生,到加工組合拆解,再到最後消亡的整個生命周期的過程,用一個成語概括,就是數據的「來龍去脈」。之所以稱為「血緣關係」,是因為這與人類社會很像。通過一步的加工可類比「直系血親」,通過多步的加工可類比「旁系血親」。這裡舉個例子,以下是從一個用戶那裡獲取的user agent
Mozilla/5.0 (Linux; Android 7.0; BAC-AL00 Build/HUAWEIBAC-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/6.2 TBS/044022 Mobile Safari/537.36 MicroMessenger/6.6.6.1300(0x26060634) NetType/WIFI Language/zh_CN
從這裡,我們可以分解出:手機品牌、操作系統、版本號、網路情況、瀏覽器信息等等,這些欄位的「父親」就是user agent,屬於直系血親。現在,我們通過這裡解析的操作系統+版本號,再加上從其他渠道獲得的device id和電池電量,將4個欄位組合成一個新欄位,命名fingerprint。那麼,fingerprint則擁有4個「父親」,與user agent屬於旁系血親。市面上有很多幫忙梳理數據血緣關係的工具,基本思路都是將其鏈路可視化。一般有:信息節點、數據流轉線路、清洗規則節點、轉換規則節點、數據歸檔銷毀規則節點。
對於反欺詐建模,數據清洗和特徵衍生往往是第一步,也是最為重要的一步。可以說,數據質量直接影響著模型結果(用爛水果,無論如何都榨不出一杯美味的果汁)。而數據血緣關係,無論從數據價值評估還是從數據關係梳理上,都可以給建模人員提供有效的幫助。這裡再舉一個前兩天遇到的案例,一個群組84人,我們發現這些人有人用wifi,有人用4G,IP卻完全相同,十分詭異。在去對這一現象做判斷前,我們先是要確定數據的準確性,也就是追根溯源,看網路信息是從哪個源頭衍生出來的,再去判斷這個源頭的有效性。如果有一個好的數據血緣分析工具,則可以快速定位。如果判斷數據準確,才能再進行下一步分析:使用4G的IP是否都是定位在運營商基站?同一地點連接的基站是否會跳轉?是否有人開了熱點?還是這是模擬器造成的詭異現象?
總之,數據血緣關係分析,可以應用於整個反欺詐建模過程:從數據預處理,參數初始化,到結果分析。
#犯罪風險傳導
一提到風險傳導,可能很多業內人士都會想到宏觀經濟中的其他風險向業內傳導,比如整個經濟的大蕭條;或者微觀經濟中銀行間或同一銀行業務間的風險傳導。事實上,犯罪風險傳導與此類似,也都是從風險源,經過某些傳導載體,傳導到各個節點,最後再傳遞到我們的研究對象,也就是風險接受者。這一過程,可能還有外部風險的影響,比如政策影響、失業比例等等。如下圖所示:
為了方便大家理解,這裡舉個例子。信用卡代還業務剛剛興起時,銀行信用卡壞賬率有顯著的下降。因為銀行信用卡的逾期會上徵信,所以一是很多暫時沒辦法償還信用卡的人,會利用信用卡代還業務償還信用卡,這樣,銀行的信用風險降低了。另外,很多信用卡代還業務在推廣期,對人員資質審核要求比較低,所以很多騙貸人員也盯上了這一福利,進行大肆騙貸,也給銀行的欺詐風險減壓。某一新型業務的興起,通常會在短期內影響整個大環境的風險分布,信用卡代還就是一個典型案例。一段時間後,信用卡代還業務的風控不斷加強,口子不斷收緊,會導致騙貸團伙轉移到其他口子,比如P2P或者消費貸。
對於反欺詐的犯罪風險傳導,一是要從業務層面分析;二是從數據層面分析。對於前者,需要從政策、宏觀經濟、失業率、同業分析、近業分析、競業分析等等角度來看(比如信用卡代還對信用卡逾期的影響);對於後者,則可以藉助各種數學模型來分析。以下以圖分析為例,簡單介紹如何進行犯罪風險傳導分析。圖分析理論中最經典的要數社交網路分析,關於社交網路分析的基礎知識和應用請參照黃姐姐之前的系列文章《基於社交網路分析演算法(SNA)的反欺詐》。
首先,我們要明確犯罪風險傳導監測的目的,那就是提前預警。也就是對於一個群組,當某幾個人開始犯案時,其犯案手段可能會傳導到其他人,或者帶領其他人一起犯案,就像文前小故事裡提到的幾個例子。這裡,首先犯案的可以理解成風險傳導圖中的「風險源」,傳導載體可以理解成社交網路分析中的「邊」,節點可以理解成關聯社群(community),風險接受者就是我們想要去阻攔的潛在犯罪者。
現在,假設我們已經通過社交網路分析發現了一個團體,其關聯性比如:
1. 同時連接過某一個wifi,假設wifi名叫「擼個口子回家過年」;
2.同時辦理了某銀行的某個卡種的信用卡;
3. 都居住在某個小區,白天GPS定位顯示都集中在某個棋牌室;
4. 同一天出現了異地消費。
這時,我們發現,紅圈中圈出來的5個人都向銀行提出了貸款申請,其中2個人審批通過且已經出現M3+逾期,另外3人被拒。這時,我們就有理由懷疑,整個群組都有騙貸嫌疑。那麼,對於這個群體,其在進行貸款或信用卡申請時,我們則需要特別注意,要麼拒絕,要麼降低其額度,以降低風險。
進一步分析,其背後動機可能是這樣的:一群閑散人員,不務正業,每天的工作就是打麻將,他們相互認識。可能在某天被某個外部人員遊說,帶其到某個詐騙團伙接受培訓,並交了入伙費(異地消費),回來後,他們也開始從事詐騙工作,第一步就是騙貸。而為了試探什麼樣的條件才能通過銀行貸款審核,紅圈中的五個人身先士卒,進行嘗試。對於其中2個成功騙貸的人,就可以作為成功範例,傳授其他人經驗(開始傳導)。
對於犯罪風險傳導監測模型的收益,黃姐姐拿一個實際案例來舉例,在C銀行的合作項目中,我們採用犯罪風險傳導監控,對潛伏用戶做提前預警,結果是平均可以比C銀行提前2.5天發現壞人,44%的用戶至少提前1天就被檢測到其犯罪動機。如下圖所示,發現我們的檢測點都集中在0-20天,而C銀行的檢測則在0-60天均勻分布。
對於檢測量,可以看到,通過潛伏分析,可以大大改善C銀行延遲檢測的尾部效應,如下圖所示:
結語:當今的社會是一個關係型社會,一個圈子會傾向於做同一件事,同為受害者或欺詐者。比如,孤寡老人圈子會成為電信詐騙的目標,而犯罪團伙也通常是曾經的朋友或者親戚組成的,就算你一個外人想加入,也必須通過熟人介紹才行,也已然成為行規。數據血緣關係分析作為反欺詐建模的基礎,犯罪風險傳導監測則作為反欺詐建模的理論依據和目標,越來越受到銀行風控領域的重視。
[1] Provenance, Lineage, and Workflows:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.406.8789&rep=rep1&type=pdf
[2] 數據之間有血緣關係?數據治理不得不懂的血緣關係梳理方法
http://www.sohu.com/a/161142366_99934777
[3]風險傳導機理與風險能量理論
https://wenku.baidu.com/view/ef9f413ff08583d049649b6648d7c1c708a10b86.html
[4]商業銀行風險傳導
http://www.docin.com/p-1270342141.html
推薦閱讀:
※2017年度中國互聯網黑灰產報告
※基於遷移學習(Transfer learning)的反欺詐(二)
※騙貸套路深,千萬要認真(車貸風控必看)
※互金時代大數據在貸後管理中的應用