反欺詐之地址的處理和使用(二)

反欺詐之地址的處理和使用(二)

來自專欄 大數據反欺詐

反欺詐之地址的處理和使用(一)系統地梳理了地址的種類和利用地址的欺詐手法,本文將以此為基礎,介紹一下地址的處理和使用方法。

#地址的標準化#

(插播一則笑話:一天,黃姐姐在上海地鐵上,聽兩個遊客聊天,甲貌似在上海讀書,乙從北京過來玩。乙說:我要去外灘,城隍廟和陸家口…甲沒聽清,什麼?乙又重複了一遍:外灘,城隍廟和陸家口…這時,周圍一群人都笑趴了,黃姐姐也是憋出了內傷!甲強忍住笑說:陸家嘴!乙一臉懵逼:哦哦,我說張家口說順口了,對對,陸家嘴。)

言歸正傳,人有對常規地址的自動識別能力(一提到陸家嘴就知道在上海)和糾錯能力(能知道陸家口是陸家嘴的誤讀),而機器沒有。為了讓地址更有識別度,並且能讓機器看得懂,需要對地址進行標準化。何為標準化?讓我們看一個標杆性的地址標準化產品——淘寶。想必在淘寶/天貓買過東西的人都知道,我們在填寫收貨地址時,通常讓我們按照省+市+區+街道+詳細地址這五項來區分,體貼的淘寶,對於我們不太確認的地址,還提供「暫不知道」這一選項,之後會根據我們填寫的詳細地址來做匹配,以完善標準化信息,如下圖所示。

按照省+市+區+街道四個等級填寫,且在街道不確定時,提供「暫不知道」選項

再完善詳細地址後,會自動匹配對應街道

地址的標準化在採集時強制處理是最簡單有效的做法,但對於歷史數據的修復,以及對錯誤數據的更改和對特殊字元的處理,則需要比較細緻地處理。以下羅列了幾種常用的方法。

#不同種類地址的評估維度#

地址標準化好後,就可以根據地址的靜態信息和動態信息對其進行畫像了。

#貼標籤#

地址標準化並根據評估維度進行欄位衍生後,就可以為每個地址/區域貼標籤了。標籤也可以按照幾個維度來貼:

1.按照省、市、區、街道、商圈、樓、室幾個級別來貼;

2.按照房價絕對值和相對值來貼;

3.按照關鍵詞來貼,例如:「大學」對應老師或學生,「醫院」對應醫生、護士和病人,「電腦城」/「手機城」對應零售商等等;

4.按照地址屬性來貼,例如:模糊地址標籤,虛假地址標籤等

5.按照地址/區域逾期率來貼;

6.按照地址接收的平均訂單金額/訂單量來貼;

7.按照訂單商品來貼;

8.按照收貨地址變化頻率來貼;

9.按照公司地址行業來貼;

10.按照公司屬性來貼,例如:是屬於政府機關、學校還是企業?

其中,黃姐姐解釋一下第6條和第7條。在消費分期場景中,用戶會拿到一個授信額度,可以在電商平台上購物。壞人套現的方式就是一次性用光額度購買手機等易變現商品,例如,近期比較容易變現的是一款899的榮耀手機和799的紅米手機。那麼,假設黃姐姐的額度為2500元,那麼我會充分利用這一額度,巧妙組合,例如:兩款799?一款899,也即799*2+899=2497<2500,可謂是完美套現。那麼,結合地址信息,如果一個地址的訂單金額都約等於授信額度,且寄送的商品品類(如手機)和型號(如紅米5)集中,則可能為高風險客戶。

這個過程有點類似於給人物做側寫或者畫像,只是這裡的主角不再是人,而是地址。一個好的地址畫像需要結合場景和業務知識,同時要對數據分布做詳細周密地分析。此處無監督可以提供的就是對地址的分群處理。為了形象地描述,我將無監督的應用抽象成如下案例以方便大家理解。

對於一組雜亂的數據,逾期率為1%。我們通過一定手段對地址進行了分詞處理,發現其中包含「電腦」和「手機」兩個詞的群組中,逾期率高達80%。於是,我們給包含了「電腦」和「手機」的地址貼了一個標籤【零售商】,若結合業務知識,還可以給諸如「華強北」、「賽格」等辭彙同樣貼上【零售商】的標籤。

所以,簡單來說,地址文本的非結構化給地址的標註帶來了一定難度,而無監督有利於整理這些辭彙,有點像excel里的篩選和排序功能,只是,對地址的處理,你不知道是按照什麼條件來篩選和排序,而無監督給了你一個可能的篩選條件和思路,讓你無需對案件進行獨立分析,而是批量分析,從而大大節約了時間。

當然,單從地址信息這一個維度,不足以準確判定欺詐行為,僅能作為其中一個角度。為了不因為一刀切而導致的高誤傷,欺詐屬性的判別中,還是需要非常強的擴維能力,從各個角度進行欺詐屬性的綜合評分。


感謝作者:

侯局長 sohu.com/a/160365658_68


推薦閱讀:

2017年度中國互聯網黑灰產報告
金融風險管理之六 互聯網金融
設備風險反欺詐案例介紹
資產管理中的大數據風控運用
基於社交網路分析演算法(SNA)的反欺詐(三)

TAG:互聯網金融 | 大數據風控 | 反欺詐 |