無監督學習,你何德何能?

無監督學習不算新鮮,也談不上什麼高科技,但是將無監督應用於反欺詐實屬罕見,這也是DataVisor能夠在眾多反欺詐公司脫穎而出的原因之一吧。或許有人會問,無監督學習,你何德何能?為何可介入我反欺詐行業?事實上,無監督已經被認為是第四代反欺詐新技術,其在團伙欺詐方面的檢測成果也已被業界廣泛認可,收穫一片讚歎。

反欺詐技術趨勢

接下來,我們就來看看無監督學習是如何在反欺詐行業中大顯身手的。

作者在其文章《如何通俗易懂地解釋無監督演算法》中舉例說:

「在貓的識別中,我們來嘗試提取貓的特徵:皮毛、四肢、耳朵、眼睛、鬍鬚、牙齒、舌頭等等。通過對特徵相同的動物的聚類,可以將貓或者貓科動物聚成一類。但是此時,我們不知道這群毛茸茸的東西是什麼,我們只知道,這團東西屬於一類,兔子不在這個類(耳朵不符合),飛機也不在這個類(有翅膀)。特徵有效性直接決定著演算法有效性。如果我們拿體重來聚類,而忽略體態特徵,恐怕就很難區分出兔子和貓了。」

由此可見,特徵的選取和處理是無監督演算法的重中之重。

作者在其文章《【純乾貨】無監督核心聚類演算法》介紹混合高斯模型時又說過,高斯模型相比於K-means,不是告訴你「像不像」(非黑即白),而是告訴你「有多像」(相似比例)。

以上兩點就是無監督反欺詐最核心的兩個問題:

1. 選擇哪些特徵判斷好人還是壞人?

2. 這些特徵之間的相似度是多少?

初入反欺詐行業,筆者被教導說,要多關注欺詐手法,知己知彼方能百戰不殆。這裡的「知己知彼」就是為了選擇特徵,或者說,選擇有效特徵,強特徵。

舉個例子,在騙貸的場景下,我們拿到用戶的通訊錄清單,但這有什麼用呢?通過卧底欺詐團伙我們知道,通訊錄的作用有二:一是通過通訊錄找到用戶和用戶間的相關性,例如,張三和李四都通訊錄里都有王五,那麼張三和李四可能也互相認識;二是對照黑名單,看用戶的通訊錄里是否有老賴。舉個例子,你發現用戶張三的通訊錄里有老賴王五,那麼,就需要對張三特別關注。而如果我們不知道通訊錄的用途,可能就會忽略這一重要線索,而漏掉某些壞人,使結果的FN很高。

再舉個例子,在保險行業,同一片區域的保單採用的是相同的機構代碼。如果我們不知道這一點,而是把機構代碼相同作為特徵之一來聚類,就有點類似於想通過體重來區分兔子和貓了,結果就是產生大量的FP。

特徵的選擇通常需要較強的行業背景+經驗,俗話稱,隔行如隔山。如果你不懂得這個行業的業務邏輯,你便很難抓住壞人。你在明處,人家在暗處,那麼你被人偷襲是不可避免的事了。

通過以上兩個例子,我們知道如何選擇特徵,選擇什麼特徵很重要。事實上,選擇了合適的特徵卻沒有恰當地處理,同樣達不到反欺詐效果。這也是為什麼客戶和我們拿到同樣的數據,卻分析出不同的結果的原因。特徵計算主要包括:特徵提取、特徵拆解和特徵組合。特徵的提取就是特徵的選擇,上面已經介紹完畢。特徵拆解很容易理解,比如,我們把手機號碼或者ip地址或手機號的前綴拿出來對比,把前綴相同的人聚在一起來分析。 特徵的組合是指幾個欄位在一起才是有含義,例如欄位X是經度,欄位Y是緯度,那麼,XY才能確定這個人的地理位置,單獨的X或Y都不具備可研究性。巧妙利用特徵組合可以發現很多欺詐手法漏洞,識別機器人偽裝。例如,我們比較設備型號+設備解析度,發現某一批用戶的兩個信息不符(例如iPad的解析度竟然與iPhone 5相同),則可斷定這是採用模擬器偽裝的設備,其註冊的目的就不得而知了。

討論完了如何選取特徵以及如何做特徵計算,我們來看第二個問題,如何判斷特徵之間的相似度。我們採用集群內聯性Cj這一概念來定義相似度,如下圖所示。

圖中,通過自學習,選擇特徵權重wi和關聯函數Fi,得到關聯概率p(x,y),從而得到各個散點之間的內聯成都,也就是我們所說的「相似度」。這一過程用到了圖分析等各種聚類演算法,而其核心是DataVisor自主研發的無監督演算法。將此演算法應用於反欺詐可謂是如魚得水,運用自如。為了便於理解,我分兩個步驟來介紹:

第一步:特徵映射及聚類,如下圖所示。每一個用戶的信息被映射到多維向量空間(點),並採用DataVisor無監督演算法進行動態聚類,可以看到聚類後成團的點簇,我們稱之為集群(Cluster)。

第二步:判斷欺詐屬性,如下圖所示。聚類出的群組特徵與DataVisor全球智能信譽庫匹配,檢測群組集中性、規律性、與全量相比的差異性、特徵稀有性等各種信息,同時結合業務經驗,判斷群組的欺詐屬性。

至此,想必各位看官對無監督之所以能應用於反欺詐領域都有所了解了。如果你還在為不可預知的欺詐模式所苦惱,不妨試試第四代反欺詐新技術——無監督學習。或許,無監督可以為你提供不一樣的視角,讓你洞察尚不為人知的欺詐。


推薦閱讀:

不用很麻煩很累,三分鐘看懂「三大學習」

TAG:無監督學習 | 反欺詐 | 大數據 |