標籤:

淺談業務風控 —— 數據埋點與應用

二十一世紀,互聯網迎來井噴式發展,各種傳統行業從線下走上線上,各類互聯網新名詞應運而生:O2O,B2C,P2P,B2B等,從而形成了各類商業模式。因此,電器,遊戲,廣告,金融等行業開始逐步走向互聯網+的轉變:從線下到線上,從PC端到移動端,從分散到垂直。行業在不斷調整,人們的生活習慣也在不斷演變。

由於新的格局,新互聯網時代所帶來的全新營運模式,惡意人群如羊毛黨等隨之而來,而業務風控就是為了解決此類業務層面所產生的風險和影響!

在現今的大數據時代下,一切業務風控都是圍繞著數據展開的。數據的維度越多,精度越細,體量越大,構建出的風險模型將會更完善,側寫的用戶畫像才會更完整,後續風控也將更為精準。

本文分享的數據收集聚焦在風控前期的數據埋點過程。一般在實際風控中,我們將埋點收集的數據分為三類:業務數據,環境設備數據,用戶行為數據。在介紹這些數據前,我們先來介紹下埋點。

埋點

那麼何為埋點呢?

所謂的埋點,指的是在前端功能的正常功能中添加統計功能,並且進行數據上報,上報過程可以是同步的,也可以是非同步的,甚至是周期性的,這取決於埋點場景,也取決於後續風控的數據應用時機。

現在有流行一種「無埋點」的概念,其實質是全埋點,是將所有的交互類操作全部進行了詳細記錄,然後再由產品和業務來決定哪些需要應用,以省去由於前期考慮不全導致後期需求變更帶來的版本迭代發布所損耗的時間。

業務數據

在理解了埋點的意義後,我相信首當其衝想到需要收集的就是業務數據,那麼哪些業務數據需要進行收集呢?可以大致歸納為以下幾類:

1) 用戶賬戶相關數據

包括賬戶登錄、賬戶註冊、修改密碼、修改賬戶信息等場景。舉幾個實際的場景來看:

  1. 登錄場景:

在登錄的過程中,我們經常會遇到撞庫、暴力破解、賬戶被盜等風險。而對於不同的風險,我們應用的數據和制定的風控規則也會各不相同。

首先我們來看下撞庫。在信息爆炸的今天,各種公司、網站信息泄露所形成的社工庫已經多如牛毛,大部分用戶的隱私信息已經不再私密。即使這部分用戶本身擁有極好的保存賬密習慣,也難逃泄露。

惡意用戶通過非法手段獲取到用戶其他平台的賬密後來對我們的業務平台進行撞庫。而此類撞庫行為,我們可以通過對同用戶登錄多個賬戶的行為進行監控。

其次再來看一下暴力破解,可以理解為有明確指向的撞庫。惡意用戶會頻繁嘗試登錄一個特定賬戶,通過使用反覆變更密碼的方式來對這個賬戶進行嘗試登錄。對於此類行為,我們可以通過監控單一賬戶的登錄次數與成功率等方式以第一時間了解。

最後我們來談談賬戶被盜問題。賬戶被盜的判斷是需要整合各方數據的。在我們收集了用戶的登錄數據後,需要將本次的登錄IP、設備環境等信息與用戶的歷史數據,積累的黑名單進行比對,來判斷本次是否為被盜登錄。(很多時候,由於本次疑似被盜的行為只有登錄數據,缺乏更多參數的模型給出的風險值不會太高,此時建議可以先打上疑似被盜的標籤,等實際發生敏感行為的時候再進行二次判斷,如購買場景。)

2. 註冊場景:

在註冊過程中,業務最希望解決的是「羊毛黨」和「儲備號」。

現今各類公司在吸納新用戶的過程幾乎大同小異:燒錢送福利。面對大量福利的各類產品,羊毛黨應時而生,而此類用戶的特徵非常明顯,註冊,領取福利,流失。

對於這類用戶,拋開從業務層面提升福利門檻,我們需要做的是對IP、設備信息、註冊內容的重合度等進行監控。又因為羊毛黨手裡握著大量的代理IP、手機虛擬號,此時必須還要通過技術手段收集代理和VPN的IP與手機虛擬號來深度認證。

而儲備號,也稱養號。這些賬戶作為惡意用戶的備用庫存而存在,一般會分為兩種。一種是註冊後就閑置,等需要時批量進行作業。但一般業務方都會對「新號」有一定周期的監控。所以另一種形式就應運而生。惡意用戶註冊後,每天通過腳本模擬正常用戶進行一些日常活動,來將自己剔除監控名單,成為一名「正常用戶」。對於這類用戶我們可以分析惡意樣本,來將自動化的活動進行分析,一般大部分批量的行為是可以有跡可循的。

類似這樣的場景還有很多,如修改密碼,綁定銀行卡,修改手機號等,很多盜卡盜號都會伴隨著這樣的行為出現,這裡本文就不一一贅述。

2) 用戶資產相關數據

用戶資產相關數據不僅包括支付,購買商品,轉賬等與錢有關的行為,也包括積分兌換、積分購買等虛擬貨幣行為。

前者的資金交易風險主要集中在盜卡盜刷,洗錢等情況。判斷是否被盜很多時候需要結合登錄數據、綁卡數據一起來看,比如已經泄露六要素的用戶將更可能發生盜卡情形,需要進行及時的攔截。另外對於頻繁地同目的地轉賬以及大額的金額都需要做到實時監控。

虛擬貨幣,很多業務也稱之為積分,點數,是專屬於業務的一種虛擬貨幣。很多時候,虛擬貨幣與錢是等價的,可以用來進行一切商品購買等操作,所以這部分數據也是需要進行埋點,並且需要留意。很多時候業務會忽視對積分消耗,積分轉讓的監控。

值得一提的是,現在不少互聯網金融公司的業務都實行同卡進出的原則,但這並不是絕對安全的。很多時候我們的產品會有一些周邊服務,如代充話費等。當賬戶被盜用後,這些將成為用戶資金流失的出口,所以在數據收集及應用監控中,對於此類場景也需要給予足夠的重視。

3) 風控輔助數據

還有一些需要進行數據埋點的場景本身不會有任何風險,但是卻可以作為輔助風控的數據。

如電商中的被盜場景。正如前文所說,我們很多時候無法通過一個簡單的惡意登錄,就認定為是一次盜號行為,但是可以通過用戶畫像對比(用戶歷史的購買偏好、登錄地址、消費能力、常用收貨地等多維度數據),最終認定是一次盜號登錄。所以通過對於各種適合的信息收集,可以更好的輔助風控,提升風控精度!

環境設備數據

在數據埋點中,收集環境設備數據是非常必要的,那有環境設備數據我們能做什麼呢?

1) 設備指紋

如前文所說,我們會建立一些規則來監控同IP的流量規則。例如,通過同一個IP登錄多個不同賬戶來監控是否可能有撞庫行為。

但我們知道由於IP屬性的特殊性,如代理IP,網吧IP等都可能使不同的用戶無意間「共享」了相同的IP。因此設備指紋可以更精準的定位用戶,也可以通過關聯手段來維護設備與用戶的關係,提升風控精準度。

2) 客戶端型號

通過數據埋點,我們可以很直觀地了解到用戶的機型,這裡分移動端和web端。

移動端我們可以看到用戶的機型是華為的,還是蘋果6S的等,很多時候人們會忽視這個小小的屬性,但是有時卻可以提供一些有用的線索。一般情況下我們認為安卓比IOS風險度更高,但我們發現有些惡意用戶就偏愛於使用IPHONE 5C機型。

而web端在很多時候我們可以通過一些瀏覽器特有屬性,如user-agent,refer等來分析用戶的請求是否可疑。

3) GPS定位

GPS的信息可以作為輔助判斷的一種。我們知道無論是GPS,IP,手機號,銀行卡,身份證都可以反推出對應的歸屬地。雖然不能作為一種強條件,但很多時候可以通過這類歸屬地的異同來發現問題。

4) 模擬器/越獄/root等

此類數據主要是針對移動端收集的。由於用戶可以通過技術手段對android,ios機器進行越獄或者獲取root許可權,甚至使用模擬器來進行訪問業務產品。對於此類用戶,通常的做法是給出非常高的風險度,尤其是模擬器,一般會選擇直接拒絕。

用戶行為數據

最後一個需要在前端收集的數據是用戶的行為數據。

在互聯網高速發展的今天,惡意用戶不會老老實實的按照「劇本」出牌。他們可能通過直接發送數據到介面的方式,進行快速地調用來顯示批量賬戶信息的註冊,也可能通過按鍵精靈,或者像SIKULI一樣的輔助工具來模擬人的行為進行自動化的登錄,等等。

而作為一個業務風控人員,你需要的是從大量的請求中分辨出這類用戶。因此,用戶行為數據的收集就是幫助我們更好的去分辨他們。

用戶行為數據需要收集的數據包括有用戶的訪問頁面、頁面點擊、滑鼠軌跡、按鍵、觸摸位置、操作間隔等。

通過對於這些數據進行整理,可以了解到用戶在單個頁面的行為軌跡。那對於訪問該頁面上的核心功能介面的用戶,如果沒有此類數據信息,可能就是相對高危的人群。

此外,我們可以結合多個頁面整體地分析一個用戶在一整個會話的行為過程,如正常購物的用戶的頁面訪問序是訪問主頁,登錄賬戶,搜索商品,加入購物車,點擊支付。而該用戶一反常態,收集到行為數據表現為登錄賬戶,點擊支付,同時我們了解到登錄行為有異常的話,這時候也會被認為是高風險的。

總結

本文簡單地對業務風控的埋點和後續應用做了簡單介紹。希望可以讓讀者能有簡單地了解和認識。在實際生產過程中,數據埋點大多數情況需要額外的數據清洗,而後續應用需要依賴離線分析,風險建模與規則引擎等。

本文原創作者:歲歲

*RoarTalk原創稿件,未經許可禁止轉載。

推薦閱讀:

用戰略的眼光看貸款
兩白雲里現藍天(二)
首份中企「走出去」全球風險版圖問世
用大數據原理避開小概率事件
【2016年11月宏觀策略】- 跟隨自己的心,找到那條主線

TAG:风险控制 |