風控利器之 IP
IP地址的所有研究,其實可以歸到三個問題上:
1、這個IP在哪兒?
2、這個IP是什麼?
3、這個IP幹了什麼?
看似簡單的問題,但每個都需要投入巨大深入研究的代價。在IP畫像研發過程中,我們接觸了國內外很多出色的IP地址數據服務商,也經過諸多的測試與調研,最終我們選擇了最優的平台,作為我們的基礎數據供應商,在這些數據的基礎上,產生出了更加豐富的信息,最終投入到各個風控場景中進行使用。
關於IP的一些冷知識:
IP地址(本文中特指IPv4地址),是用於標識網路和主機的一種邏輯標識。依託於強大的TCP/IP協議,使得我們可以憑藉一個IP地址,就訪問互聯網上的所有資源。
IP地址本質上,只是一個32位的無符號整型(unsigned int),範圍從0 ~ 2^32 ,總計約43億個IP地址。為了便於使用,一般使用字元串形式的IP地址,也就是我們平常用到的192.168.0.1這種形式。實際上,就是把整數,每8個二進位位轉換成對應的十進位整數,以點分隔的形式使用。
比如,192.168.0.1和3232235521是等價的。
全球共有五個區域互聯網註冊機構(RIR),分別是:
美洲互聯網號碼註冊管理機構(American Registry for Internet Numbers,ARIN);
歐洲IP網路資源協調中心(RIPE Network Coordination Centre,RIPE NCC);
亞太網路信息中心(Asia-Pacific Network Information Centre,APNIC);
拉丁美洲及加勒比地區互聯網地址註冊管理機構(Latin American and Caribbean Internet Address Registry,LACNIC);
非洲網路信息中心(African Network Information Centre,AfriNIC)。
IP地址的劃分,有RIR機構來進行統籌管理。負責亞洲地區IP地址分配的,就是APNIC,總部位於澳大利亞墨爾本。
各大RIR機構都提供了關於IP地址劃分的登記信息,即whois記錄。可以在各大RIR機構提供的whois查詢頁面上查看,或者使用whois命令查詢:
whois信息中,會顯示IP地址所屬的網段,以及申請使用和維護這個網段的運營商。比如,上面的信息中顯示,153.35.93.31隸屬於江蘇省聯通。
NO.1
這個IP在哪兒?
前面提到IP的whois信息,其中包含了申請使用該IP的運營商信息,並且在網段描述信息中,會包含國籍和省份信息。
但是這樣遠遠不夠,風控場景中,我們需要更加精確的結果,需要知道這個IP具體在哪個城市、哪個鄉鎮,甚至希望能夠精確到某一條街道或者小區。
曾有人問:我們的IP地址庫是否能夠提供這樣的結果?可以確定用戶在某個網吧、寫字樓甚至某個小區?
那上面這樣的IP資料庫是如何產生的呢?
俗稱「人海戰術」。您可別不相信,直到今天,依然有眾多的網友在為這個IP庫提供數據更新,上報IP地址的確切位置。但我們無從考證這個位置信息是否真實準確,如果不能報保證數據的準確性,在風控決策中同盾是不會去使用的。
一種IP地址定位手段,是通過海量Traceroute信息來分析。
理論上,如果我能夠得到所有IP相互之間Traceroute的信息,就可以繪製出整個互聯網的鏈路圖。
(上圖來自於http://IPIP.NET提供的BestTrace工具)
每一次traceroute,都會返回詳細的網路鏈路信息。積累了足夠多的鏈路信息之後,就可以直觀地看出,很多鏈路都經過了同一個IP,那麼這個IP就是骨幹節點或者區域的骨幹節點。先確定出哪些節點是CN2骨幹節點,進一步確定省級骨幹節點,再逐一識別市縣區級的骨幹節點,最後得到全國範圍內的網路分布。
以下是CAIDA的一份報告,使用了類似的原理,但統計的最小單位是AS(自治域)
(CAIDA原圖鏈接:http://www.caida.org/research/topology/as_core_network/2015/)
圈的邊緣,就是探測節點,中間的紅色部分,就是全球互聯網的骨幹節點。原理雖然簡單,但實現起來卻沒那麼容易。
首先,你得有足夠數量的節點來探測、收集traceroute鏈路數據。其次,要有可靠的技術手段來及時分析探測到的結果,匯總形成IP地址資料庫。據了解,DigitalElemet也用了類似的方式進行探測,在全球範圍內一共部署了超過8萬個探測節點。
根據這種網路鏈路探測的出的定位結果,業內又稱之為「網路位置」。就是從互聯網的結構上來說,我們最終確定了一個IP,被分配到了某個地方的運營商手裡。
但是我們又遇到了很多其他的情況,給大家舉幾個簡單的例子。
117.61.31.0 江蘇省 南京市 電信
通過分析這個IP關聯的所有定位數據,得到了如下的分布:
這種情況,我們稱為「流量回源」。當用戶在使用南京電信的手機卡上網時,無論用戶身處哪裡,他的流量都會回到南京電信,再轉發出去,所以從IP上看,都會顯示為一個南京的IP。
上面的定位信息分布,可以在RTB Asia的IP地址實驗室中https://ip.rtbasia.com/。
153.35.93.32 江蘇省 南京市 聯通
各種渠道的信息表明,這個IP確實分配到了南京聯通,結果定位點全部落在了北京市的範圍內。如果我們根據IP的定位結果來判斷用戶當前的位置,得到的結果肯定就錯了。
難道前面提供的信息錯了?其實是由於國內運營商對IP地址的劃分和使用不透明,甚至特殊形式的租賃,導致北京的用戶,分配到了一個南京的IP。
IP地址跨城市覆蓋,覆蓋範圍非常大,用戶位置和網路位置不在同一個城市甚至不在同一個省,都會影響到結果,無法準確給出判斷。
另一方面,隨著移動設備的普及,在用戶允許的情況下,可以通過移動設備採集到設備上的GPS信息。前面大家看到的兩張定位分布圖,就是分析一個IP在歷史上關聯過的所有GPS定位繪製出來的。每一個紅點,都表示曾經有一個用戶這裡出現過。再通過聚類和GPS反向解析,就可以預測一個IP下的用戶,可能出現的地理位置。這個結果,我們又稱之為「行為位置」。
這種分析方法看起來效果非常不錯,但是卻面臨兩個很重要的問題。
其一是,今年來設備作弊的方式層出不窮,如果沒有有效的手段來保證數據的準確性和可靠性,最終得出的結果也會有偏差。
比如下面這裡例子,定位點非常規整地分布在一個矩形區域內,而且覆蓋到了海面上,做了深入的分析之後才發現這個IP下面有大量的作弊行為:
另一方面,依靠定位點分布來分析IP的定位,需要長時間積累GPS數據。人口密集的地方,這個數據積累可以只要一天,二線城市需要一周,三線城市就需要至少一個月了。此前還遇到一個位於塔克拉瑪干沙漠中的基站IP,至今還沒有過與之關聯的GPS信息。如果某一天,IP地址被重新分配了,劃分到另外一個城市去使用,就需要等上一周甚至一個月的時間,才能重新校正結果。而網路鏈路的分析可以很快感知到。
實際的使用中,我們會把這兩種方式結合到一起。並不是說,兩個定位結果中,有一個錯了。兩個都是正確答案,只是某些情況下,有一個答案並不適合風控場景。
互聯網,就像物流系統一樣。我們分析IP的位置,和分析一個快遞小哥負責派送的區域原理是一樣。沒有哪個快遞小哥只給一戶人家送貨,IP也一樣,我們最終只能確定這個IP後面的用戶,可能出現的地理位置區域。隨著技術的提升,數據的積累,我們能夠不斷縮小這個範圍,達到最貼近真實的結果。
---------------------------------分割線------------------------------------------------------------
上文中我們提到了通過每個IP下的用戶行為,判斷用戶群體的類型,進而給出IP地址的分類結果。那些,其實都只是最簡單,最基礎的一些分類方法。通過特定的指標計算、聚類演算法,就可以得出結果。
然而,IP畫像,是圍繞反欺詐展開的,我們希望能夠準確的評估一個IP地址的風險性,進而在風控策略中進行調控。
在IP畫像設計初期,我們設計了一個風險評分,用於總體評價這個IP地址風險。風險分數中,IP是否有代理行為、是否命中已知的威脅情報、是否發生過風險行為,都作為評估的依據。但是這樣的一個籠統的評分,在實際使用中卻有諸多不便。
比如,我們曾經發現過一個IP地址,由於頻繁的發生盜卡行為,最終我們給出的風險評分達到了94分(0~100,分數越高風險越高),然而這個IP下其他行為都是正常的,大量的正常用戶通過這個IP進行登錄、交易、支付等活動。
於是,我們萌生了一個想法,能否準確地定性一個IP到底做過什麼樣的壞事兒?
什麼是壞事兒?
反欺詐中,涉及到的業務風險其實非常非常多。不同的行業、不同的平台都會有各自獨有的一些風險。n
就拿「黃牛」來說,隨著互聯網的發展,黃牛也從最早的票販子,演變出了很多很多的花樣。
案例1:在各大航空公司的網上訂票渠道中,存在很多「佔座黃牛」,他們通過特定的渠道,訂購了一定數量的廉價機票,然後加價轉售,甚至會高出這張機票原有的價格。如果不能及時出手,黃牛就會選擇退票,導致飛機上出現很多空座位,各大航空公司對此也很頭疼。轉手的過程很簡單,只需要修改乘機人即可,這個行為可以通過線上的數據分析發現出來。
案例2:一些票務網站(專指演唱會、賽事門票),黃牛會註冊大量賬號,搶購演唱會門票,拿到門票後,加價出手。由於黃牛拿到了實體票,轉手過程是在線下進行的,通過線上行為就無法進行監控。但是,在搶票過程中,黃牛為了增加自己搶到票的幾率,會使用很多個賬號重複下單,大量訂單中的收穫地址都是同一個或者具有極高的相似度。
案例3:美團、貓眼、格瓦拉等購買電影票的平台中,也存在很大數量的黃牛。尤其是一些熱門大片兒的首映票,價格可以炒到很高。電影票的黃牛,往往以代購的形式操作,他們擁有很高折扣的會員卡,可以低價購買到電影票,然後適當加價轉手。黃牛完成支付後,拿到取票二維碼,然後把二維碼發送給買家。這個過程,也是很難通過線上的行為來進行檢測的。
如果我們需要分析一個IP到底做了什麼壞事,就必須要先給出明確的定義,到底什麼樣的行為算是壞事。然後把這些行為分解為非常詳細的特徵指標,進行建模。
這個過程是漫長的,就像上面舉的例子,同樣是「黃牛」,由於不同的平台,不通過的行業類型,中間存在著非常巨大的差異。每一種行為都要做這樣的深入分析和研究,其實我們一開始是拒絕的......
在後來的一段時間裡,我們團隊接到了越來越多的提問,客戶希望知道,這個IP到底幹了什麼?到底有沒有風險?我們只能硬著頭皮,去提取這個IP在過去半年裡的行為數據,然後逐一分析。說到底,單憑一個IP地址的類型和地理位置,遠遠無法滿足風控的需求。最終,我們決定要做這麼件事兒。於是好幾個月就這麼過去了。
首先,我們梳理了一份反欺詐的詞表,用來給出各種欺詐行為的明確定義。
上面的列表中,是反欺詐詞典中一小部分,列舉了一些對互聯網公司來說最為常見的風險行為。n
那麼,接下來的問題就是要逐一對這些風險行為進行取樣,分析其中的行為特徵。
特徵提取
篇幅有限,這裡就簡單介紹一下我們對黃牛(票務行業)做行為分析和建模的過程。
上圖中,是我們抽取到的一份較為典型的黃牛搶票記錄。
從這些記錄里,能獲取到怎樣的信息呢?n
1、這批賬號都在同一天註冊,並且註冊時間較為集中,註冊時間間隔大約為30秒;
2、每個賬戶只下一個訂單,但是多個訂單產生的時間非常接近,時間間隔僅為毫秒級;
3、多個訂單中的收貨人姓名很相似,直觀判斷,不太可能是真實的姓名;
4、多個訂單中的收貨地址有明顯的異常,在末尾添加了無用的字元串;
5、收穫地址末尾的字元串為11位的數字,比較像手機號,多個訂單中的這個字元串相同;
6、賬號註冊和風險發生,中間存在較長的時間,可以定義為休眠賬號或養號行為。
如果對這個地址做檢查,我們會發現:廣東省佛山市均安鎮均欖路天連大道是真實存在的。
但是這附近並沒有什麼小區,反而更像是一個村子。也就是說,收貨地址中,「天連大道」之後的部分都是隨機添加的,可能並沒有任何意義。
這樣的做法,是為了避免平台對收穫地址做校驗,如果大量訂單都寄送到同一個收穫地址,那麼這些訂單都存在刷單的嫌疑。n
上面的地圖中,你可能也注意到了,其實並沒有「天連大道」和「天連路」,其實是同一條街。但是由於名稱不同,在地址核驗過程中,就有可能被認為是兩個不同的地址。類似的,比如「南京市白下區李府街」和「南京市秦淮區李府街」,也是同一條街道,2014年白下區被撤銷,整體併入秦淮區。從行政區划上看,白下區已經不存在了,但是物流和快遞大哥都知道,整個南京市就那麼一條李府街,貨物也可以成功地遞交到收貨人手中。
為此,我們也建立了一套用於對收貨地址做真實性核驗的系統,用於判斷多個地址,是否指向了同一個地點。n
除了前面列舉的三個特徵之外,還有一個比較隱蔽的特徵,就是註冊這些賬號的手機號,其實都是」虛假號碼「(參見:虛假號碼【反欺詐專欄】互聯網黑產剖析——虛假號碼)。換句話說,提交這些訂單的用戶,其實都是通過垃圾註冊產生的垃圾賬戶(虛假賬戶)。除此之外,通過設備指紋技術,我們也識別出,這些訂單其實都來自於同一台PC。從IP維度上,雖然每個訂單的來源IP都不相同,但是每個IP都最終被確認為代理或者機房。
以上種種,就成為我們判斷黃牛行為的特徵,歸納如下:n
1、黃牛會事先通過垃圾註冊準備一批可用的賬號,註冊過程中往往會使用虛假號碼;
2、賬號註冊過程中會出時間、IP、設備上的集中性,即同一個設備,同一個IP上註冊了大量賬號;n3、多個訂單中的收貨人、收貨地址不真實或相似度極高;
4、多個訂單可能從同一個設備上產生;
5、提交訂單的IP地址,大部分是機房IP或者代理IP;
6、垃圾賬號註冊完成之後可能不會立即進行搶票,而是經過了較長的沉睡期或進行特定的養號活動......
進一步細化之後,得到具體的指標參數,就可以進入訓練模型的階段了。
攻擊鏈路
攻擊鏈路(aka Kill-Chain),是安全領域中一個討論比較多的話題。任何一次風險,都不會平白無故地發生,而是會有一個過程。對一次風險的定義,可以從最終的結果進行定義,但是更多的往往是對這個風險過程的定義。
以偷竊為例,一定會有這麼幾個步驟:n
尋找目標 -- 蹲點 -- 標記 -- 作案準備 -- 撬門/扒窗 -- 進入房間 -- 尋找保險箱 -- 撬開保險箱 -- 拿走錢/珠寶 -- 清理現場 -- 離開現場 -- 銷贓 -- 尋找下一個目標
上面的這些,就是Kill-Chain中的節點(Node),也可以叫做風險過程(Process)。在整個攻擊鏈路中,只有起點和終點是確定的,剩下的部分,可能會沒有,也可能因為各種突發情況而產生分支鏈路忽然中斷,或者重複某些環節。多個攻擊鏈路,會在特定的一個節點上匯聚,這個節點,就成為了風險防控的關鍵節點。在這個節點上進行防護,效果就會比較好。
欺詐風險,也是一樣的。前面分析黃牛的特徵中,我們提到了黃牛會使用一批垃圾賬號進行下單。分析一個賬號的欺詐行為,需要縱觀這個賬號的整個生命周期,或者在既定的時間片內,關聯上下文,看用戶的行為在每一個環節中是否符合特定風險的特徵。
那麼,針對黃牛風險,攻擊鏈路就可以表示如下:
在攻擊鏈路中,越是靠前的節點,發現和識別越為困難,因為各種特徵其實並不明顯,只能判斷本次事件有嫌疑,而不能確定具體的風險。但是在這些環節上進行防護,起到的效果是最為顯著的,成本也相對要低很多。
越是靠後的節點,發現和識別變得簡單,很多特徵都比較明顯,但是防護就變得困難。並且,由於攻擊鏈路本身會產生很多分支,可能在其他環節上已經產生了,即便是同一批次註冊的垃圾賬號,可能會在不同的場景中被使用。n
此外,某些節點上會產生大量的分支鏈路,比如垃圾註冊。通過註冊工具/腳本,批量產生的垃圾賬號,可能在後續的多種業務場景中出現,不同的業務場景中,又有著不同的風險。
平台的業務越豐富,這個分支就會變得越發明顯。如果一個平台同時提供了電商、電影票、團購、點評等多種線上業務,那麼這個攻擊鏈路就會變得非常複雜。n
這也是為什麼我們要建立IP地址畫像、手機號畫像和設備畫像的原因。通過已知的各種風險行為,建立模型,通過跨平台、跨行業來進行聯防聯控,只要這個手機號、IP或者設備在歷史上發生過一次風險行為,就會被識別出來,並且打上標記。
在整個攻擊鏈路最開始的地方進行防護,並且在賬號的整個生命周期中,進行持續監控,使得最終能夠造成風險的賬戶數量降至最低。
在對抗中進步
這場欺詐和反欺詐的對抗,已經持續了多年,並且還將繼續下去。n
我們在不斷提升檢測能力、改進檢測方式的同時,欺詐分子也在不斷地產生新的作弊手段。並且,互聯網在不斷地尋求創新,同樣是促銷活動,在不同的平台上,會有截然不同的呈現方式,業務流程也不盡相同。這對我們分析風險行為,提取特徵帶來了極大的困難。
一旦新的業務模式產生,欺詐分子也會相應地尋找可供利用的業務邏輯缺陷,甚至產生一些新的風險類型。這需要我們不斷地觀察、學習和改進。為此,我們引入了無監督模型來輔助完成大量的指標提取工作。即使欺詐分子使用了新的技術、新的手段,特定風險的攻擊鏈路是不會改變的,無監督模型可以從中提取出新的異常指標,再對模型進行優化和迭代。
結語
我們識別出的每一次風險行為,都會作為標籤,標記在手機號、IP和設備上。即使欺詐分子不斷地更換這些信息,也總會被發現出來。這是同盾跨行業、跨平台聯防聯控的巨大優勢,也是我們對抗欺詐行為的有力武器。
這些標籤,目前在IP畫像中已經可以使用,隨著我們研究的進一步深入,越來越多的模型被開發出來,可以準確識別的風險行為也越來越多,力求讓欺詐分子無所遁形。
本文摘自同盾相關公眾號
推薦閱讀:
※一個投資組合包括股票和債券,計算組合 Var 值用什麼方法比較合理?
※做stress testing的scenario時如何確定某一事件stress的時間區間?
※如何系統性評估反作弊模型效果?
※國標《保理術語》評析(連載終):額度、風險資產及其他