如何利用大數據發現非法傳銷網路?
4 人贊了文章
註:本文版權由周濤教授團隊所有,首發於微信公眾號「DataCastle數據城堡」(ID:DataCastle2016),如需轉載還請提前聯絡songdi@datacastle.cn,非常感謝。
非法傳銷在國內一直是個屢禁不止的毒瘤。最近,東北大學畢業生李文星之死,使得這個問題再次暴露出來。
正如魏澤西之於虛假廣告,徐玉玉之於電信詐騙,李文星的意外死亡,使得在國內多地明火執仗、存在多年、甚至和本地人民「水乳交融」的傳銷組織突然面臨前所未有的嚴厲打擊。
我們和中國X動通信集團公司(考慮到本工作的敏感性,這裡不方便透露合作公司的全名)合作探索如何快速從通話行為中甄別出傳銷網路。
下面我給出如何利用數據挖掘和網路科學的方法以幾乎100%的準確率和0%的錯誤判斷率來發現非法傳銷。一些數據和方法的細節,不在本文中詳細介紹。
我們分析了一個子網路中4天的通話網路並處理成無向網路。
其中用戶被分成四類:普通用戶、某大型企業員工、服務帳號、傳銷組織人員。
我們從這些用戶中選取一位作為種子節點,畫出從這個節點出發按廣度優先搜索(走有限幾步足矣)獲得的子網(這樣的網路,我們稱之為ego networks[1][2])。
廣度優先搜索 | 是最簡便的圖的搜索演算法之一,這一演算法也是很多重要的圖的演算法的原型。其別名又叫BFS(Breadth First Search),屬於一種盲目搜尋法,目的是系統地展開並檢查圖中的所有節點,以找尋結果。換句話說,它並不考慮結果的可能位置,而是通過徹底地搜索整張圖,直到找到結果為止。
下面4個圖分別是從普通用戶、服務帳號、企業某領導、傳銷組織某頭目出發得到的4個ego networks。
ego network | 它的節點是由唯一的一個中心節點(ego),以及這個節點的鄰居(alters)組成的,它的邊只包括了ego和alter之間,以及alter與alter之間的邊。
大家可以看到,普通用戶和服務帳號與傳銷網路相去甚遠,但是公司也有類似於傳銷網路的層次管理結構[3-5]。
圖1:某普通用戶的ego network。
圖2:某服務帳號的ego network。
圖3:某企業領導的ego network(局限在本企業員工中)。
圖4:某非法傳銷組織頭目的ego network。
通過四種常見用戶群組通話網路的比較,我們發現傳銷網路呈現與實際業務模式相一致的類樹狀層級結構。
而與傳銷組織有著相同層級模式的公司用戶群網路層級模式也非常明顯,但是非相鄰層級之間,非同一組之間的節點也有通話。我們因此總結了傳銷網路三種明顯的特徵:
- 節點之間不跨級聯繫。
- 同級不搶佔下線。
- 同級非同上線節點不聯繫。
基於我們總結的傳銷組織三類特徵,我們定義了三個特徵指標,如表1。
注意,i1指標中如果一個節點i有兩個位於上一層的連邊j1和j2,則按照廣度優先搜索的順序,第一個擴展到i的節點被認為是i的父節點。
父結點 | (the parent node)在資料庫管理中的數據模型中,早期階段的層次模型和網狀模型中,一個屬性如果有上一級,則稱這個上一級是它的父節點,如果沒有上一級,則這個屬性則無父節點。
表1:網路屬性量化指標
僅僅利用這三個指標,我們就可以很好分辨出不同ego網路是不是疑似傳銷網路,如表2。
表2:基於四類有向無權網路計算的指標信息。
當然,傳銷網路還有很多特徵是和一般網路不一樣的,例如涉及傳銷的網路的用戶出度和入度分布都和其他網路大不一樣[6],可以設計簡單指標來做清楚的區分,例如出度為2-10的節點總數比上出度為1的節點總數。
入度 (in-degree) | 以某類頂點為弧頭,終止於該頂點的弧的數目稱為該頂點的入度 。
出度 (out-degree) | 以某類頂點為弧尾,起始與該頂點的弧的數目稱為該頂點的出度。
圖5:出度分布的比較,其中目標用戶群指傳銷組織
圖6:入度分布的比較,其中目標用戶群指傳銷組織。
根據以上分析(如果加上一些更細緻的特徵,還能夠得到更好的結果。但因為本問題的敏感性,只能暫時留白),我們可以設計疑似傳銷網路的生長演算法,從任何一個節點出發,生長出可能的最大的疑似傳銷網路,然後根據生長情況判斷它是不是一個傳銷網路。
如表3所示,我們能夠覆蓋節點數佔比大約只有0.1%的疑似傳銷人群,但是對於其他已經甄別出來沒有問題的人群完全不誤判(準確甄別使用的是公安部門的結果)。
表3:節點覆蓋度
如圖7所示,我們演算法基本覆蓋了傳銷網路的所有核心,只有少量外圍節點演算法本身無法確認是不是傳銷分子。但是這完全不影響我們調查和抓獲這個傳銷組織。
圖7:演算法識別出的可疑節點的覆蓋區域圖示,紅色節點為演算法識別出的可疑節點。
個人隱私數據的泄露曾經給了很多電信詐騙的不法分子以可乘之機,但數據科學的正確使用也可以幫助揭示非法組織,保護我們的人身和財產安全。
同時,大家不用擔心傳銷組織通過學習本文而更難被發現。因為,改變本文所描述的一些特徵意味著改變傳銷的組織和運營模式,代價不是他們能夠接受的。並且,本文所描述的,只是演算法中最簡單的一小部分,我們並不僅僅只是通過這些特徵量來識別非法傳銷。
最後,感謝參與本文工作的貢獻者,他們是李艷麗、劉陽,謝文波、徐騰、羅琇、翁先正、馬國斌、許海泉、尚傑、鄧先輝、康麗、陳端兵。
參考文獻
[1] Leskovec, J., & Mcauley, J. J. (2012). Learning to discover social circles in ego networks, NIPS2012, pp. 539-547.
[2] Wang, Q., Gao, J., Zhou, T., Hu, Z., & Tian, H. (2016). Critical size of ego communication networks. EPL (Europhysics Letters), 114(5), 58004.
[3] Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., & Barabási, A. L. (2002). Hierarchical organization of modularity in metabolic networks. science, 297(5586), 1551-1555.[4] Ravasz, E., & Barabási, A. L. (2003). Hierarchical organization in complex networks. Physical Review E, 67(2), 026112.[5] Clauset, A., Moore, C., & Newman, M. E. J. (2008). Hierarchical structure and the prediction of missing links in networks. Nature, 453, 98-101.[6] Barabási, A. L., & Albert, R. (1999). Emergence of scaling in random networks. science, 286(5439), 509-512.
作者介紹:周濤,電子科技大學教授、大數據研究中心主任。主要從事統計物理與複雜性,數據挖掘與數據分析方面的研究。在Physics Reports、PNAS、Nature Communications等國際SCI期刊發表300餘篇學術論文,引用17000餘次,H指數為63。《大數據時代》譯者,《為數據而生:大數據創新實踐》作者。
* 關注「DataCastle數據城堡」微信公眾號,獲取更多周濤老師原創文章。
推薦閱讀:
※超酷der !億信BI4.7重磅發布,數據大屏展現是這樣的
※討論kettle 的重要性
※【實戰應用】從銀行分級授信體系看用戶分級分析方法
※用R語言進行時間序列分析及預測(一)