標籤:

雲高防產品模塊之線路質量監控解析

0x01、前言

目前高防產品是國內互聯網安全領域最賺錢的產品,但是我發現圍繞它的產品方面的解析文章很少,所以想和大家分享一下相關經驗。揭開高防的神秘面紗。線路質量監控模塊做的好壞直接影響到高防產品是否能成功。本期就和大家探討一下這個模塊。

由於國內三大運營商在商業利益上的角逐,導致線路質量問題成為了互聯網企業影響用戶體驗最突出的一個問題。人們有句笑話,天下最遠的距離不是你在天涯我在海角,而是你在電信,我在聯通。國內前期做這塊的廠商也很多Top2是博睿、聽雲,但是它們提供的商業解決方案太貴了(一個網民或者IDC節點做一次探測需要大約1.5分),那對於高防產品這種探測是常態的,而且時間間隔要短。這個錢你是花不起的(放開手去探測,算下來,比高防營收還高)。所以要考慮其它自建的解決方案。

目前自建雲撥測有幾種做法:

· 通過獲取公有雲訪問的客戶端的真實IP做回探測。

· 通過自身的CDN節點部署探測點,對公有雲機房做探測。

· 使用App SDK集成探測網路質量探測模塊。

方法1,在沒有更多的節點的情況下,也只能這麼做了。方法2,目前是公有雲主流的做法,但是問題很多,部署在CDN節點上的探測節點會影響正常CDN峰值時候的業務,所以部署起來一般很緩慢。那麼,方法3是一個很好的選擇,它是解決了last mile的問題。但是需要一個大的IP,做SDK的承載方,對用戶隱私方面有更高的要求。

拋開以上優缺點的考慮,我選擇第三條路,那麼如何設計線路質量探測產品呢,下面就和大家詳細闡述一下。

0x02、SDK線路質量監控設計

1、業務需求描述

· 無論是BGP高防、3線靜態高防、託管高防、類似阿里遊戲盾的非對稱高防。都需要對客戶端到業務伺服器的網路質量做一定的監控(如果接入高防IP,那麼業務伺服器就是高防IP)減少大網抖動給用戶業務帶來的流失率。也方便由於線路質量不好自動化升級&降級調度(客戶端調度)。

· 監控App使用過程中的網路狀況,排查App單個用戶的網路異常,解決App客戶訪問卡頓或者延遲過高的問題。

· 對大網流經路由器做分析。優化線路配置。

2、產品需求

· 高防自動化調度系統

(1)通過儘可能多的App嵌入網路監控SDK,上傳icmp相關數據(網路平均延時、網路平均丟包率)

(2)通過後台實時大數據清洗、聚合、分析等操作得出各個省乃至各個市的網路延時和丟包數據。

(3)通過WebUI方式展示給展示給用戶。

(4)通過WebUI設置告警規則,觸發告警,執行客戶端調度策略。

· App客戶端網路質量排查系統

(1)記錄所有App用戶上傳的網路延時和網路丟包數據。

(2)通過WebUI方式展示給展示給用戶。

(3)交給售後客服人員。

· 大網監控路由數據挖掘

(1)通過上傳的數據,通過NoSQL語句挖掘客戶端流經路由器,對路由器標識,優化高防線路配置。

3、系統架構

· 客戶端數據採集SDK

(1)設置目標IP、監控間隔。

(2)獲取App基本信息、網路質量探測信息(丟包、延時)、路由跟蹤信息

· 伺服器端大數據存儲分析

(1)kafka+spark集群

①. 實時分析通過spark streaming=> elastic Search

②. 離線分析通過spark分析hadoop歷史數據 =>elastic Search

(2)前端展示

①. console/VUE 全網監控大屏&監控設置&troubleshooting

②. django/python 後台數據查詢 elastic Search

4、數據分析

5、系統原型圖

(1)全網監控大屏

(2)告警設置

(3)troubleshooting網路質量歷史數據

監控大屏主要向用戶展示以下重要信息:

· 多個高防IP不同的線路質量監控

· 針對於不同運營商客戶端到監控高防IP的線路質量,其中包括BGP高防IP、電信、聯通、移動線路的質· 線路質量主要體現在平均延時和平均丟包率,中國地圖會統計每個省有多少客戶端在提供數據,統計後的平均數據。

· 歷史線路質量趨勢圖,提供除了預設時間節點,還提供自定義時間選擇。

6、Demo數據驗證

和一個做App的朋友求助,前期幫助集成測試版SDK獲取丟包率和延時,從數據處理後台採樣獲取了大約25000條數據做demo驗證。

原始數據截圖如下:

原始數據主要分兩部分,第一部分是通過SDK採集丟包率和延時以及用戶device_id。第二部分,當SDK原始數據到達分析平台後,分析平台會對現有數據做二次加工,輸出省份和客戶端線路。

通過excel做簡單的數據分析

得出以下統計數據(降序排列)

使用echart網頁功能先顯示出來。

其他丟包率也是同樣的道理。Traceroute上來的數據太少價值不大,先暫緩分析。

0x03、總結

本文從App SDK形式網路質量監控,BRD講到PRD,從各個方面闡述了網路質量監控模塊的重要性,以及商業實現途徑。為了更好的讓讀者了解其技術架構和實現細節下篇文章會和詳細描述實現過程(coding),敬請期待。

本文為 bt0sea 原創稿件,授權嘶吼獨家發布,未經許可禁止轉載;如若轉載,請聯繫嘶吼編輯: 4hou.com/business/9207. 更多內容請關注「嘶吼專業版」——Pro4hou

推薦閱讀:

揭秘無文件惡意軟體的前生今世
【無線安全】解決和排除無線網路連接故障的若干方法
一個漏洞致使數億計的私人對話泄漏?
能否從根本上建立一個高度安全的網路安全體系而不是在攻擊發生後對網路犯罪進行追蹤?
一個Tor瀏覽器0day漏洞價值100萬美元,其中的隱情是……

TAG:信息安全 |