技術乾貨:日誌數據可視化分析展示平台的建設之路
項目背景
某企業是一家專註於車聯網、視頻CDN等應用技術的科技創新型企業,擁有智能車載、vsdn等多個業務系統。這些系統每天都會產生大量日誌,以往的日誌管理系統不能滿足實時分析的需求。由於平台查詢響應慢等原因,當某個系統出現問題時,所產生的日誌數據無法被及時的查看,也就無法定位問題所在,造成業務人員有數據卻用不起來的窘狀。
如何充分整合這些日誌數據,充分挖掘其價值,是企業急需解決的問題。
項目目標
DataHunter最終為該企業提供一套包括帶寬、調度、流量日誌解析入庫等功能模塊的完整解決方案。讓業務人員能夠在看板上實時查看日誌數據,並可以根據這些數據實現自由配圖和維度查詢。
業務要求
1、帶寬日誌實時分析,實現分鐘聚合統計 (全國共有80多個節點,數據量每天大約35億條,1.6TB)
2、支持按照不同的時間粒度、不同產品、不同客戶、不同節點進行數據實時統計分析。
3、優化平台查詢響應速度,豐富可視化界面。
主要問題
1.數據採集困難
以往該企業的日誌信息都是通過手工腳本收集。因為各種機器之間數據隔離嚴重、日誌量大且種類繁多等因素影響,難度可想而知。
2.日誌種類繁雜
多種日誌需實現不同的業務要求,單一的日誌分析難以滿足要求。
3.日誌分析緩慢
受限於日誌的大小和格式,分析的速度非常緩慢。
4.數據無法展現
日誌數據難以通過報表或圖形展現,無法幫助業務人員及時獲取有價值的信息。
架構實現
1. DataHunter基於Golang自主研發的DhBeat,滿足低負載高性能的數據採集、分析、上報,支持150w/s的數據採集需求。
2. NATS是一個開源的、輕量級的、高性能的分散式消息通信系統,實現了高可伸縮性和優雅的發布/訂閱模型。
3. DataHunter基於Golang自主研發的K2db,滿足低負載高性能的數據訂閱、分析、入庫需求。
4. Pipeline 是一種流式關係資料庫,這種資料庫的特點是自動處理流式數據,不存儲原始數據,只存儲處理後的數據,所以非常適合當下流行的實時流式數據處理
5. Citusdb分散式資料庫可對 Pg 資料庫進行伸縮以適合大數據的處理。可在集群中進行自動分片和碎片複製,查詢需求可在集群中進行分散式處理,充分利用集群中每個節點的計算能力
6. DH可視化分析平台,基於DH核心產品的可視化配置工具,可以即時展示各區域、產品的實時帶寬、流量、調度情況。
▲統計不同客戶的帶寬
▲統計不同節點的帶寬
平台核心價值
1.多數據源融合
業務數據、日誌信息、公共數據,輕鬆融合,匯總分析輕鬆掌控業務
▲調度日誌與業務數據的結合
2.實時數據展示
打通各個系統,最終實現實時數據處理及關鍵指標顯示,每一刻都在保持與前線同步,便於業務人員監控日誌信息。
▲實時帶寬統計
3.互動式分析
業務人員可以根據實時數據配置生成圖表,並利用這些圖表進行協同過濾和任意維度數據鑽取,探索式分析快速找到問題的根源。
▲任意維度聚合匯總
推薦閱讀:
※如何製作非常精美的圖表?
※Excel史上最全的氣泡與方塊系列的圖表
※學會這些圖表,老闆看了想打錢。
※General Theory of Operator Analysis
※R語言可視化——ggplot圖表中的線條
TAG:数据可视化 |