聊聊大數據質量監控的那些事
2 人贊了文章
在這個信息化時代,你用手機打開微信聊天、打開京東app瀏覽商品、訪問百度搜索、甚至某些app給你推送的信息流等等,數據無時無刻不在產生。
數據,已經成為互聯網企業非常依賴的新型重要資產。數據質量的好壞直接關係到信息的精準度,也影響到企業的生存和競爭力。Michael Hammer(《Reengineering the Corporation》一書的作者)曾說過,看起來不起眼的數據質量問題,實際上是拆散業務流程的重要標誌。 數據質量管理是測度、提高和驗證質量,以及整合組織數據的方法等一套處理準則,而體量大、速度快和多樣性的特點,決定了大數據質量所需的處理,有別於傳統信息治理計劃的質量管理方式。
本文主要探討了一二線互聯網公司數據質量監控平台。
一、Data Quality Center(DQC阿里巴巴數據質量監控平台)
1.系統架構圖
(1)基於線上業務數據,進行數據採集
(2)基於監控規則庫,執行SQL任務,進行計算處理
(3)基於用戶規則,發送數據報警(簡訊、郵件)
2.系統流程圖
(1)用戶進行規則配置
(2)通過定時的調度任務觸發檢查任務執行
(3)基於任務配置,獲取樣本數據
(4)基於計算返回檢驗結果
(5)調度根據檢驗結果,決定是否阻斷干預(強依賴、弱依賴)
二、 Apache Griffin(Ebay開源數據質量監控平台)
1.系統架構
(1)從準確性、完整性、時效性、唯一性等多個維度進行監控
(2)計算結果存儲至ES、HDFS
(3)計算結果metrics展示
(4)支持實時和離線
(5)優勢:開源
2.系統技術路線
3.metrics展示
三、 DataMan(美團點評數據質量監控平台)
1.系統架構
DataMan系統建設總體方案基於美團的大數據技術平台。自底向上包括:檢測數據採集、質量集市處理層;質量規則引擎模型存儲層;系統功能層及系統應用展示層等。整個數據質量檢核點基於技術性、業務性檢測,形成完整的數據質量報告與問題跟蹤機制,創建質量知識庫,確保數據質量的完整性(Completeness)、正確性(Correctness)、當前性(Currency)、一致性(Consistency)。
2.metric展示
四、 BDP(京東大數據質量監控平台)
京東數據質量監控系統(簡稱:數據質量系統) 是數據倉庫、數據集市中表的數據變化進行監控。數據質量系統根據用戶設定採集項配置、規則項配置、預警規則設置(枚舉值),對用戶指定的表進行每日定時數據採集、計算,並與歷史數據或維表進行比對驗證。最終將觸發預警規則的異常數據以簡訊、郵件、App 等方式及時通知給用戶。
1.系統架構圖
關係型資料庫mysql和非關係型資料庫HBase作為數據源,進行監控
2.系統流程圖
(1)數據監控(2)運行日誌(3)數據報警(4)規則配置
3.監控展示
上述主要分析了當前各大公司主要在使用或者開發的數據質量方面的平台,無論是離線數據監控還是實時數據監控,均有涉及。然而可能你的公司沒有這麼多的人力或者物力,但是由於數據量的增長,需要考慮數據治理方面的問題,就可以考慮採用開源的平台,在此基礎上開發或者優化,畢竟站在前人的肩膀上才能看的更遠,走的更快。
下面是我的公眾號(zgzfblog),如果想進入互聯網行業,可協助幫忙內推,同時也歡迎對互聯網行業感興趣的同學一起交流學習。也想大家推薦一下hbase相關學習,大家工作學習遇到HBase技術問題,把問題發布到HBase技術社區論壇hbase.group,歡迎大家論壇上面提問留言討論。想了解更多HBase技術關注HBase技術社區公眾號:(hbasegroup),非常歡迎大家積極投稿。
推薦閱讀:
※國科賽思黨煒:作為航天大數據服務平台,要從源頭簡化國「芯」設計流程、提升可靠性
※深度剖析 Spark 分散式執行原理
※2017年4月26日今日數據行業日報
※節後想跳槽?大數據告訴你怎樣的人才最搶手!
※大數據讓品牌營銷飛起來