標籤:

阿里巴巴大數據之路-數據同步

數據同步的幾種方式:

  • 直連同步:通過ODBC/JDBC等介面直連資料庫,對源系統性能影響較大。
  • 數據文件同步:簡單,實用,松耦合,可加密、可壓縮。
  • 資料庫日誌解析同步:比如oracle的ogg,對源系統影響小。需要注意的是:要根據業務系統的實際情況,選擇D刪除記錄的處理邏輯。

阿里巴巴的數據同步方式:

  • 批量數據同步:通過DataX來實現,能滿足多方向、高自由度的異構數據交換服務產品;對於不同的數據源,能夠通過插件的形式提供支持。
  • 實時數據同步:通過TT來實現。

數據同步遇到的問題與解決方案:

  • 分庫分表的同步:阿里巴巴是通過TDDL分散式資料庫引擎把多張表的訪問變成單張表的訪問。
  • 增量與全量同步的合併:當然增量和前一天的全量合併,傳統是採用merge方式(update+insert),但大數據平台基本都不支持update操作,現在比較推薦的方式是:將當天的增量數據和前一天的全量數據做全外連接,重新載入最新的全量數據。這種方式的性能比update要高得多。

數據漂移的處理:

  • 數據漂移是指ODS表的同一個業務日期中包含前一天或後一天凌晨附近的數據或者丟失當天的變更數據。
  • 處理方法:多獲取一部分第二天的數據(比如跨日以後的15分鐘),然後根據可以判斷業務時間的欄位,過濾,排序等方式來得到需要的數據。
  • 阿里的上述方法,涉及到排序,其實代價也是有點高的,如果沒有標準的處理模塊,自己寫起邏輯來也是有些麻煩。很多情況下,如果數據稍微差一點關係不大的業務,我們都選擇不做處理。

推薦閱讀:

一、大數據的誕生
阿里巴巴大數據之路-日誌採集
大數據雙創行動計劃丨校車的智慧在哪裡?
大數據計數原理1+0=1這你都不會算(七)No.59
又一國家級!浪潮獲評大數據應用領域首個國家專業化眾創空間

TAG:大數據 |