阿里巴巴下一代數據集成技術

摘要:數據集成是把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。在企業數據集成領域,已經有了很多成熟的框架可以利用。目前通常採用聯邦式、基於中間件模型和數據倉庫等方法來構造集成的系統,這些技術在不同的著重點和應用上解決數據共享和為企業提供決策支持。

視頻分享地址:

v.qq.com/iframe/player.

數據工廠

數據工廠解決了雲上從數據的採集整合,到數據加工、分析與管理,再到數據應用和消費的整個流程。

上圖中紅色標註部分是數據集成的位置。數據集成既是把數據採到數據平台部分的數據通道,也是數據出去的通道。

中間就是所有數據的清洗轉換、調度、OLAP分析以及數據挖掘的常用工具和模塊。

最底層是元數據管理,是一個至關重要的模塊。

傳統數據處理有時候會叫做數倉,數倉是偏離線的。現在普遍叫數據平台,數據平台更強調它和在線系統的融合打通。

如上圖所示,極簡羅漢圖構建的體系就是數據工廠。大家要自己搭建一個大數據開發平台的話,這些是基礎模塊,也是必要的組件。

最上面是調度,兩側有開發測試的環境,和整個大數據開發的運維管理。中間的「神經系統」是元數據,沒有元數據所有東西都是無效的。再往下是整個大數據的計算引擎,阿里巴巴早就已經用完全自研的MaxCompute以及ADS等一系列的計算引擎替換了開源部分。最底下是數據集成,決定了數據怎麼進來怎麼出去。

數據集成

上圖所示是數據集成的使用過程。從選擇數據源、選擇目標,到欄位映射,然後進行通道流控的配置,最後就是看日誌。

現在的數據集成已經超出了傳統數據集成的範疇,也就是說傳統數據集成的「屁股」是坐在數據倉庫上的,面向的是業務資料庫,對於多媒體文件或整個任意文件的支持還是比較少。現在非結構化數據的比重越來越大,尤其在阿里雲上看到這種趨勢非常明顯。所以我們做了任意二進位文件的支持和視頻文件的支持。

跨公網的數據傳輸是在雲時代下一個非常重要的能力。當數據不在同城機房的時候,要想做一個簡單的數據集成都需要跨公網把數據傳輸到統一的數據倉庫中。

數據集成agent-datax

DataX是阿里巴巴集團內部被廣泛使用的離線數據同步工具/平台,實現包括MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS等各種異構數據源之間高效的數據同步功能。

DataX是一個插件式架構,可以插拔,支持讀寫插件。我們會堅持開源,現在已經有了一定的影響力。它的性能很好,功能和穩定性遠超sqoop。最近使用的客戶案例有微博、金立、鬥魚直播,效果突出。

單機首先要把任務進行拆分,然後做到並發。也就是大家能看到的開源版本主要能力就在這裡。

我們服務端的模式支持水平擴展。

阿里內部在大數據這一塊數據採集和傳輸的主打工具就是DataX,所以它有更多的考慮。流控這方面操作還是有些難度的,很多開源工具不提供這種能力。

數據集成在處理的時候有臟數據管理並記錄,而且還有基於規則的判斷,自動把日誌打出來,做基本的質量控制。

任意位置是指跨公網;任意存儲是數據集成一開始就堅持的一種能力;還有正交數據採集傳輸。

圖中畫的是從用戶機房到阿里雲上的VPC。在阿里雲上一旦引入VPC就會使網路環境變得很複雜,當然也帶來很多好處。但是複雜性尤其是對數據集成這種工具的體驗是會產生很大影響的。

我們為了突破這些也做了很多工作,現在我們可以從任意位置打透用戶的機房以及阿里雲上用戶自己的VPC。

數加.數據集成線上情況

每天有11萬+作業運行在DI平台之上,DI每天的同步數據量達到10.2TB。每天的同步記錄條數達到近500億,還在持續增長中。阿里自從做數據平台以來,數據集成一直是它的主力工具。

數加.數據集成能力總結

支持的類型多。支持任意主流格式和二進位數據、音視頻、多媒體。

傳輸快。在傳輸方面我們做了斷點續傳、分塊傳輸和網路協議加速等工作,現在也取得了一些效果。

網路通。能夠穿透任意複雜的網路環境,例如從VPC到Region,還有跨公網。

一站式遷移。現在在接觸很多大客戶的時候,很多客戶不想再繼續自己維護hadoop了,希望我們能完整地一鍵把整個hadoop體系遷移到雲上,以及把DB遷移到雲上。在這種情況下我們可以做到一些一站式的服務。

還有兩個更好的能力就是支持實時採集傳輸和支持客戶端、Web端採集。

我希望能把數據集成做到極致,做得更大。

以上就是我今天的分享,謝謝大家!

作者

隱林,阿里雲大數據產品專家,擅長MaxCompute、機器學習、分散式、可視化、人工智慧等大數據領域

原文鏈接: 阿里巴巴下一代數據集成技術-博客-雲棲社區-阿里雲

更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎

推薦閱讀:

基於雲上分散式NoSQL的海量氣象數據存儲和查詢方案
#研發解決方案#數據開放實驗室:再戰即席查詢和數據開放
大數據學習計劃(不斷改善)
消費金融大數據、決策與場景如何做?
2017北京雲棲大會拉開帷幕,Clouder Lab動手實驗室受開發者歡迎

TAG:大数据 | 数加 | 数据采集 |