深入解讀：獲Forrester大數據能力高評價的阿里雲DataWorks思路與能力

04-05

摘要： Forrester發布了Now Tech: Cloud Data Warehouse Q1 2018報告，報告對雲化數據倉庫（Cloud Data Warehouse, CDW）的主要功能、區域表現、細分市場和典型客戶等進行了全面評估。

1.前言

本文基於Now Tech: Cloud Data Warehouse, Q1 2018 (Published: by Noel Yuhanna, March 13, 2018)進行了分析，文中內容僅代表個人觀點。

2018年3月13日Forrester發布了Now Tech: Cloud Data Warehouse Q1 2018報告。報告對雲化數據倉庫（Cloud Data Warehouse, CDW）的主要功能、區域表現、細分市場和典型客戶等進行了全面評估，最終AWS、阿里雲、Google、微軟四大巨頭殺入全球一線陣營。阿里雲DataWorks+MaxCompute成為入選的中國產品。

報告中，Forrester強調了CDW的四方面核心能力：

靈活部署。CDW應具有多種靈活的部署模式。針對小型客戶，CDW應可提供在線多租戶的模式，使客戶有能力快速調集計算資源，在數分鐘內完成數據倉庫的部署。針對大中型客戶，CDW應提供獨佔式或本地部署的模式，提供強大的計算性能和絕對的安全保障，同時屏蔽複雜的技術細節；
高效數據上雲。對於未將數據倉庫雲化的客戶，或者採用線上-線下混合架構的客戶，CDW應提供快速、低成本的方式，幫助用戶完成數據集成。
多樣化分析手段。CDW應提供多種技術手段，幫助用戶在各種業務場景中，獲得想要的數據加工能力。
安全性。CDW的安全性應全面考慮數據加密、審計、脫敏、訪問控制等各方面。

DataWorks（https://data.aliyun.com/product/ide）作為阿里巴巴CDW服務能力的核心，為何能獲得Forrester的青睞呢？今天我們來做一個解讀。

2.DataWorks產品架構

在正式開始解讀之前，我們先來了解一下DataWorks在阿里雲CDW服務體系中的角色，以及DataWorks的產品架構。

在阿里雲的眾多產品中，DataWorks和MaxCompute共同構成了CDW服務能力的核心。其中，MaxCompute作為存儲計算引擎，扮演了IaaS層支撐的角色，為使用者提供了海量可靠的大數據表存儲，以及SQL執行的能力。但是，僅僅有了MaxCompute是不夠的。為了讓大數據技術能真正的給客戶賦能，還需要數據開發、數據集成等一系列CDW服務，而DataWorks就提供了較為完整的解決方案。

具體來看，她包含8個主要模塊：

數據集成：異構數據集成，將海量的數據從各種源系統彙集到大數據平台
數據開發：數據倉庫設計和ETL開發過程
監控運維：ETL線上作業的運維監控
實時分析：實時探查和分析數據
數據資產管理：元數據管理、數據地圖、數據血緣、數據資產大圖等
數據質量：數據質量探查、監控、校驗和評分體系
數據安全：數據許可權管理，數據的分級打標、脫敏，以及數據審計
數據服務：數據共享和數據交換，數據API服務

3.靈活部署

Forrester在報告中大篇幅的闡述了多種部署形態的必要性，並對多家CDW進行了對比，而DataWorks是第一陣營中為數不多的提供多種部署方式的產品。

首先，作為阿里巴巴集團數據中台體系的核心，DataWorks從2009年開始便支持阿里集團、螞蟻金服、菜鳥等全集團業務。只要使用了淘寶、天貓、螞蟻金服等產品的數據服務，就有可能間接使用了DataWorks的計算服務。

其次，DataWorks已在公有雲中開放。截止目前，DataWorks已服務4000+公有雲客戶，支撐了新浪微博、人人車、天弘基金等重要客戶。

最後，DataWorks還支持專有雲輸出。作為大數據能力賦能的重要手段，DataWorks出現在了Apsara Enterprise等阿里雲專有雲解決方案中。從2015年至今，已支撐了包括「城市大腦」、「最多跑一次」等重量級政企項目。

通過靈活的部署方式，DataWorks可以滿足多種不同形態的客戶需求。對於小型用戶，可以通過公有雲方式靈活支撐；對於大中型客戶，專有雲或混合雲的解決方案也完全可以滿足客戶需求。

4.高效數據上雲

高效的數據集成方式對企業數據上雲的意義不言而喻。在初始上雲階段，企業需要把自己的數據資產快速安全的遷移到雲上；在持續運營階段，企業需要將各種形態的數據輸入到CDW中，並將CDW中加工完成的數據結果輸出到各個業務單元。

DataWorks的數據集成提供了對多種類型數據源進行讀寫的能力，包括對關係型資料庫、NoSQL資料庫、大數據資料庫、文本存儲（FTP）等，能對數據源頭的數據資源能夠進行統一清點，並能夠在複雜網路情況下對異構的數據源進行數據同步與集成。在具體的導入任務編排上，DataWorks支持離線數據的批量、全量、增量同步，支持分鐘、天、小時、周、月來自定義同步時間。

DataWorks的數據集成還具有數據流管控的能力，能夠從臟數據、數據流速、並發線程數等多個維度管控數據流的行為，多方位節約用戶成本，實現精益化管理。

5.多樣化分析手段

DataWorks提供了強大的數據開發IDE，支持從SQL代碼編輯、集成任務編輯到業務流程DAG圖的可視化編輯。而多人在線協作功能和任務腳本的版本管理功能也非常切合企業級數據開發的實際需求。除了常規的離線處理任務外，DataWorks還提供了輕量級工具「數據分析工作台」，充分利用MaxCompute的計算能力，滿足用戶即席數據分析的需求。

據悉，DataWorks近日還更新了拖曳式業務流程編輯功能，進一步改善用戶體驗，打造可能是最好用的數據開發IDE。

6.安全性

DataWorks將數據安全能力視為重中之重，敏感數據防護更需要符合行業規定和數據隱私法律等規定。DataWorks提供了數據安全模塊，通過以下幾方面提供了全方位的數據安全保護：

多租戶隔離。DataWorks擁有自己的多租戶許可權模型。租戶可按需申請資源配額，獨立管理自己的資源；租戶也可以獨立管理自有的數據、許可權、用戶、角色，彼此隔離，以確保數據安全。
數據安全等級設定。通過數據安全等級，發現和定位敏感數據，明確其在數據資源平台上的分布情況，根據定義的敏感數據類型自動發現敏感數據，並為其分級分類。通常分為絕密、機密、正常等等級進行對應安全規則保障。
數據訪問審計。DataWorks對於特權用戶的訪問有嚴格的審查流程，包括何時訪問，執行哪些操作，執行順序等等。記錄審計特權用戶的訪問記錄，可以確保特權用戶在正確的時間完成了正確的操作，審查是否有越軌行為的出現，進而保證數據系統的安全。
數據脫敏。DataWorks能夠在在不確定能夠排除那些用戶，那些訪問地址，甚至那些欄位為可疑或者有害訪問時，關注數據內容本身，抓住敏感信息點，並有針對性地對該部分信息進行動態訪問遮蔽，從而達到保護數據安全的目的。

目前，DataWorks已通過了公安部信息安全等級保護三級認證。

7.總結

隨著社會各行各業「互聯網+」改革的深入，企業對數據資產的管理、加工、利用的訴求越來越強烈。利用雲計算技術，互聯網公司得以快速的將自身的大數據處理能力對外賦能。這也是在Forrester的榜單中，全球主要的四家雲服務公司，得以超越Oracle、IBM等老牌數倉技術公司，成為一線CDW供應商的原因。

得益於阿里巴巴多年的數據利用經驗沉澱，DataWorks在部署模式、數據集成、分析手段、數據安全等各方面都實現了與企業級需求的高度契合。

據了解，DataWorks還會持續輸出更多先進的數據管理理念，包括實時數據集成、數據資產分析等。將雲計算技術與數倉管理方法論有機結合，保持不斷迭代，致力於打造「最適合於大數據數倉建設的平台」，我想這正是DataWorks入選Forrester CDW榜單的原因。

原文鏈接

更多技術乾貨敬請關注云棲社區知乎機構號：阿里云云棲社區 - 知乎