數棧:為數據治理而生

數棧:為數據治理而生

來自專欄數據智能

2018年5月21日,中國銀保監會印發《銀行業金融機構數據治理指引的通知》(銀保監發〔2018〕22號),新規從徵求意見到正式稿落地僅僅2個月時間,後續監管政策補短板會加快。金融行業對於數據治理的迫切需求,在指引中,明確提出了數據治理架構數據管理數據質量控制數據價值實現等問題,是大數據發展到一定程度的必然結果。

從業務數據化到數據業務化,大數據已經越來越多的成為企業的資產,但在發展過程中,數據來源繁多、數據口徑不一、數據質量缺乏管控、數據安全存在隱患,這些都是阻礙企業實現數字化轉型和數據驅動的問題,如何有效和高效的解決這些問題,既體現了企業數字化轉型的決心,也體現了企業數據驅動的能力。

互聯網的發展過程,實際上就是不斷業務數據化的過程,通過將人的衣食住行等行為都在線化,從電商、到外賣、到租房、到共享出行,每一個快速成長的互聯網業務,都是將各種業務場景在線化的過程。在線化是實現數據化的前提,數據化是在線化的必然結果。這也是為什麼雲計算和大數據等基礎技術的突破必然會在互聯網企業出現並壯大的原因。

2009年,阿里巴巴就設立了CDO崗位,擔任第一任CDO的,正是後來成為阿里巴巴第二任CEO的陸兆禧。這比銀保監會在這次指引中「提出可結合實際情況設立首席數據官」的數據治理架構提前了近十年。當然,阿里當初設立CDO並不僅僅為了數據治理,更是為了數據價值實現,也就是數據業務化。2009年阿里在數據領域發生了三件大事,設立CDO只是其一,另外兩件分別是自研大數據計算平台和以數據為資產的阿里小貸業務創新。

阿里自研的大數據平台,實際上分為兩層:底層的計算存儲引擎MaxCompute和上層的開發套件Dataworks。計算存儲引擎是為了解決EB級的數據計算能力,開發套件則是為了提升數據開發和數據治理的效率。結合集團業務的不斷發展,開發套件的功能逐漸豐富,成為數據中台非常重要的生產力工具。經過八年內部實踐,2015年在阿里雲內部開啟了「數加「項目,在2016年初將這個能力通過阿里雲公共雲對外開放。

從計算和存儲能力上來講,開源的Hadoop生態在過去十年也是飛速發展,可以滿足大多數企業對於PB甚至EB級數據計算能力的需求。但在數據開發和數據治理方面,開源生態距離數加這樣經過大型互聯網企業實踐驗證的產品還是欠缺的。正是提前看到了這個問題,袋鼠雲從創業開始,就把產品定位在了數據中台PaaS方向。從去年的數棧1.0解決了開發套件的核心功能,到今年的數棧2.0全面豐富了數據地圖(數據管理)、數據模型、數據質量、數據API、標籤工廠等一系列數據治理和數據應用引擎工具,正式打造成了一站式企業級數據中台PaaS。

前幾天有個數棧的天使客戶,在數棧產品經理只去過兩次做現場交流的情況下,基於數棧完成了多個數據項目的開發,從模型分層到表的命名規範,從任務調度到補數據運維,非常流暢的完成了數據全生命周期的管理。客戶反饋說之前基於開源的Hadoop需要一天的開發任務,基於數棧只需要30分鐘就能完成。所謂生產力工具,為客戶提供的價值就在於此。

但是,數棧的目標不僅是提升數據開發的效率。更重要的是希望能夠藉助阿里多年的大數據經驗沉澱,幫助企業客戶進一步提升數據治理的能力。從這兩年接觸的很多客戶的實際情況來看,數據治理一直是個老大難的問題。首先,很多企業客戶還沒有實現全域的數據集中。經過多年的企業IT信息化建設,來自多個供應商的業務系統像煙囪一樣林立,相互之間的數據標準不一,難以打通。有些企業甚至都還沒有數據倉庫,業務數據留存在各個業務資料庫中,通過DBLink等方式在不同系統之間實現部分數據共享。有些企業雖然建立了數據倉庫,但只是將領導關係的部分KPI指標相關的數據集中到了數據倉庫中進行分析處理。數據源的多樣性和分散性,給企業的數據治理帶來了很高的門檻。

袋鼠雲數據中台的理念認為,企業首先應當建立集中統一的數據中台,將全域的數據都同步到統一的數據中台,基於數中台來進行數據治理,事半功倍。數據存儲統一,可以在後續的數據治理和數據業務化的過程中實現數據不搬動,降低數據的處理成本;數據計算統一,可以實現基礎元數據的自動維護,為數據治理打下最堅實的基礎。

在數棧的產品體系中,基於開源Spark和Flink實現的數據計算引擎,可以提供PB級的統一數據計算和存儲的能力,當然,數棧也可以兼容企業現有的Hadoop平台,包括Cloudera、星環等。數棧的開發套件提供了統一的ETL任務開發和調度運維的入口,通過這個入口的元數據自動採集和維護,在數據地圖模塊中為數據管理提供了準確實時的基礎數據,在此之上結合企業的現狀調研和諮詢,可以構建企業級的數據資產類目體系和數據安全體系;同時,通過數據質量模塊,可以針對ETL任務實現數據處理的質量管控,提前發現並預警數據質量問題。然後通過數據API和標籤工場,為上層豐富的數據應用價值實現提供引擎能力。

從數據同步、到數據開發、到數據管理、到數據質量控制、到數據應用價值實現,數棧在產品層面對於指引都能提供支撐,這是將多年大數據實踐經驗產品化的結果。數棧,就是為數據治理而生的企業級一站式數據中台PaaS。

推薦閱讀:

深入解讀:獲Forrester大數據能力高評價的阿里雲DataWorks思路與能力
從頭學習大數據培訓課程 NOSQL 資料庫 hbase(六)根據自定義方法預分 region
國雙科技祁國晟:AI結合應用場景,每個領域都能撐起一家上市公司 | 新龍榜
如何自學大數據?先對自己來一個深度剖析
數據分析基礎—2.2.3 邏輯樹分析法

TAG:數據 | 大數據 | 雲計算 |