阿里數據倉庫搭建實踐分享

阿里數據倉庫搭建實踐分享

來自專欄 IT大咖說

內容來源:2017年7月8日,阿里雲高級技術專家后稷在「阿里雲—數據化運營實踐分享【7上海站】」進行《阿里數據倉庫搭建實踐分享》演講分享。IT大咖說作為獨家視頻合作方,經主辦方和講者審閱授權發布。

閱讀字數:1605 | 4分鐘閱讀

嘉賓演講視頻PPT回顧,請點擊鏈接:t.cn/Rd0bVBS

摘要

數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而創建。為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。

基礎

搭建數據倉庫主要需要建模的能力,還要沉澱一些維度表。除此之外還要不斷地挖掘數據,來把模型建得更好。

應該做的幾件事

簡介

在得到活動數據後,要把這些數據投入到數據倉庫中,並且做以下幾件事:

用戶或者實體的識別需要統一。

PC和無線端的數據打通。

圍繞實體和跨業務間的事實數據打通。

重要事實表的維度冗餘。

用戶畫像或客戶畫像。

有怎樣的市場價值

目前我們已經積累了很多用戶數據,這些數據都是非常寶貴的資源,我們基於這些數據做了一些開發利用。

搭建了數據倉庫就可以把用戶分析的數據用來做個性化推薦、定向營銷、風控等等。

數據倉庫的市場價值在於需求場景驅動的集市層建設,各集市之間垂直構建。

集市層深度挖掘數據價值,並需要能夠快速試錯。

以阿里金融在後台大數據中的運行過程為例,我們會從關係資料庫中把用戶相關的所有數據全部導入到MaxCompute中,然後記錄用戶的一些操作日誌,比如登錄過哪些網站、瀏覽過哪些商品,有怎樣的喜好。還有一些其它數據,可能是從其它系統過來的。我們把這些數據做一個匯總分析,最終把這些數據導出到業務系統中,也有一個統計服務。這樣當用戶來進行徵信貸款的時候,我們很快就可以定位到這個用戶是否符合徵信要求,並迅速進行審批。

如上圖所示,DataWorks主要依賴於MaxCompute。右邊是阿里雲目前提供的一些基礎組件。集成開發環境這一塊是可視化的,比如在工作流設計器上做工作流和應用調度,在裡面進行配置。

我們提供了一個Web頁面的代碼編輯器,支持MR、SQL等等。還有一個代碼調試器,寫過的代碼可以直接在這裡進行調試。有了代碼倉庫就能保留好幾個版本,並預覽之前保存的版本。

調度分為資源調度和工作流調度兩部分。工作流調度與前面的工作流是息息相關的,在工作流設計器中設計成一個工作流的話,底層的調度會按照順序進行調度。資源調度和底層網關集群的資源是相關的。

數據治理中主要是任務監控和數據質量。

大數據開發核心流程

當我們接到一個需求,首先會進行需求分析,然後做工作流設計,比如這個任務是什麼時候跑的、依賴於哪些業務。工作流設計完成後進行數據採集和數據同步。接下去就是數據開發,我們提供了WEB-IDE,支持SQL、MR、SHELL和 PYTHON等。然後我們提供了冒煙測試的場景,測試完成後發布到線上,讓它每天定時進行自動調度,並進行數據質量監控。以上步驟都完成後,就能把我們的數據環流到業務系統庫,或者用QuickBI、DataV這些工具進行頁面展現。

我們設計的任務是離線的,每天會在12點的時候把設計的任務變成一個實例快照。目前我們的任務依賴在業內也是最先進的。

現在最常見的需求就是每天有日報,每周要寫周報,每月要寫月報。為了節省資源,就可以使用日報的數據直接轉成周報或月報。

線上系統在每天6點的時候要保證數據已經回籠到業務系統,系統要開始使用了。

如上圖所示,假設有D和E兩個任務,它們依賴於B和A。任務D的運行時間是1.5小時,E是2小時。我們必須確保B每天在4點之前把B的任務運行完成,一般正常運行時間是2小時。那就要保證A每天任務完成的時間不晚於2點。如果A的運行時間是10分鐘,到1點的時候發現A的任務失敗了,這時就能計算出A還剩下多少餘量,我們可以進行人工監督排查。在1:50之前人工介入,從而保證任務D和E能在6點前準時產出。

總結

如圖所示,MaxCompute是圖上小人的「心臟」,所有運行的任務都在MaxCompute裡面。調度是數據架構的「大腦」。「眼睛」是數據監控,目前在數據架構平台上它還是一個「近視眼」,還沒有正式推出。數據集成就像兩隻「手」,不停地從其它地方搬運數據。底層的開發環境和運維中心就像兩條「腿」,保證整個數據架構平台走得更遠。而數據質量就像是一個「人體健康中心」,也就是數據質量的監控。

我今天的分享就到這裡,感謝聆聽!


推薦閱讀:

UCloud推出GlobalSSH,讓海外SSH訪問不卡頓
YunOS已經入車,自主科技力量崛起可期
瓶子kan雲(三):阿里雲架構和openstack架構簡析
如何成為優秀的阿里雲大使
數據強國夢為馬,不負匆匆韶華

TAG:阿里雲 | 數據倉庫 | 大數據 |