標籤:

阿里巴巴大數據之路

上周閱讀了阿里巴巴大數據之路,後續陸續把其中一些要點寫出來,方便大家查閱。

  • 數據採集層:數據採集包括日誌採集和資料庫數據同步兩部分,其中日誌採集包括:Aplus.JS是Web端日誌採集技術方案;UserTrack是APP端日誌採集技術方案。
  • 數據計算層:阿里巴巴的數據計算層包括兩大體系:數據存儲及計算雲平台(離線計算平台MaxCompute和實時計算平台StreamCompute)和數據整合及管理體系(內部稱之為「OneData」)。從數據計算頻率角度來看,阿里數據倉庫可以分為離線數據倉庫和實時數據倉庫。離線數據倉庫主要是指傳統的數據倉庫概念,數據計算頻率主要以天(包含小時、周和月)為單位;如T-1,則每天凌晨處理上一天的數據。阿里數據倉庫的數據加工鏈路也是遵循業界的分層理念,包括操作數據層(Operational Data Store,ODS)、明細數據層(Data Warehouse Detail,DWD)、匯總數據層(Data Warehouse Summary,DWS)和應用數據層(Application Data Store,ADS)。
  • 數據服務層:數據服務層對外提供數據服務主要是通過統一的數據服務平台(為方便閱讀,簡稱為「OneService」)。OneService以數據倉庫整合計算好的數據作為數據源,對外通過介面的方式提供數據服務,主要提供簡單數據查詢服務、複雜數據查詢服務(承接集團用戶識別、用戶畫像等複雜數據查詢服務)和實時數據推送服務三大特色數據服務。
  • 數據應用層:對內,阿里數據平台產品主要有實時數據監控、自助式的數據網站或產品構建的數據小站、宏觀決策分析支撐平台、對象分析工具、行業數據分析門戶、流量分析平台等。對外,有服務於商家的數據產品——生意參謀。

推薦閱讀:

ABC的關係(《Greenplum:從大數據戰略到實現》預覽)
滴滴拼車路徑的優化
如何讓產品改版評估更智能更高效?
數據的本質和價值
扯個關於大數據的淡

TAG:大數據 |