入選Gartner和Forrester報告的AnalyticDB是如何實現PB級數據分析毫秒級響應
前言
2018年3月13日,Forrester發布了最新的雲化數據倉庫分析報告( Now Tech: Cloud Data Warehouse, Q1 2018),阿里巴巴同亞馬遜,谷歌,微軟四個世界級雲廠商共同進入領先者陣營。同時今年二月份Gartner發布的分析型數據管理平台報告中( Magic Quadrant for Data Management Solutions for Analytics),阿里巴巴第一次參評即進入魔力四象限。這體現了阿里巴巴多年來在打造 DT商業過程中的大量數據分析技術積累。阿里巴巴的整套數據分析平台基於阿里飛天分散式系統打造,其核心的產品包括大數據計算服務MaxCompute 和分析型資料庫AnalyticDB,以及數加DataWorks 等。其中AnalyticDB作為分散式分析型資料庫,更是承載了將數據探索實時化,在線化的關鍵任務。
AnalyticDB早期出身於阿里巴巴集團內部為數據分析業務打造的在線分析系統,無論是淘寶天貓的廣告營銷平台,還是螞蟻金服的風控、徵信等業務,AnalyticDB產品的使命就是將數據價值探索做到實時在線化,提供大並發下的毫秒級分析查詢響應。當面對具備上千個標籤屬性的消費人群和千億級別的交易記錄,數據分析師在做市場趨勢分析,業務研判和廣告投放時,需要在PB級數據上依據不斷變化的業務模型做分析探索,對業務發展方向進行決策。如何以極低的成本和毫秒級的響應時延支持數據探索,釋放海量數據的商業價值,就是這些年來AnalyticDB產品不斷演進的方向。
PB級數據分析,毫秒級響應
AnalyticDB資料庫構建的最初理念就是以低成本提供極致性能的數據分析探索能力。傳統企業BI分析,數據往往先經過離線的ETL批處理過程,之後再基於固定的業務模型,以多維報表形式做分析結果展現。這種模式下,數據分析的實時性,業務發展的敏捷性受到制約,數據價值的釋放和數據分析師的工作受到約束。AnalyticDB基於傳統MPP資料庫架構,支持高擴展採用流水線的計算模式,同時創新的引入多項黑科技,支撐海量數據的高性能在線實時分析。
- 新硬體加速 利用阿里雲IaaS層的垂直整合優勢,全面引入SSD卡存儲,較傳統磁碟存儲 I/O帶寬提升10倍以上。AnalyticDB今年即將上線的GPU加速特性,將數據分析里的計算密集型操作卸載到GPU,利用GPU高並行計算能力,提升複雜數據計算的性能。已經在廣告等數據探索類業務上驗證,性能平均提升5倍以上。
- 曦和分析計算引擎 AnalyticDB 在17年全面升級為新一代曦和分散式計算引擎,整體採用MPP架構,支持DAG計算模型,節點內引入LLVM等運行時代碼編譯優化技術,性能提升一倍以上。數據分析任務在曦和計算引擎內被打散成小顆粒的計算單元,引擎內置分時輪詢的計算調度機制,可以保證高並發下作業任務的穩定運行。
- 智能存儲索引 AnalyticDB支持創新的行列混存,同時針對不同的數據類型在數據載入寫入時,智能的構建多種維度索引,包括B+索引、區間索引、倒排索引、點陣圖索引等,並對傳統索引演算法進行創新,引入動態過濾、延遲物化等方式,極大的降低I/O,實現高性能的點或範圍的檢索,支持萬億級記錄關聯分析。
- 讀寫分離架構 在各類生產運營系統里,隨著移動端應用以及物聯網的興起,高性能的寫入成為分析類系統的強需求。AnalyticDB整體採用讀寫分離架構,除支持大批量數據載入外,也支持每秒千萬條記錄的寫入,寫入成功即持久化保存在盤古分散式文件系統里,根據用戶配置支持不同的數據一致性級別。
全雲化的高可用架構
AnalyticDB 構建在阿里雲飛天分散式系統之上,接入層、計算層、存儲層解耦,各層可獨立伸縮。同時所有的服務節點均採用無狀態化(Serverless)設計,所有節點均為多活(Active-Active)模式或主備(Primary-Standby)模式,相較於傳統資料庫的緊耦合架構,其擴容、升級等運維操作往往需要停機幾個小時或者天,AnalyticDB支持在線擴容(Online scale out)和滾動升級(Rolling upgrade),過程對客戶業務無感知,從而更好的支持阿里雲上客戶業務的不斷發展,按需購買服務,當業務迅速擴展時,靈活敏捷的進行AnalyticDB擴縮容操作。AnalyticDB 的各組件均為無狀態化設計(Serverless),當發生任何軟、硬體故障時,飛天的伏羲調度系統會自動檢測和遷移故障節點,整個過程對應用透明無感知。
AnalyticDB的數據存儲在阿里巴巴自研的盤古分散式文件系統上,支持多副本或糾錯碼(Erasure Code)模式存儲數據,相較於傳統資料庫基於本地磁碟的存儲,具備更高的數據可靠性。17年盤古分散式文件系統全面升級,上線25GE網路和新的SSD存儲介質,面向數據分析類場景,提供了更高的數據吞吐能力。
總結
AnalyticDB 已經在阿里雲國內主要數據中心開通,包括華北2(北京)、華東1(上海)和華東2(杭州)區等,服務支撐的客戶即包括眾多互聯網創業公司,如小黃車ofo等,也在支撐很多大型企業的數字化建設,例如中國郵政等等。在今年3月28日的深圳雲棲大會上,AnalyticDB產品發布了兩個重要消息:
- 各類型實例將在四月份平均降價50%,普惠廣大阿里雲的數據分析用戶,通過在線化數據分析,最大釋放數據價值;
- 四月份將在阿里雲華南區(深圳)開通AnalyticDB服務,便於華南客戶可以更便捷的應用該服務。
原文鏈接
更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎
推薦閱讀:
※python入門第四課——數據類型轉換
※0029數據展現:平均線圖製作
※「機器學習與R語言」——筆記一:機器學習簡介
※數據分析-假設檢驗和P值
※如何做好競品分析?