2017雙11技術揭秘—阿里巴巴資料庫技術架構演進
作者:諶文濤(俞月)
每年電商雙11大促對阿里技術人都是一次大考,對阿里資料庫團隊更是如此。經過9年的發展,雙11單日交易額從2009年的0.5億一路攀升到2017年的1682億,秒級交易創建峰值達到了32.5萬筆/秒。支撐這一切業務指標的背後,是底層技術體系的一次次迭代升級。
阿里巴巴資料庫系統經歷了10多年的發展,今年正式確定從 第三代大規模分庫分表 向 第四代X-DB分散式資料庫系統 演進的目標。X-DB分散式資料庫的落地已經在2017年雙11大促中獲得了可行性驗證,同時底層開始引入存儲計算分離架構。分散式在系統穩定性、容災能力、容量擴展性、技術體系內聚性上有了質的提升,今年雙11開啟了阿里資料庫技術架構新的篇章。
本文以阿里電商交易鏈路中的核心系統庫存中心為例,一窺阿里集團數據資料庫的發展歷程。庫存中心資料庫集群(簡稱庫存DB集群),從2012年獨立拆分後,其發展可以概括為以下3個階段:
- 2012~2013年:分庫分表水平拆分,構建大規模資料庫集群
- 2014~2016年:單元化異地多活架構,數據多單元間同步
- 2017年:X-DB 1.0分散式集群部署上線,新的起點
作為阿里資料庫體系中的核心系統,庫存DB集群的發展歷程可以作為縮影,代表了阿里巴巴資料庫體系的演進。
誕生
庫存DB集群誕生於2012年,是業務垂直拆分的產物。庫存最早是商品中心資料庫的一個欄位,隨著淘寶業務的複雜化,單一欄位已經滿足不了基於後端倉儲的庫存管理體系,所以便有了垂直拆分出來的庫存DB集群。
水平拆分
2012~2017年,雙11交易額一步步的刷新紀錄,庫存DB集群的QPS/TPS也實現了幾十倍的增長。水平拆分的基本思路是把資料庫擴展到多個物理節點上,讓每個節點處理不同的讀寫請求,從而緩解單一資料庫的性能問題。
藉助於資料庫團隊的DTS(Data Transmission Service)產品,庫存中心進行了大規模的水平拆分,分庫和分表數量擴展到最初的幾百倍,平穩的支撐了這一個階段業務的快速發展。與此同時,在熱點商品扣減、防超賣數據強一致需求、跨城異地容災數據質量問題、業務數據量急劇膨脹、超大規模資料庫集群運維等問題點上,迫切需要新一代架構來解決。
異地多活單元化
2014~2015年,為了進一步提升用戶的購物體驗,庫存DB集群與主站交易鏈路一同做了單元化部署。單元化很大程度上解決了買家的使用體驗問題,在本單元內封閉完成讀寫操作。但是對於賣家維度的數據,比如編輯商品、扣減庫存,就會涉及到跨單元中心去寫。關於單元化架構,之前已經有了很多介紹。
有了多個單元,對於底層資料庫來說,面臨的最大挑戰就是數據同步,因為對於單元封閉的買家維度的數據,需要把單元的數據全部同步到中心;對於讀寫分離類型的業務,我們要把中心的數據同步到單元。這條數據通道就是依靠DRC(Data Replication Center)來完成。
如今,DRC不僅成為集團單元化鏈路的基礎設施,對應的雲產品DTS已經從2016年開始讓阿里雲用戶、聚石塔商家低成本的搭建異地容災。單元化架構給庫存DB集群帶來的最大挑戰是多單元間的數據強一致問題,我們也為此做了很大的努力。
X-DB分散式集群
2017年雙11,庫存DB集群第一次使用X-DB 1.0分散式集群部署,平穩的支持了32.5萬筆/秒的交易創建峰值。X-DB是阿里巴巴自研高性能分散式可全球化部署資料庫,其核心技術目標概括為以下6點:
- 100%兼容MySQL生態,應用無縫遷移
- 跨AZ、Region的全球化部署能力,5個9以上的可用率
- 自動化的數據Sharding,計算、存儲均可水平擴展
- 高性能的事務處理,相同硬體下達到MySQL 10倍的事務處理能力,百萬TPS
- 自動化的數據冷熱分離,存儲成本為MySQL的1/10
- 計算存儲分離,存儲按需擴展
庫存DB集群雙十一部署架構:
正是由於X-DB提供了全面兼容MySQL、高性能、低成本、跨城容災、數據強一致的能力。在2017年年初,資料庫團隊和業務研發團隊確定了在庫存中心部署X-DB 1.0的目標,解決業務目前面臨的痛點:
- 全面兼容MySQL,實現業務系統平滑遷入
- 極致性能,雙11單實例熱點扣減峰值TPS是去年的3倍
- 低成本,相比於傳統的單元化主備架構部署,減少2個數據副本以及單元間數據同步資源成本
- 跨城容災,藉助Batching和Pipelining技術實現跨城強同步場景吞吐量幾乎無衰減
- 數據強一致,藉助Paxos協議提供多單元間數據強一致能力;批量關閉中心集群全部實例,集群30秒內完成單元選主切換,數據零丟失
- 計算存儲分離,徹底解決傳統機型計算資源和存儲資源固定配比問題,搭配容器化技術,大促峰值期間將資料庫彈性部署運行在離線任務主機,落地零擴容成本支持雙十一大促
X-DB首次亮相在2017年雙11的舞台,平穩支撐零點峰值32.5萬筆/秒,開啟了阿里資料庫體系從分庫分表時代向分散式集群時代的大門。技術之路永無止境,我們今天的技術現狀離業務對我們的要求還有很大的差距。但是千里之行,始於足下,借用《魔戒》里的經典台詞:「There』s some good in this world, Mr. Frodo. And it』s worth fighting for.」
推薦閱讀:
※3分鐘帶你了解負載均衡服務
※一張圖學會資料庫遷雲最佳路徑
※什麼是雲支付?
※【原創】中國雲計算現狀—7.監管篇
※人工智慧新硬體,打開群體智能大時代
TAG:雲計算 |