統一存儲新邊界-UMStor的創新

08-21

統一存儲新邊界-UMStor的創新

由Ceph中國社區主辦，DOIT和Dostor承辦的全球首屆Ceph亞太峰會——Cephalocon APAC 2018於4月22日-4月23日在北京順利召開，這也是Ceph問世以來的全球首場峰會。被譽為「Ceph之父」的Sage Weil，Ceph社區經理Leonardo Vaz，Ceph基金會等一眾高層親臨到場，來自國內外Ceph生態圈的開發者、服務商以及SDS用戶在為期兩天的會議中，進行了全面深入的交流。

UMCloud作為全球Ceph開源社區的貢獻者之一，不僅贊助了本次大會，還帶來了3場精彩的技術分享，與國內外用戶分享我們SDS產品的研發與實踐經驗。本文為UMCloud朱榮澤帶來的「統一存儲新邊界-UMStor的創新，貼近CBA時代氣息的存儲系統」主題分享。

前言

本次主題包含兩個問題：

1) 什麼是CBA時代？

2) 「統一存儲的新邊界」到底在哪裡？

首先CBA簡單來講是C-Cloud雲、B-Bigdata大數據、A-AI人工智慧。對於第2個問題，接下來的分享將圍繞「統一存儲的新邊界」具體展開。

上圖為本次主題的大綱，主要內容有：

1) CBA時代的應用場景和數據量對存儲的挑戰。

2) 假如新的統一存儲要解決這些挑戰，它的邊界要擴展到哪裡？

3) UMStor是怎麼用創新去突破邊界的，我們將介紹2個超大規模案例介紹。

CBA時代對存儲的要求

大家知道10年前的「統一存儲」是指同時支持SAN、NAS，滿足了當時客戶的需求，主要是為了省錢和提高效率。10年後，我們再看統一存儲，新的應用場景湧現，伴隨著海量數據的挑戰，使舊的統一存儲不能再滿足客戶的需求。CBA時代對存儲的要求由「2合1」變成「8合1」，新的統一存儲需要同時支持8種應用場景，並且新的統一存儲要解決如下的問題：

多協議支持
workload優化
存儲資源統一管理與調度
分級存儲
QoS
存儲功能
統一存儲管理平台

由此可以看到在CBA時代新應用場景對於存儲系統提出了更高維度的要求。

我們看到，在CBA時代，數據量越來越大，數據類型越來越多。我們應該怎麼管理這些數據，應該怎麼挖掘這些數據的價值呢？顯然這是一個非常巨大的挑戰。

統一存儲的新邊界

那麼，統一存儲的新邊界在哪裡？朱榮澤總結了三條：

? 規模邊界；

? 複雜邊界；

? 業務邊界；

「規模邊界」下，單項目10PB級存儲規模成為新常態，這需要新的統一存儲能夠快速部署和管理這麼大規模的存儲容量。「複雜邊界」能夠滿足多種應用場景負載，輕鬆解決數據挑戰。「業務邊界」顧名思義就是能夠充分利用已有的AI技術，為企業業務賦能。

目前新的統一存儲系統到底能否滿足這些新邊界的要求？接下來我們先看一下UMStor的產品架構，看它是如何解決這些問題的。

上圖是UMStor整體產品架構。UMStor由五大模塊組成，分別是存儲網關層、智能存儲層、存儲引擎、AI計算引擎、存儲管理平台。在架構上UMStor有以下優勢：

? 使用「存儲管理平台」和「存儲引擎的架構」、還有豐富的架構設計經驗去解決「規模邊界，大規模部署問題」，可以快速部署和交付10PB級存儲系統。

? 使用「存儲網關層」和「智能存儲層」去解決「複雜邊界，滿足複雜應用場景的問題」。因為存儲網關層支持多種數據介面，支持塊存儲iSCSI、NBD介面，可以用於OpenStack雲平台、VMware、K8s持久化存儲；支持對象存儲介面S3、文件介面NFS、流媒體介面RTMP、大數據介面HDFS，滿足99%的介面要求。

? 使用「AI計算引擎」去解決「業務邊界，給企業業務賦能」。

規模邊界 – UMStor 大規模部署

應用案例：30PB超大規模雲存儲

這是UMCloud和客戶共建的一套30PB的雲存儲系統，已經成功上線一年多。該雲存儲系統對外提供對象存儲服務，提供標準S3介面；整個雲存儲系統部署在兩個數據中心，一共4個集群，共520台伺服器，4個分散式存儲集群組成多站點多活架構。

在整個30PB雲存儲項目中，架構設計的重要性佔80%，實際部署和測試的重要性佔20%。這對於分散式存儲產品和廠商的要求是：

1) 分散式存儲SDS產品天生支持軟硬體分離，並且各個組件和模塊是低耦合，全分散式全冗餘架構，具有天然的擴展性。另外網路和存儲可以進行靈活的規劃，這使得架構師可以根據實際項目需求進行完善設計，滿足客戶當前與未來的需求。

2) 廠商需要具有超大型項目架構設計能力和豐富的案例經驗，涉及到複雜的網路、存儲、業務的設計與規劃。有時候還需要跟雲平台對接，也要對大規模雲平台非常了解。目前大規模私有雲平台使用OpenStack較多，這裡面的門道需要廠商心中有數，避免項目設計上的重大失誤。

3) 存儲管理平台內置超大規模部署和管理能力。廠商具有超大型項目交付能力，可以通過存儲管理平台進行圖形化自動化部署和管理，具有完善的交付流程和豐富的經驗。這需要存儲產品的「存儲管理平台」可以執行除「人工協調」外的所有操作，保證分散式存儲系統的交付質量和速度。

應用案例: 20PB數據湖案例

這個項目的背景是某運營商子公司需要構建統一的IT系統資源池雲平台，對IT系統資源池內的資源進行統一管理，實現體系化、專業化、高效率、易配置的業務運營系統，滿足公司的業務需求。IT資源池一期二期共包括4000台伺服器，用於虛擬化(OpenStack)、裸機、分散式存儲等，其中分散式存儲需要20PB存儲容量。

另外，分散式存儲需要支持媒資業務、大數據業務(Hadoop、HBase、Spark、Hive、Flume等)、虛擬化平台服務，可以同時支持4000台虛擬機；需要支持多種類型存儲介面，包括對象存儲介面、塊存儲介面、大數據存儲介面；需要具有多種存儲高級功能，支持EC糾刪碼、快照、克隆、在線卷擴容、存儲分級；需要具有非常高的可用性，無單點故障，具有完善的數據保護和恢復功能。

針對這些需求，傳統存儲已經不能滿足這麼大規模的IT資源池項目，原因如下：

1) 傳統存儲SAN和NAS很難滿足4000台虛擬機同時進行高負載讀寫訪問；

2) 傳統存儲的系統容量和性能不能橫向擴展，硬體鎖定不能自由選擇使用的硬體設備；

3) 傳統存儲建設成本沉重，並且功能單一，阻礙業務創新。

這種情況下，使用UMStor統一存儲解決方案的優勢是：

? UMStor基於通用的x86伺服器構造了統一存儲資源池，提供多種數據服務。採用領先的全分散式全冗餘架構，具有高彈性和高可靠性，性能和容量可以橫向擴展；

? 一站式方案，提供塊存儲介面、對象存儲介面、大數據介面、文件介面；

? 超高性能，UMStor屬於全分散式架構，所有存儲伺服器都貢獻性能，可以滿足4000台虛擬機高負載的讀寫訪問，還有大數據業務和媒資業務的負載。

? 可以擴展到50PB容量，UMStor支持快速擴容，並且不影響線上業務。

? 無硬體鎖定，可以選擇合適的x86伺服器、硬碟、網路設備。

UMStor能夠帶給客戶的收益有：

? 突破性的吞吐性能和低延遲表現，UMStor支持SSD和SATA混插，並且屬於全分散式架構，所有硬碟和伺服器都並行工作，支持秒級創建虛擬機和快照，滿足4000台虛擬機的高負載讀寫訪問。

? 高擴展性滿足企業業務增長需求， UMStor支持軟硬體分離，採用通用x86伺服器實現了分散式的敏捷擴展。

? 數據安全性達到11個9，UMStor實現所有軟硬體冗餘，無單點故障，具有超高可用性。UMStor具有故障檢測和自動回復功能，可以實現多塊硬碟並行恢復，支持不同存儲池的不同副本數量存儲策略。

? UMStor數據湖同時支持S3、RTMP、HDFS、NFS介面，能夠滿足多種應用負載場景。

複雜邊界 – UMStor的創新

支持多種協議

目前UMStor支持多種協議，主要有以下四類：

Cloud Storage(雲存儲)：主要是塊存儲，用於OpenStack、k8s、VMware等，提供原生塊存儲介面和iSCSI介面。
Data Protection(數據保護)：主要用於備份和歸檔場景，提供標準S3介面，可以實現雲集成高級功能。
Analysis(數據分析)：提供NFS、HDFS、S3介面，可以直接運行Hadoop/Spark/HBase/Hive/Flume等大數據應用，還可以直接運行TensorFlow等深度學習框架。
Inovation(創新)：提供流媒體視頻直寫介面，另外還提供圖片識別和語音識別功能，以後還會提供更多數據處理功能。通過AI計算引擎，為企業業務賦能。

支持對象存儲高級功能

表格列出的是AWS S3編年史，從2006年到2016年開發的高級功能，從這張表格可以看出，UMStor跟AWS S3在功能方面差距非常小，在高級功能上相差無幾。

目前我們已經用到和新開發的對象存儲高級功能，其中多站點多活功能已經在使用。我們在2016年已經開發了雲同步功能，可以用於備份；自定義標籤加搜索功能可以用於非常多的業務場景，相當於去掉之前使用的資料庫；雲集成功能可以用於備份歸檔，直接把數據分片加密存放在公有雲上；存儲類別也是各大公有雲廠商提供的功能，目前我們的UMStor也提供相應功能，而其他家商業對象存儲產品還沒有開發類似功能。

雲集成Cloud Tier功能

UMStor開發了雲集成Cloud Tier的功能，由於本地存儲容量有限，因此UMStor可以進行冷熱數據分析，把冷數據遷移歸檔到公有雲上或另外一套大容量UMStor存儲上；數據經過加密和分片後存放在公有雲上，保證數據的安全性和隱私性。通過雲集成功能，本地存儲可以具有接近於無限的存儲容量。

支持存儲類別功能

大部分公有雲廠商的雲存儲都會提供存儲類別功能，還提供生命周期管理。UMStor提供了存儲類別Storage Claases功能的企業級存儲產品，目前可以自定義存儲類別，並且對象文件可以實時更改存儲類別。歸檔存儲因為使用了壓縮功能，所以得盤率會高於100%。

支持無縫替換大數據Hadoop存儲

UMStor可以作為企業新的大數據存儲。為什麼已經有了HDFS、S3A，我們還要重複造輪子呢？這是因為企業使用UMStor作為大數據存儲收益更大。

這是UMStor開發的大數據存儲介面，用戶可以通過此介面Hadapter訪問UMStor對象存儲。目前經過驗證和適配的大數據應用是Hadoop、HBase、Spark、Hive、Flume等。而UMStor大數據介面是可以直接訪問到OSD硬碟，中間沒有存儲網關，因此可以跑滿所有存儲伺服器的網路帶寬。

從上圖可以看到，UMStor+Hadapter跟原生HDFS存儲相比，在大規模、高性能、多應用場景、高擴展性的場景下，UMStor+Hadapter比原生HDFS優勢更明顯。

流媒體存儲

企業客戶在處理大量非結構化數據時一般會面臨數據量不斷增大的問題，另外數據需求不斷增長導致難以管理。由於訪問機制的複雜性，將數據從源系統移到分析系統時將會經歷更長的延遲。

UMStor推出的融合數據湖解決方案，可以實現一次寫入、多次讀取、無需拷貝和移動數據，數據源系統和分析系統合二為一，用戶不需要移動數據，將時延降到較低，較快的挖掘數據的價值，加速業務創新；也不需要改造已有應用。

例如：攝像頭可以通過RTMP協議直寫流媒體視頻到UMStor的數據湖中，然後直接使用大數據應用對視頻數據進行處理和分析，再把結果數據寫會數據湖中，其他應用可以直接通過HTTP S3介面訪問到結果數據。

業務邊界 – UMStor 為業務賦能

AI計算引擎下沉

UMStor增加了AI計算引擎，充分利用空閑的CPU資源。目前已經支持語音識別、語音轉寫、圖片處理等功能，未來還會增加更多AI服務。用戶使用對象存儲介面上傳錄音文件，並可以自定義多個Tag標籤，UMStor可以進行Tag感知，假如感知到有Tag指示需要進行語音識別和轉寫，會啟動「語音轉寫」任務，把這個錄音文件的內容識別，並轉成文本存放在彈性搜索引擎上，其他Tag也會存放在彈性搜索引擎上。通過彈性搜索引擎，用戶可以快速搜索語音的內容和Tag，進行合規性檢查或者是大數據分析。圖片處理功能可以包括「鑒黃」和「裁剪」功能等。

總結

本文中定義了統一存儲的3個新邊界，並介紹了UMStor是如何解決這三個問題的。整體來看，UMStor的三大優勢在於：

1. 支持10PB級以上超大規模部署

UMCloud在中國較大單一分散式存儲資源池項目規模超過30PB；

2. 輕鬆解決複雜數據存儲挑戰

UMStor提供多種數據介面，包括塊存儲、對象存儲、文件存儲、大數據、流媒體等介面，適用於虛擬化、容器、雲計算、大數據、物聯網、混合雲、AI人工智慧、備份歸檔等場景。UMStor的數據互聯互通，打破數據調度壁壘，是較好的數據湖解決方案；

3. 計算引擎下沉

UMStor包含彈性AI計算引擎，插件式計算框架，提供高級服務介面，為企業業務賦能，包括圖片處理、音頻處理、視頻處理等功能。