案例分析:聯想利用Alluxio分析多位置來源的PB級智能手機數據並消除ETL
常用鏈接
- Alluxio項目官網
- Alluxio Inc網站
- Alluxio在各大廠用例
- 關注Alluxio微信公眾號
聯想是全球最大的個人電腦供應商,也是全球最大的智能手機供應商之一。該公司已經在全球信息技術基礎設施上投入了大量資金,其中包括在全球範圍內收集PB級別智能手機相關數據的多個數據中心。對於聯想來說,分析位於全球多個數據中心的數據對理解和提升其產品的可用性和可靠性至關重要。藉助於Alluxio,聯想統一了來自多個數據中心的數據,並消除了ETL過程,同時降低了由於多個數據副本導致的存儲成本。
挑戰
智能手機相關數據已經在聯想企業分析平台上進行處理。以前這需要耗時且易出錯的ETL過程將數據從多個位置傳輸到單個數據中心進行分析。聯想使用HDFS等大數據技術來存儲數據,並採用Hive metastore來存儲與結構化數據關聯的元數據。在此基礎之上,聯想使用Hive和Spark SQL執行分析,以深入了解用戶行為、常用應用程序、日誌分析等。在上述工作中,數據的體量和地理位置的數目方面呈現出多重挑戰:
- 由於數據副本導致的高存儲成本
- 從多個位置傳輸數據的帶寬和性能限制
- 阻止某些數據的傳輸並將其排除在分析之外的規則
下圖顯示了最初的聯想基礎架構
解決方案
聯想通過將Alluxio作為收集自全球的所有智能手機相關數據的數據管理層來解決這個技術難題。HDFS數據存儲連接到Alluxio,通過全局命名空間為多個應用程序提供無縫訪問。整個過程中,用戶並不需要更改應用程序。藉助於此架構,聯想可以執行涉及跨數據中心數據同步、連接和統一的高級分析。Alluxio還將數據暫時緩存在內存中以提升性能。Alluxio適用於現有的安全框架並能夠執行相應的策略,確保來自不同國家和地區的監管和合規要求得到滿足。
下圖顯示了使用Alluxio的聯想基礎架構
結果
藉助於這種新架構,聯想現在的基礎架構可以讓他們分析其全球數據,而不需要依賴於易出錯、長耗時且高成本的ETL或數據副本的手段。Alluxio在內存中維護最新的數據副本,或從HDFS中為新的請求提取數據,確保數據的新鮮度。
藉助於Alluxio,企業分析平台現在將遠端位置HDFS的數據存儲在本地內存中,並為分析應用程序提供透明訪問。Alluxio為已經使用的應用程序提供了與以往相同的API。這使得聯想可以在不中斷現有的堆棧或更改應用程序的情況下受益。
展望
隨著將Alluxio集成在數據處理堆棧中,聯想現在能夠訪問大量的移動數據並將其轉化為有價值的信息。這滿足了用儘可能最低的成本為他們的分析平台提高產品質量和高客戶滿意度的業務目標。
用戶:聯想
行業:移動通信
用例:分析,遠程數據訪問
應用程序棧:Spark SQL + Hive + Alluxio + HDFS
亮點:
- 省去了耗時且易出錯的ETL過程
- 降低了與多個數據副本相關的存儲成本
- 來自多個數據中心的統一數據
- 多個管轄區域的監管合規性
- 不需要更改應用程序或現有的基礎架構
推薦閱讀:
※【線上直播】數據很重要,Storm幫你現在就要
※能源行業將被重構,大數據有哪些「挖」法?
※定位未來的自己—數據分析學習計劃
※智慧警務指揮決策系統,助力平安城市
※未來不遠 --2017雲棲大會觀感