用於大數據處理高性能計算的4個實現步驟

如果企業需要採用處理其大數據的高性能計算,則在內部部署運營可能效果最佳。以下是企業需要了解的內容,其中包括高性能計算和Hadoop的不同之處。

在大數據領域,並非每家公司都需要高性能計算(HPC),但幾乎所有使用大數據的企業都採用了Hadoop式分析計算。

HPC和Hadoop之間的區別很難區分,因為可以在高性能計算(HPC)設備上運行Hadoop分析作業,但反之亦然。 HPC和Hadoop分析都使用並行數據處理,但在Hadoop 和分析環境中,數據存儲在硬體上,並分布在該硬體的多個節點上。在高性能計算(HPC)中,數據文件的大小要大得多,數據存儲集中。高性能計算(HPC)由於其文件體積龐大,還需要更昂貴的網路通信(如InfiniBand),因此需要高吞吐量和低延遲。

企業首席信息官的目的很明確:如果企業可以避免使用HPC並只將Hadoop用於分析,可以執行此操作。這種方式成本更低,更易於員工操作,甚至可以在雲端運行,其他公司(如第三方供應商)可以運行它。

不幸的是,對於需要高性能計算(HPC)進行處理的生命科學、氣象、製藥、採礦、醫療、政府、學術的企業和機構來說,全部採用Hadoop是不可能的。由於文件規模較大,處理需求極其嚴格,採用數據中心或與採用雲計算都不是很好的方案。

簡而言之,高性能計算(HPC)是一個在數據中心內部運行的大數據平台的完美示例。正因為如此,企業如何確保其投資巨大的硬體完成需要的工作成為了一個挑戰。

大數據Hadoop和HPC平台提供商PSCC Labs首席戰略官Alex Lesser表示:「這是必須使用HPC來處理其大數據的許多公司面臨的挑戰。大多數這些公司都有支持傳統IT基礎設施,他們很自然地採用了這種思路,自己構建Hadoop分析計算環境,因為這使用了他們已經熟悉的商用硬體,但是對於高性能計算(HPC)來說,其響應通常是讓供應商來處理。」

考慮採用高性能計算(HPC)的公司需要採取以下四個步驟:

1.確保企業高層對高性能計算(HPC)的支持

企業的高層管理人員和董事會成員不一定要求是高性能計算領域的專家,但絕不能沒有他們的理解和支持。這些管理人員都應該對高性能計算(HPC)有足夠的了解,以及可以為企業明確支持可能制定的大規模硬體、軟體和培訓投資。這意味著他們必須在兩個方面受到教育:(1)HPC是什麼,為什麼它與普通分析不同,需要採用特殊的硬體和軟體。(2)為什麼企業需要使用HPC而不是原有的分析來實現其業務目標。這兩項教育工作都應由首席信息官(CIO)或首席開發官(CDO)負責。

Lesser表示:「採用HPC的最積極的公司是那些相信他們真正的科技公司,他們指的是亞馬遜AWS雲服務,最初只是亞馬遜公司的零售業務,現在已成為一個龐大的利潤中心。」

2.考慮一個可以自定義的預配置硬體平台

PSSC Labs等公司提供預打包和預配置的HPC硬體。「我們有一個基於HPC最佳實踐的基本軟體包,可以與客戶一起根據客戶的計算需求定製這個基礎軟體包。」Lesser說,他指出幾乎每個數據中心都必須進行一些定製。

3.了解回報

與任何IT投資一樣,HPC必須符合成本效益,並且企業應該能夠獲得投資回報(ROI),這一點在管理層和董事會的頭腦中已經闡明。「一個很好的例子是飛機設計。」Lesser說。 「高性能計算(HPC)的投資規模很大,但是當公司發現它可以使用HPC進行設計模擬並獲得5個9的準確性,並且不再需要租用物理風洞時,就會很快收回了HPC投資。」

4.培訓自己的IT員工

HPC計算對企業的IT員工來說不是一個簡單的過渡,但是如果企業要運行內部部署操作,則應該讓團隊定位以實現自給自足。

最初,企業可能需要聘請外部諮詢人員才能開始工作。但諮詢任務的目標應始終是雙重目標:(1)讓HPC應用程序繼續運行,(2)將知識傳授給員工,以便他們能夠接管操作。企業不應該滿足於此。

HPC團隊的核心是需要一名數據科學家,他能夠開發高性能計算所需的高度複雜的演算法來回答企業的問題。它還需要一名精通C +或Fortran技能,並能夠在並行處理環境中工作的強大系統的程序員,或者是網路通信專家。

「最重要的是,如果企業每兩周要運行一次或兩次工作,就應該到雲端來承載其HPC。」Lesser說,「但是如果企業正在使用HPC資源和運行作業,如製藥公司或生物學公司可能每天多次運行,那麼在雲端運行就會浪費資金,應該考慮運行自己的內部操作。」

Bingdata優網助幫匯聚多平台採集的海量數據,通過大數據技術的分析及預測能力為企業提供智能化的數據分析、運營優化、投放決策、精準營銷、競品分析等整合營銷服務。

北京優網助幫信息技術有限公司(簡稱優網助幫)是以大數據為基礎,並智能應用於整合營銷的大數據公司,隸屬於亨通集團。Bingdata是其旗下品牌。優網助幫團隊主要來自阿里、騰訊、百度、金山、搜狐及移動、電信、聯通、華為、愛立信等著名企業的技術大咖,兼有互聯網與通信運營商兩種基因,為大數據的演算法分析提供強大的技術支撐。


推薦閱讀:

大數據SRE的總結(9)-- 漫談hadoop安全治理-上
五分鐘深入 Hadoop 內核
hadoop web管理Hue,Ambari 和CM 的區別是什麼?
5分鐘 Hadoop Shuffle 優化
從頭學習大數據培訓課程 hadoop 分散式計算框架(十)mapreducer 編程,任務工作鏈、生產項目打包方式

TAG:大數據處理 | Hadoop | 高性能計算 |