配置管理Linux高性能計算集群需要從何開始?


直接做簡單cluster其實不是太麻煩的。舉個例子,總共5台伺服器A,B,C,D,E,

1. 5個機器都安裝好熟悉的linux發新版,安裝、配置好inter編譯器(用來編譯mpich之類的,性能比gcc好很多)、mpich2之類的。

2.打通ssh信任登陸,選一個同時做控制節點和存儲節點(自己玩玩,結算過程中IO量不大的話簡單的NFS就行了),其他幾個機器都掛上NFS,主要的工作目錄都是在共享目錄上。配置好mpich2以及openpbs或者lsf之類的調度軟體。

3.把mpich2裡面自帶的算Pi之類的c程序用mpicc編譯一下,fortran的用mpif90?好多年不玩這些有點忘記了。

4.使用任務調度系統提交任務。。

PS:一般HPC cluster的結構大同小異,比如超算中心會用專門的存儲伺服器並且用lustre這樣的分散式文件系統(自己玩就太複雜了),節點與節點直接的連接方式除了乙太網外會使用infiniband(延遲是us級別,而且infiniband交換機背板帶寬也很大)。編譯節點也會單獨分開,還會放幾個debug用的節點給大家調試,但是一般這樣的節點上的進程運行時間、內存會限制一下。

HPC cluster不是什麼高科技,現在新玩法也就是計算節點插點顯卡,做異構的架構,大部分行業內的計算軟體還是用不了GPU的。我也轉行幾年了。有不對的地方大家指正。

一般專門講這個的書不多,復旦車靜光老師以前自己組建過一個cluetr寫成了書。

FUCON96主頁

內容雖然有點老,不過大概思路都是這樣的。做大規模的集群本來就是發現哪裡成為了瓶頸就進行改機。也可以參考一下國內 曙光和聯想深騰系裡的結構圖。


我僅僅作為用戶使用過高性能計算機群, 對於配置管理實在缺乏經驗.

我建議提問者去這兩個網站看一看, 主要搜集一下機群的硬體及網路配置, 安裝的庫和編譯環境等等. 希望對你有所幫助.

[1] NERSC: National Energy Research Scientific Computing Center 這是我每天都使用的一個機群

[2] Introducing Titan 這是目前世界上最快的高性能計算機群


取決於想配多大規模的集群,小規模的可以用nfs+mpi來做


推薦閱讀:

實現一個行情伺服器,支持10萬級別的行情客戶端連接,實時推送行情,用什麼開源框架來搭建比較好?
keepalived是如何解決或者防止腦裂問題的?
類似COC那種大世界網遊的服務端是採取什麼樣的架構?
伺服器集群為什麼節點間通信為什麼要用到RPC,這個是為了解決什麼問題?
分散式與集群的區別是什麼?

TAG:Linux | 伺服器集群 |