配置管理Linux高性能計算集群需要從何開始？

01-29

直接做簡單cluster其實不是太麻煩的。舉個例子，總共5台伺服器A,B,C,D,E，
1. 5個機器都安裝好熟悉的linux發新版，安裝、配置好inter編譯器(用來編譯mpich之類的，性能比gcc好很多)、mpich2之類的。

2.打通ssh信任登陸，選一個同時做控制節點和存儲節點(自己玩玩，結算過程中IO量不大的話簡單的NFS就行了)，其他幾個機器都掛上NFS，主要的工作目錄都是在共享目錄上。配置好mpich2以及openpbs或者lsf之類的調度軟體。
3.把mpich2裡面自帶的算Pi之類的c程序用mpicc編譯一下,fortran的用mpif90？好多年不玩這些有點忘記了。
4.使用任務調度系統提交任務。。
PS：一般HPC cluster的結構大同小異，比如超算中心會用專門的存儲伺服器並且用lustre這樣的分散式文件系統（自己玩就太複雜了），節點與節點直接的連接方式除了乙太網外會使用infiniband（延遲是us級別，而且infiniband交換機背板帶寬也很大）。編譯節點也會單獨分開，還會放幾個debug用的節點給大家調試，但是一般這樣的節點上的進程運行時間、內存會限制一下。

HPC cluster不是什麼高科技，現在新玩法也就是計算節點插點顯卡，做異構的架構，大部分行業內的計算軟體還是用不了GPU的。我也轉行幾年了。有不對的地方大家指正。
一般專門講這個的書不多，復旦車靜光老師以前自己組建過一個cluetr寫成了書。
FUCON96主頁
內容雖然有點老，不過大概思路都是這樣的。做大規模的集群本來就是發現哪裡成為了瓶頸就進行改機。也可以參考一下國內曙光和聯想深騰系裡的結構圖。

我僅僅作為用戶使用過高性能計算機群, 對於配置管理實在缺乏經驗.

我建議提問者去這兩個網站看一看, 主要搜集一下機群的硬體及網路配置, 安裝的庫和編譯環境等等. 希望對你有所幫助.
[1] NERSC: National Energy Research Scientific Computing Center 這是我每天都使用的一個機群
[2] Introducing Titan 這是目前世界上最快的高性能計算機群

取決於想配多大規模的集群，小規模的可以用nfs+mpi來做

推薦閱讀：

※實現一個行情伺服器，支持10萬級別的行情客戶端連接，實時推送行情，用什麼開源框架來搭建比較好？
※keepalived是如何解決或者防止腦裂問題的？
※類似COC那種大世界網遊的服務端是採取什麼樣的架構？
※伺服器集群為什麼節點間通信為什麼要用到RPC，這個是為了解決什麼問題？
※分散式與集群的區別是什麼？

TAG:Linux | 伺服器集群 |