配置管理Linux高性能計算集群需要從何開始?
01-29
直接做簡單cluster其實不是太麻煩的。舉個例子,總共5台伺服器A,B,C,D,E,
1. 5個機器都安裝好熟悉的linux發新版,安裝、配置好inter編譯器(用來編譯mpich之類的,性能比gcc好很多)、mpich2之類的。2.打通ssh信任登陸,選一個同時做控制節點和存儲節點(自己玩玩,結算過程中IO量不大的話簡單的NFS就行了),其他幾個機器都掛上NFS,主要的工作目錄都是在共享目錄上。配置好mpich2以及openpbs或者lsf之類的調度軟體。
3.把mpich2裡面自帶的算Pi之類的c程序用mpicc編譯一下,fortran的用mpif90?好多年不玩這些有點忘記了。4.使用任務調度系統提交任務。。PS:一般HPC cluster的結構大同小異,比如超算中心會用專門的存儲伺服器並且用lustre這樣的分散式文件系統(自己玩就太複雜了),節點與節點直接的連接方式除了乙太網外會使用infiniband(延遲是us級別,而且infiniband交換機背板帶寬也很大)。編譯節點也會單獨分開,還會放幾個debug用的節點給大家調試,但是一般這樣的節點上的進程運行時間、內存會限制一下。
HPC cluster不是什麼高科技,現在新玩法也就是計算節點插點顯卡,做異構的架構,大部分行業內的計算軟體還是用不了GPU的。我也轉行幾年了。有不對的地方大家指正。
一般專門講這個的書不多,復旦車靜光老師以前自己組建過一個cluetr寫成了書。FUCON96主頁內容雖然有點老,不過大概思路都是這樣的。做大規模的集群本來就是發現哪裡成為了瓶頸就進行改機。也可以參考一下國內 曙光和聯想深騰系裡的結構圖。
我僅僅作為用戶使用過高性能計算機群, 對於配置管理實在缺乏經驗.我建議提問者去這兩個網站看一看, 主要搜集一下機群的硬體及網路配置, 安裝的庫和編譯環境等等. 希望對你有所幫助.
[1] NERSC: National Energy Research Scientific Computing Center 這是我每天都使用的一個機群[2] Introducing Titan 這是目前世界上最快的高性能計算機群
取決於想配多大規模的集群,小規模的可以用nfs+mpi來做
推薦閱讀:
※實現一個行情伺服器,支持10萬級別的行情客戶端連接,實時推送行情,用什麼開源框架來搭建比較好?
※keepalived是如何解決或者防止腦裂問題的?
※類似COC那種大世界網遊的服務端是採取什麼樣的架構?
※伺服器集群為什麼節點間通信為什麼要用到RPC,這個是為了解決什麼問題?
※分散式與集群的區別是什麼?