一台超級計算是否需要安裝多套操作系統？

01-11

一個操作系統支持的CPU數量是有限的，比如Windows是4個吧，我不清楚linux是多少個。大量的CPU之間交換數據，需要大量時間，太多CPU會造成響應遲鈍？我想請問一下，真實情況是不是如此呢？

題主對超級計算機的理解可能有點偏差。現在的超級計算機，基本上都是多節點的架構，每一個節點都獨立地運行著操作系統（我用過的幾個中，基本上都是RHEL，只有一個是麒麟——天河2 [當然我們是花錢買省事了直接訂閱的 RH，用 CentOS 的其實也有，比如 TACC]）。每節點一般是多少處理器（這裡指的是Socket，不是Core）呢？我不是很清楚，也沒做過統計，不過就我用過的幾台而言，都是兩顆。

節點與節點之間是要交換數據的，有時候交換量還很大，處理不好就會成為嚴重的瓶頸。所以一般在設計程序的時候就要從演算法上考慮，怎樣設計可以減少每個節點之間的數據交換。當然，人們為了提高交換效率也做了很多努力，比如：

更快的傳輸——Infiniband (IB)——你可以認為它是比乙太網（插路邊能買到的網線的那種）更高級的一種網路通信設備，速度快，延遲低。IB的FDR QSFP可以達到56Gbps，而通常的乙太網是1Gbps（當然高級些的有10Gbps，不過那個價錢也購買IB了吧），IB的延遲通常在 0.7ms 左右，乙太網要高得多。

減少CPU的傳輸負擔——RDMA——通信卡可以直接向內存寫數據，甚至直接向協處理器寫數據，CPU可以不必關係具體的數據傳輸流程從而完成更多的計算任務。這在帶有加速卡的計算機上尤為有用（以往需要處理器將數據複製到協處理器中）。

但是非常大量的數據傳輸還是會相當耗時（要考慮你的演算法是不是有問題了），可以採用非同步策略（或者MPI裡面非阻塞）——讓網卡慢慢接受著數據，我先干別的事，等你把所有的數據都集齊了，我再來處理。

至於題主問

一台超級計算是否需要安裝多套操作系統？

不需要。

太多CPU會造成響應遲鈍？

不會，多了我更高興。

真實情況是不是如此呢？

不是。從我們profiling過的程序來看，從來沒有因為CPU太多導致延遲增加（但是有可能因為演算法的問題使運算變慢——比如Gromacs）的。節點間的延遲問題通過非同步傳輸也通常能夠很好地解決。

Update:

補充一下

大量的CPU之間交換數據，需要大量時間，太多CPU會造成響應遲鈍

處理器之間在交換數據（讀寫內存）的時候可能會 stall，但是這不算響應遲鈍吧？Haswell 在訪問內存的時候 latency 是三十多個 cycles，還要再加上內存自己的 latency (~57ns). 但是處理器會預取數據到 cache 裡面，L1 的訪問只需要 4-5 個 cycles。

舉個更貼近大量 CPU 的例子，Xeon Phi KNC 有 60 個左右的核心，雖然主存用的是 GDDR5 但是訪存延遲仍然要 100+ cycles，L2 也需要 11 個 cycles. 為了避免跨核心數據交換造成的 stall，KNC 的 L2 Cache 是 Interconnected 的環形結構，同時，KNC 的四路超線程中，每一個 thread 都有單獨的 context，即使自己 stall 了，也不會影響到其它同核心的線程。當然，你也完全可以通過 prefetch 指令指示處理器從內存中預取數據，也可以通過 streaming store 指示處理器放心亂序。

再多說兩句吧，其實跨節點的稍大一些的數據訪問也不是不可以。昨天寫某個應用的時候有點偷懶，各節點計算完成以後的求和歸約我直接把它交給 MPI_Reduce了，500 多 MB 的雙精度浮點在 8 台機器上計算其實也就是一閃而過，所以只要不是在計算過程中這麼濫用數據交換問題也不大。

了解過某個單位的某個計算集群的某個方面的建設，末端計算單元大概有幾百到上千的樣子，因為保密原因架構圖是不能給我的，下圖是我憑記憶畫的，畫的不好，湊合看：

集群調度節點沒這麼少，實際場景好像是十幾個，每個下面有十個左右的計算單元。

有操作系統的地方：

1、主控板是一個獨立的操作系統，大概類似Unix這種系統，我沒有見過用Linux的主控板，可能是可靠性的問題，當然不排除別的地方有人在用Linux。管理員可以訪問主控板的終端，獲得系統整體負載。

2、存儲調度節點都有獨立的操作系統，可能是Linux或者嵌入式系統，負責控制存儲設備的數據輸入和輸出。

3、存儲設備上一般都是firmware之類的，也有用RTOS的，為的是管理方便，比如能實時查看存儲設備的狀態。

4、數據匯流排一般沒有操作系統，但聽說也有帶RTOS的，原因同上，數據匯流排有一些具體的標準，帶寬高的很嚇人。

5、計算集群調度節點也有獨立的操作系統，一般是Unix/Linux之類的，管理能力極強，我圖裡沒有畫出的是調度節點之間也有關聯，同時還能提供一部分對外的服務（比如用戶可以直接訪問這一節點），這一塊其實是技術的核心，但可惜我接觸不到具體的內容，只能大概畫畫。

6、計算單元里每個單元都是一個操作系統，這裡的花樣就多了，可以是Windows（沒錯，這個可以有），可以是Linux，也可以是各種RTOS，具體用什麼就看具體的數據業務，計算單元有些是互為冗餘的，一個掛了另一個還能繼續。

7、一個計算單元一般是1個CPU加上幾個計算設備（比如剛禁售的至強phi），計算能力非常強悍。

所以，在超級計算機上（我這個可能不算超級，規模還不算大），圖上畫的每個節點都有可能有一個操作系統。

CPU之間同步數據是很慢的，所以數據匯流排的設計是很麻煩的，超算與普通計算機的一個區別就是可以進行任務分割，盡量減少CPU之間的互訪，跨計算節點的訪問原則上要禁止，真要跨節點訪問，可能要走調度器控制，編程模型有些是MPI。

舉一個具體的例子：比如搞物理的教授想用蒙特卡洛方法做個模擬，先把計算拆分成若干個可並行的任務，占上十幾個到上百個計算節點，開始跑，跑完以後數據匯總，最後再輸出，演算法的設計必須要減少critical部分的代碼，否則性能下降的就太厲害了。

超算的基礎模型就是分層，每一層管轄的設備盡量不要太多，這樣就不會有特別大的負載集中於某個節點上，反正超算的結構跟我們平時用的PC差別是很大的。

最後，Windows能支持多少物理CPU不記得了，但我好像見過支持128個核的，所以4個物理U應該不是上限。Linux的最大核數好像是2048？還是多少來著，至少API有個上限，但實際上能不能跑這麼多就不知道了。反正超算平台上，不會讓一個父節點管理太多子節點，那樣效率會很低的。

這種大規模的架構，我也只能簡單介紹一下，能介紹詳細設計的人肯定不會上知乎，說多了都是國家機密了，具體到每一個節點，設計時候考慮的因素都太多了。

基本就是這樣的。

Linux從零幾年就開始支持4048 核心了，而且CPU之間的通信雖然會一定程度上影響速度，但是CPU之間的鏈路速度也是極快的，比如HT（hypertransport, AMD的）和QPI技術。

其實希望有答主來介紹一下神秘的大規模ccNUMA架構，比如Cray和SGI的機器。前幾年看到cray的機器號稱是硬體配置推到Windows的極限，單台4T內存。

首先通常而言的超級計算機都是超級計算集群，題目本身就不成立了。下面所說的指的是單台計算機。

Windows支持的CPU數目絕對超過4個，很早就支持64個了，現今能到多少個沒關注。

CPU多了會有什麼問題。對於內存線的並發訪問確實是個問題。不過早就有了非對稱性的架構，每個CPU所訪問的內存是不一樣的，彼此間沒有衝突。Windows其實也早就支持Numa架構了。

比如以前我支持過某國電信的後台資料庫，採用Windows+SQL Server。伺服器像一個雙門冰箱，64個CPU分兩組裝在左右兩邊，各自使用一邊的內存。中間有根特殊的匯流排負責左右兩邊的通信。

另外如果要處理大量IO，也有可能造成影響。一種方案是不同的IO中斷綁定到固定的CPU上，比如4塊網卡可以分別綁定到4個CPU，而這4個CPU就主要用來處理中斷。這樣就不會由於中斷亂髮而頻繁打斷其他運行中的進程。

再有就是用戶程序內部的鎖的問題，同時運行的線程多了，有可能導致某些鎖的競爭陡增反而降低性能。這種一般就是用戶程序自己的問題了，需要用戶自己真對多CPU優化。有時候用戶程序使用的一些公用庫也可能在CPU過多的時候暴露某些鎖競爭的問題。

回到題目（單機的情況），答案是不需要。題主的擔憂是確實存在的，但是也是能夠解決的。

不是專業的，只是提供點我自己的認識吧。操作系統那個我沒法回答，說說我對CPU那個問題的個人感受。我實驗室有個小型伺服器，運行Linux ，有24個CUP核。實測發現，運行速度不是隨著參與運算的CPU的核數增加而線性增加的，但是總歸還是在增加的。原因就是CPU交換數據消耗的時間是不可忽略的。原因可能和計算有關。有的計算容易設計成並行計算，那麼就可以減少這種交換數據的影響。我做的是化學裡邊DFT計算，不太了解具體底層演算法，但是估計並行計算出現在每一個k點計算上，但是這種計算很快就需要匯總計算，而且需要頻繁匯總，所以可能在我的計算上這種CPU交換的影響會比較顯著？