「天河二號」成為最快超級電腦，真能彰顯競爭力嗎？

11-29

新聞鏈接：http://news.xinhuanet.com/mil/2013-06/17/c_124867472.htm（「天河二號」登頂彰顯中國競爭力）
內容摘要：中國研製的「天河二號」超級計算機 17 日榮登全球超級計算機 500 強排行榜榜首，這是時隔兩年半後「中國造」再獲此殊榮，「天河」也與「天宮」、「神舟」一道，成為國家競爭力的一個象徵。

據了解，「天河二號」超級電腦仍然採用 Intel 的處理器。

首先，天河二號是否彰顯國家競爭力？答案是肯定的。
那麼，為什麼它能彰顯國家競爭力？這就需要知道這種超級計算機研製的難點在哪裡。

現在全球投入使用或將要投入使用的超級計算機，幾乎全部都是集群式計算機。這種計算機簡單說就是將大量的微型計算機通過網路系統連接起來，使用專用的操作系統控制來執行大規模的計算任務。搭建超級計算機所使用的節點，通常都使用市場上能買到的工作站/伺服器使用的CPU、GPU等晶元。例如天河2使用的就是Intel的Xeon E5 V2處理器和Xeon Phi協處理器（後者類似GPU，負責一些特殊的計算任務），這兩種晶元都是在公開市場上銷售的。（Xeon E5 V2的正式銷售要等到第三季度）類似地，超算的內存、存儲單元等一般也是標準化的產品，沒什麼特殊和神秘的。

超級計算機研發的真正難點在於網路系統和軟體系統。集群計算機系統在處理單一計算任務時，集群中的各個節點之間的通信是非常複雜的。不僅節點間傳輸的數據量巨大，延遲要求嚴格，而且動輒就需要數百數千乃至上萬個計算節點之間同時傳送計算數據。當網路系統的效率不足時，大量的數據會在網路上發生擁堵，可能會極大地降低整套系統的運算性能。整台超級計算機的運算速度越強，集群內的節點數目越大，對網路系統的要求就越高。因此，網路系統性能是硬體上制約超級計算機運算能力的最主要瓶頸。正因為存在這一瓶頸，廠商不可能通過無限制地堆砌節點數量來增加計算能力——當總的運算能力超過網路系統最高負荷後，繼續增加的節點不僅不能提高計算能力，反而會讓性能下降。

另一方面，控制大量的計算節點執行同一個或少數一些計算任務，對軟體系統的要求是和我們日常接觸的應用完全不同的。軟體系統必須對硬體高度優化才能充分發揮硬體的潛力，否則就會產生瓶頸。此外，由於超算的節點眾多，少數節點損壞是家常便飯，軟體系統必須做到部分節點損壞時不影響任務的持續。當然，系統更不能頻繁出現死機、崩潰等情況，對穩定性的要求遠高過一般的家用、商用電腦。滿足這些要求的前提下，系統還需要做到儘可能的易於使用，這樣才便於執行多種多樣的計算任務，處理各行各業的需求。

因為以上兩大限制的存在，超級計算機的研製事實上是技術含量非常高的。節點的晶元隨便可以買得到，但網路系統和軟體系統都是超算研發廠商自己的實力所在。

再來看看天河2。

天河2使用了自主研發的網路系統和操作系統，其中網路系統使用了國防科大自主研發的，基於SPARC指令集的飛騰1500處理器來處理網路數據，操作系統則是自主開發的麒麟。天河2目前有大約13000個計算節點，每個節點使用了兩顆Intel的Xeon E5-2692 V2 CPU和三張Xeon Phi 31sp Co-processor。Xeon E5-2692 V2是Intel開發的CPU，尚未上市，每顆CPU有12個核心，主頻2.2GHZ；Xeon Phi 31sp則是Intel開發的協處理器，專門用來執行密集浮點運算，其形態為類似顯卡那樣的PCIe擴展卡，卡上有一顆晶元和8GB高帶寬內存，晶元內有57個主頻約1GHZ的核心。Xeon Phi的一個特點是浮點運算效率較低，其在運行浮點運算基準測試linpack時，實際性能只相當於理論最大運算性能的60%左右——相比之下，Xeon E5 CPU運行相同測試時的效率在80%以上。但是Xeon Phi的理論最大運算性能較高（每張卡1T Flops，亦即每秒1萬億次浮點運算），大大超過Xeon E5的212G Flops（每秒2120億次浮點運算），因此一張Xeon Phi的實際運算能力可以達到三顆Xeon E5的水平。

天河2的整機理論最大浮點運算性能達到54900TFlops，而實測運算性能達到33860TFlops，效率達到60%左右，這是非常不容易的：這意味著擁有1.3萬計算節點的龐大計算集群，效率和單個節點是差不多的水平。這說明天河2的網路系統和軟體系統的水平是非常高的，在1.3萬節點的水平下幾乎沒有網路和軟體瓶頸的出現。相比之下，一些較小的使用較落後網路系統的超算，幾百個節點下的運算效率相比單節點的效率幾乎減半，說明瓶頸是非常嚴重的。現在的天河2隻是完成了一期工程，未來通過增加節點和改用更快速的計算卡（後者類似於我們常說的電腦升級）預計可以達到超過5萬TFlops的運算能力，這都要感謝國防科大自主研製的高性能網路系統和軟體系統。

對於現代工業國家來說，超級計算機是增強研發能力、增強工業競爭力的一個重要的環節。一台超算既可以處理少量的超大計算量的任務（比如軍事上模擬核試驗），也可以處理大量的計算量較小的任務（比如為眾多用戶同時處理不同的計算需求，如計算產品的流體測試數據、為電影后期進行三維渲染、為學校物理實驗提供科學計算支持等），其用途是十分廣泛的。國內已經建成的超算中心都有各行各業的大量用戶在使用，效益還是很不錯的。經過多年發展，中國的超級計算機研發能力已經達到了僅次於美國日本的水平，在世界上屬於第一梯隊。雖然與美國的差距仍然較大（主要體現在核心晶元與軟體系統上），但發展的前景是越來越好的。很多外行不明就裡，動輒就說超算就是堆晶元沒有技術含量，其實只是在證明自己的無知與自大罷了。

補充一下，關於@YuDan那個「訂票系統都做不好」的觀點，還是外行在不懂裝懂而已。訂票系統和超算屬於大規模計算應用中的兩個範疇，前者的任務是大規模實時整數數據處理，而後者的任務是大規模非實時浮點運算。任務類型的不同決定了兩者的系統要求有著巨大的差別：用於訂票系統的集群要求有非常高的I/O處理能力，足夠快的響應速度和極低的錯誤率；用於超算的集群則要求非常高的浮點計算能力，不需要實時響應，也不需要那麼高的IO處理，對錯誤率的容忍也更好。用超算系統的技術去做訂票系統，前者的高浮點能力毫無用途，卻缺乏後者需要的實時性能和IO能力，結果只會一塌糊塗。

======================

再補充點關於12306，網上看來的據稱是內部人員的介紹，真假自辨：2012年12306大卡殼，其後來找到IBM/Oracle和阿里巴巴問誰能解決這個問題。結果因為挑戰太大誰都沒接下來。最終，12306選擇了自己改進一套運行在Linux下的資料庫架構，並使用Xeon E7多路系統加超大內存的集群方案取代之前的小型機，用一組13節點，每節點8路Xeon E7/1TB內存的集群承載整個資料庫與主要的訪問壓力，在2013年的搶票戰中表現出色。這套系統的浮點計算能力只有十幾Tflops，相當於天河系統千分之一，但這類資料庫處理能力遠超整個天河系統。HPC應用與大規模資料庫應用的區別由此可見。

發展超算絕對是有百利而無一害的，不過天河系列在發展思路上還是有一些毛病。天河1號當時採用了的CPU+GPU的架構，在大型超算中屬於比較早的。這個架構反應了超算髮展的大趨勢，但問題出在1.國內軟體水平跟不上，2.GPU相對CPU的比例太高，從而導致GPU的計算能力不能充分發揮，造成了巨大的浪費。

現在排名第2的超級計算機Titan，同樣採用了CPU+GPU架構，但是GPU的數目遠少於CPU，這是比較符合實際需求的。

如今的天河2號又採用了最新的Intel「眾核」技術，就是在一塊晶元上布置大量CPU核（就是前面有人提到的Xeon Phi 57核處理器），這也是目前超算界比較熱的一個概念，但是其有效性，說實話還沒有得到驗證。採用這樣的架構無疑也是存在很大風險的，如果技術支持到位，就是一個成功的實驗，如果不成功，就很有可能重蹈天河1號的覆轍。

因此我的觀點是，對於新的架構，應該先在小型超算上實驗，而投資巨大，能在top500上排上前幾位的超算，應該採用相對傳統，保險的系統。當然這也很可能是跟當前的機制存在衝突的，國防科技大學做天河，肯定不是作為基礎設施建設來做的，而是一個科研項目，因此在項目中就必須有創新點，最後選擇了這樣的架構，也有一定的必然性。

首先，天河二號是否彰顯國家競爭力？答案是肯定的。

是的，大家不比原子彈了，就開始比這玩意兒。

那麼，為什麼它能彰顯國家競爭力？這就需要知道這種超級計算機研製的難點在哪裡。

同學，你知道為什麼不能再進行核爆炸了么，因為現在的核爆炸都是在超級計算機上模擬的

現在全球投入使用或將要投入使用的超級計算機，幾乎全部都是集群式計算機。這種計算機簡單說就是將大量的微型計算機通過網路系統連接起來，使用專用的操作系統控制來執行大規模的計算任務。搭建超級計算機所使用的節點，通常都使用市場上能買到的工作站/伺服器使用的CPU、GPU等晶元。例如天河2使用的就是Intel的Xeon E5 V2處理器和Xeon Phi協處理器（後者類似GPU，負責一些特殊的計算任務），這兩種晶元都是在公開市場上銷售的。（Xeon E5 V2的正式銷售要等到第三季度）類似地，超算的內存、存儲單元等一般也是標準化的產品，沒什麼特殊和神秘的。

核心計算部件其實是買的，但是對於超級計算機而言，這並不少見，因為可以生產這樣的晶元的企業不多，到目前為止，IBM的bluegene系列仍然對中國禁售，只有兩國領導訪問的時候才送你一台（不是整機，是一個機櫃）。

超級計算機研發的真正難點在於網路系統和軟體系統。集群計算機系統在處理單一計算任務時，集群中的各個節點之間的通信是非常複雜的。不僅節點間傳輸的數據量巨大，延遲要求嚴格，而且動輒就需要數百數千乃至上萬個計算節點之間同時傳送計算數據。當網路系統的效率不足時，大量的數據會在網路上發生擁堵，可能會極大地降低整套系統的運算性能。整台超級計算機的運算速度越強，集群內的節點數目越大，對網路系統的要求就越高。因此，網路系統性能是硬體上制約超級計算機運算能力的最主要瓶頸。正因為存在這一瓶頸，廠商不可能通過無限制地堆砌節點數量來增加計算能力——當總的運算能力超過網路系統最高負荷後，繼續增加的節點不僅不能提高計算能力，反而會讓性能下降。

在這一點上，國級上有眾多研發能力極強的公司做這個，目前，最好的時IBM，BlueGene ，其他的公司都是在努力追上它。

另一方面，控制大量的計算節點執行同一個或少數一些計算任務，對軟體系統的要求是和我們日常接觸的應用完全不同的。軟體系統必須對硬體高度優化才能充分發揮硬體的潛力，否則就會產生瓶頸。此外，由於超算的節點眾多，少數節點損壞是家常便飯，軟體系統必須做到部分節點損壞時不影響任務的持續。當然，系統更不能頻繁出現死機、崩潰等情況，對穩定性的要求遠高過一般的家用、商用電腦。滿足這些要求的前提下，系統還需要做到儘可能的易於使用，這樣才便於執行多種多樣的計算任務，處理各行各業的需求。
因為以上兩大限制的存在，超級計算機的研製事實上是技術含量非常高的。節點的晶元隨便可以買得到，但網路系統和軟體系統都是超算研發廠商自己的實力所在。

對的，超算其實就是拼誰的網路好，IBM的機器，計算能力很弱，但是通信好，所以賣的好，另外的軟體系統，國內不能恭維，唯一一個麒麟，還是個fake。果然下面出現了。

網路確實是國防科大自己搞得，據說還不錯，讓人眼前一亮，確實加分不少。但是麒麟，太傷人了。。。

再來看看天河2。

天河2使用了自主研發的網路系統和操作系統，其中網路系統使用了國防科大自主研發的，基於SPARC指令集的飛騰1500處理器來處理網路數據，操作系統則是自主開發的麒麟。天河2目前有大約13000個計算節點，每個節點使用了兩顆Intel的Xeon E5-2692 V2 CPU和三張Xeon Phi 31sp Co-processor。Xeon E5-2692 V2是Intel開發的CPU，尚未上市，每顆CPU有12個核心，主頻2.2GHZ；Xeon Phi 31sp則是Intel開發的協處理器，專門用來執行密集浮點運算，其形態為類似顯卡那樣的PCIe擴展卡，卡上有一顆晶元和8GB高帶寬內存，晶元內有57個主頻約1GHZ的核心。Xeon Phi的一個特點是浮點運算效率較低，其在運行浮點運算基準測試linpack時，實際性能只相當於理論最大運算性能的60%左右——相比之下，Xeon E5 CPU運行相同測試時的效率在80%以上。但是Xeon Phi的理論最大運算性能較高（每張卡1T Flops，亦即每秒1萬億次浮點運算），大大超過Xeon E5的212G Flops（每秒2120億次浮點運算），因此一張Xeon Phi的實際運算能力可以達到三顆Xeon E5的水平。

天河2的整機理論最大浮點運算性能達到54900TFlops，而實測運算性能達到33860TFlops，效率達到60%左右，這是非常不容易的：這意味著擁有1.3萬計算節點的龐大計算集群，效率和單個節點是差不多的水平。這說明天河2的網路系統和軟體系統的水平是非常高的，在1.3萬節點的水平下幾乎沒有網路和軟體瓶頸的出現。相比之下，一些較小的使用較落後網路系統的超算，幾百個節點下的運算效率相比單節點的效率幾乎減半，說明瓶頸是非常嚴重的。現在的天河2隻是完成了一期工程，未來通過增加節點和改用更快速的計算卡（後者類似於我們常說的電腦升級）預計可以達到超過5萬TFlops的運算能力，這都要感謝國防科大自主研製的高性能網路系統和軟體系統。

確實不容易，但是實際上我們比起其他人還是差的遠，雖然天河linpack效率跑的不錯，但是據我所知，能夠跑具體應用時候跑到10%就不錯了，這個應用還是經過專業人員專門優化的。同一程序，在天河1A上曾經跑到30%的峰值效率。當然也肯定有跑的好的，我猜具體數字也不會超過40%吧。

老美的IBM BlueGene能夠用幾百萬核心跑應用能夠跑到峰值的70%，這就是我們和老美間的差距。要追上他們，我們還有很多路要走。

對於現代工業國家來說，超級計算機是增強研發能力、增強工業競爭力的一個重要的環節。一台超算既可以處理少量的超大計算量的任務（比如軍事上模擬核試驗），也可以處理大量的計算量較小的任務（比如為眾多用戶同時處理不同的計算需求，如計算產品的流體測試數據、為電影后期進行三維渲染、為學校物理實驗提供科學計算支持等），其用途是十分廣泛的。國內已經建成的超算中心都有各行各業的大量用戶在使用，效益還是很不錯的。經過多年發展，中國的超級計算機研發能力已經達到了僅次於美國日本的水平，在世界上屬於第一梯隊。雖然與美國的差距仍然較大（主要體現在核心晶元與軟體系統上），但發展的前景是越來越好的。很多外行不明就裡，動輒就說超算就是堆晶元沒有技術含量，其實只是在證明自己的無知與自大罷了。

中國的超級計算機研發能力，，，，，我是不敢說屬於第一梯隊的。雖然我們有最好的機器，但是我們沒有最好的應用。大多數人都是水平極其次，十年前會編譯安裝個軟體就是牛人了。當然，我們這十年發展很快，但是我們還是需要繼續努力。我覺得，我們離這最好還差很遠。

對於天河團隊，我覺得說他們屬於國際水平。

補充一下，關於@YuDan那個「訂票系統都做不好」的觀點，還是外行在不懂裝懂而已。訂票系統和超算屬於大規模計算應用中的兩個範疇，前者的任務是大規模實時整數數據處理，而後者的任務是大規模非實時浮點運算。任務類型的不同決定了兩者的系統要求有著巨大的差別：用於訂票系統的集群要求有非常高的I/O處理能力，足夠快的響應速度和極低的錯誤率；用於超算的集群則要求非常高的浮點計算能力，不需要實時響應，也不需要那麼高的IO處理，對錯誤率的容忍也更好。用超算系統的技術去做訂票系統，前者的高浮點能力毫無用途，卻缺乏後者需要的實時性能和IO能力，結果只會一塌糊塗。

同意。

======================

再補充點關於12306，網上看來的據稱是內部人員的介紹，真假自辨：2012年12306大卡殼，其後來找到IBM/Oracle和阿里巴巴問誰能解決這個問題。結果因為挑戰太大誰都沒接下來。最終，12306選擇了自己改進一套運行在Linux下的資料庫架構，並使用Xeon E7多路系統加超大內存的集群方案取代之前的小型機，用一組13節點，每節點8路Xeon E7/1TB內存的集群承載整個資料庫與主要的訪問壓力，在2013年的搶票戰中表現出色。這套系統的浮點計算能力只有十幾Tflops，相當於天河系統千分之一，但這類資料庫處理能力遠超整個天河系統。HPC應用與大規模資料庫應用的區別由此可見。

HPC系統就是拼計算，這是計算機被發明出來的最初始的想法，弄不清楚這一點，就屬於概念性錯誤了。

其實TH-2的問題是：機器搭起來了，你們有足夠的應用來使用它么?

大家都圍繞硬體，架構，能耗說了一大番。根據我自身的經驗，用過曾經的國內top1的超級計算機magicube以及美國的top3計算機nersc旗下的hopper，簡單說一下用戶系統等軟體架構的差別（距）吧。
國內的系統，特別是用戶系統這塊不用說開發，連部署都沒有做好。超級計算機的日常應用其實大多數是中小任務的並行計算，需要的計算峰值並不高，所謂測試排名的計算規模實際的應用場景不會超過1%（個人感覺，無數據支持）。因此，用戶系統，包括作業調度、排隊，優先順序設定，以及並行的組合設定，如內存，cpu數目等，國內的系統基本處於原始的階段。雖然無關核心，但是從運營的角度這些都是關鍵。

就知道會有人開始黑開始噴了，這些人跟新聞聯播是一路貨色。

天河一號拿過第一，大半年後被日本超過，現在天河二號時隔2年多再次拿到第一。中國的天河一號還在世界超級計算機中首次大量使用gpu，如今已被國外超級計算機所借鑒。

大量cpu的聯網和編程開發也是很有技術含量的，沒編程經驗的可以想像下帶5個助手工作和帶5000人協同的差異。

中國的cpu技術不如美國，但現在中國只有氣象分析等是專用軟體，用x86 cpu部分好處是可以運行既有的基於x86編寫的程序，並且這次的聯網用的是國產cpu，國產cpu佔了天河二號cpu總量八分之一，國產cpu飛騰1500比天河一號的飛騰1000提高了差不多10倍，有進步總是好的，中國的落後是從49年才開始的嗎？飯不得一口一口的吃？

所有中國的科技成就都是中國的競爭力。

舉個栗子，四代機的流體力學模型的定型需要通過建立物理模型進行計算和風動實驗相結合，而由於戰鬥機複雜的運動方式必然導致這樣的模型需要引入大量的變數，需要計算的數據也是海量的，沒有超級計算機是沒法完成這樣的計算的，換句話說，沒有超級計算機的國家是沒法靠自己搞出四代機的。

有總比沒有好……

這種東西不一定普及，或者實用。但必須有，如果當時老毛不下決心弄出核彈來，現在的中國是否會像伊朗一樣被欺負？也像航天一樣，解放後就開始研究，也到近幾年才上人，你要知道蘇聯人和美國人可是什麼時候上去的，如過等別人都成熟了，你再開發是永遠追不上的、你看人家美國人的飛機，槍支為什麼比我們強，我們的飛機也能飛，也能打，為什麼要買俄羅斯的，就因為他們起步早，我們總是差一點，就那一點、別人就能欺負你。

前兩天剛回答了一個問題理論上一個超級計算機的 CPU 數量有限制嗎？結論修改幾個字仍然適用——中國的超級計算機同中國的經濟一樣大而不強，效率低下，商用來講是不划算的。一個超級計算機的計算能力只受錢和供電能力約束——但是這種效率低下簡單粗暴的做法，同中國體育的金牌，同中國的經濟的數字一樣，可以作為宣傳的手段，而缺乏深遠的影響力和商用價值。

按照前幾年天河1，1A的發展步伐來看，平均效率估計仍然在60%左右，單位能耗計算能力估計會維持在200~300Mflops/W——立此存照，希望天河2能讓我眼前一亮——更新TOP500的網站已經有結果了，平均效率62%，而單位能耗計算能力則明顯提高到到1901.4Mflops/W，後者進步還是相當明顯的，同二三名的差距不大了。性能保持領先的同時，單位能耗計算能力進步明顯（雖然效率仍然不佳），這進步再加上未來充分商用可以作為競爭力的象徵。

我總覺得，一個鐵路訂票系統都做不好的國家談超級計算機世界第一第二，一定有哪裡出了問題。這麼好的技術沒有充分利用起來，第一的名頭總有點兒虛。競爭力不僅僅是數字，也需要用這項科學技術進步帶來了多少社會效益來衡量——畢竟這是用我們的稅做的，我們也希望社會更多人能從中受益.

全世界超級計算機有個比較公允的排名TOP500Home | TOP500 Supercomputer Sites，每年更新兩次，排名的依據就是跑HPL(Highly Parallel Linpack)HPL - A Portable Implementation of the High-Performance Linpack Benchmark for Distributed-Memory Computers，該演算法有下面特點

完全並行：在每個CPU使用相同內存使用情況下並行效率是可以不隨CPU數目變化的；

足夠通用：通過LU分解來解線性方程組，基本上所有超級計算機上跑的問題都離不開;

完全開源: 允許各家超級計算機跑的時候根據自家架構選擇最佳問題規模和優化策略；

按說這是非常公平的比較了吧？我下載了排名（November 2012）做了一下分析，刨去那些樣本數太少的（小於10），按國家分類。你可以看到象媒體宣傳的那樣，我們的超級計算機總數72全球第二，特別是天河1A也進入世界第二。

可是真實的情況呢？業內的人士更多看下面這張圖的數據。其中柱狀圖代表一個國家超級計算機效率（即HPL最佳成績 / 理論所有CPU性能總和）的平均值，折線代表這些計算機的單位能耗計算能力。可以看到中國的計算機在這兩個方面還是有相當差距的，是所有造了較多超級計算機的國家中最落後的——你不能和剛起步早了幾個小型超級計算機的國家比，是吧？

——回到問題本身，當大家都用一樣的Intel / AMD / IBM處理器搭超級計算機的時候，硬體體系架構特別是CPU之間/CPU和內存之間的通路，以及節點容錯能力，軟體方面則是操作系統的任務調度策略和編譯器的優化才是一個超級計算機最核心的技術。這些技術的先進程度決定了一個超級計算機能搭多大才划算。

其實我的理解：CPU相當於磚，超算相當於樓。
燒磚固然是個技術活，但也沒人會說蓋樓就沒有技術含量。

----------------------------------------------
兩年前答這題的時候，神威.藍光（用SW1600處理器）排在TOP20，當時覺得有這樣的名次已是國產處理器的極限了，印象比較深的是那套水冷系統。
沒想到兩年後的神威.太湖之光（用SW26010處理器）能排到TOP1了，能耗比還很牛B，確實沒有想到。

說一些技術之外的政治背景。若干年前，美國國會有一個一年一度可以影響（雖然程度不深，但畢竟可以）中國政策的舉動 —— 最惠國待遇審查。而後，美國國會通過了授予中國永久最惠國待遇的決議。此後國內風氣的發展，見仁見智吧，不說全受這個影響，也至少有 10% 吧。而遊說永久最惠國待遇的大集團之一，就是 Intel 。

再說銀河 II 型，這個東西搞的時候目標就很明確 —— 根本沒法用！就是告訴美國國會：我們也造的出來，趕緊賣給我們 IBM 巨型機吧！

所以，美國商人的逐利行為，不僅樂於承擔中國的巨型機建設，還樂於向國內說明這是中國人自己的功勞。

=== 以下是原來的答案（得 10 票）====

天河二號顯示的是我們國家在某些方面出於某種目的發揮出的集中資源的能力。它並不能彰顯不可缺少的競爭力。晶元用的是 Intel 產品。軟體方面如果沒有意外，通常也外包給 Intel 不少。可以說在這些方面美國已經不怎麼「封鎖」中國。決定因素不過是有沒有消耗這些計算能力的市場。至於這些計算能力是政績工程還是消耗在某些驗證工程方面就不得而知了。當然，如果用來計算材料分子模擬或者天氣預報，那自然是極好的。

@唐羽的答案，看得振奮人心，我當年也激動不已。不過業內對這篇文章的水分早就有澄清。晶元技術基本上是 18 個月集成度翻番的水平。在有大量公開設計的情況下，落後一到兩年也就跟工業上落後二十年差不多。龍芯基本上就是 MIPS clone。

有沒有人去看看超算在J20/J30中作為空氣動力模擬運算的貢獻？

主要是拿來跑分的。「為發燒而生」

————趕期末作業的時候多了解了一下，追加————

不管怎麼說，跑Flop/s的能力是相當高沒錯了。按照Top500公布的數據，計算能力的Rmax，Rpeak都是第二名的Titan的約兩倍，而耗電量其實也只是約兩倍（2.16）。這麼說來難道說其實能耗比還不是太糟糕？球業內解答。

當然實際應用的性能和算浮點的性能相比又是兩碼事了，而且以有關部門的嚴謹（Niao）作風（Xing）計算能力能用到多少也讓人存疑。
更大問題應該是別國都是先有要計算的問題再建計算機本朝乃是先建了世界第一再找計算任務，個人覺得未免有些本末倒置

支持王強的答案：超級計算機研發的真正難點在於網路系統和軟體系統。

看過一個比喻（出處忘了），貼下來供大家參考：

評價一個廚師，應該根據他做菜的水平來衡量。新鮮的原材料對於做出一道好菜當然重要，但這不是廚師需要乾的事！作為廚師，他的能力體現在做菜而不是種菜上！

超算也一樣，不是說好的CPU不重要，而是超算的核心技術不在於CPU！在於節點之間的通信！提到超算時別拿CPU說事兒！

CPU用的Intel未量產的CPU，商務與技術方面的難度都很大。管理節點用了飛騰，國產的硬體也在進步。
總體跟國外有差距，排第一有點兒名不符實，但是與前兩年相比整體技術進步明顯。
最後一句話，雖然慢，但是我們一直在進步。
====================================
沒有什麼好黑的，只是用錢就能搞出世界第一來的話，按照我朝的行事作風，十年前就已經是第一了。

知乎上缺少對計算機體系結構熟悉精通之人，我回答過若干硬體和底層軟體相關的問題，對這方面感受頗深。很多回答甚至有誤導他人之嫌，往往莫名其妙的往政治方面扯。無奈自身學識有限，期望計算機體系架構的專業人士多給出一些更專業的意見和回答。
關於國產CPU、國產操作系統的問題我在該問題上有簡略回答：
神舟飛船上的計算機為什麼要用自己研發的操作系統，而不用 Linux 系統？
簡單的說中國現在通用CPU上與國外的最大差距並不是技術上，而是協議與對應的生態系統建設上。x86、MIPS等指令集之所以看似不可戰勝並不是因為它的技術如何高深，而是可兼容性的影響。對x86體系有所了解之人應該知道x86由於歷史原因背上多重的包袱。目前世界上幾乎所有的軟體都是跑在這幾個有限的幾個指令集晶元上，你想再弄一套指令集？這明顯是痴人說夢，吃力不討好。
底層協議與晶元架構在計算機發展之初就已經逐步建立，中國在當時止步不前（在幹什麼大家都懂的），幾乎無任何參與與貢獻，等計算機整體架構已經成熟之時，已經完全沒有任何翻盤的機會。因此龍芯等國產晶元從市場上來說意義不大，唯一比較有運用的地方就是軍方等非通用的設備系統上。
所以中國CPU與外國差距大不大？非常大，幾乎可以說在硅時代無任何反超的可能性。但不是因為現在科研人員不給力，浪費納稅人錢卻還得買MIPS專利，而是因為整個計算機大廈的地基都是由國外建造，確實是無奈之舉。
但是從現在能追趕的技術來說，中國的超級計算機運算能力達到世界第一確實是可以說明在並行計算等方面中國在世界上處於比較領先的地位，這點不能否認，也值得高興。但正如YuDan答案指出的那樣，能耗方面和還是和其他發達國家有一定差距，需要多方面的看待這個問題。如果老從CPU和操作系統是不是國產的角度看待，並往政治體系上扯，我只能說這樣有點「為噴而噴」的嫌疑了。

看到得票數第一好專業的感覺，學渣表示只能匿名了。上面有個答案說得很好，
主要是拿來跑分的。「為發燒而生」。
這個答案不是出自我口，而是某位超級計算機主要負責人自己吐槽的，還拿這個東西自豪的可以洗洗睡了。
「這東西速度是全球第一，但實際進行數值計算時根本沒法用，就是個堆晶元的東西。美國不搞是因為人家覺得這東西在工業上商業上沒有應用價值，巴不得賣給中國來搞。」
人品擔保此話出處，太精準了所以就匿名了……

從金鴻評論看到的，感覺蠻好的就抄過來了，感覺有了這個背景這個題目就完美了。

我國計算機科學發展簡史（2013.05.27群講課—作者：南極光）

中國電子計算機的科研、生產和應用是從上世紀五十年代中後期開始的。1956年，周總理親自主持制定的《十二年科學技術發展規劃》中，就把計算機列為發展科學技術的重點之一，並籌建了中國第一個計算技術研究所。
以邏輯電路器件作為標誌，到目前為止的電子計算機可以分為四代。每一代計算機，都比前一代更小、更快，技術工藝要求更高，價錢也更便宜。

第一代計算機採用電子管。美國研製出第一代計算機用了4年，而中國通過學習蘇聯的技術，僅用3年就完成了，並生產了50台左右。
第二代計算機採用晶體管。美國從第一代計算機進入第二代計算機花了9年時間生產了約200台。

第三代計算機採用中、小規模集成電路。這段發展過程美國用了11年中國用了7年時間
我國研製的第三代計算機品種非常多。例如，北京大學、北京有線電廠和燃化部等單位聯合研製的150機於1973年完成；借鑒美國IBM公司16位小型機技術的DJS-100機也於該年（1973）研製成功，它的硬體為自行設計，軟體兼容；1976年11月，中國科學院計算所研製成功1000萬次大型電子計算機「013機」。

第四代計算機採用大規模和超大規模集成電路，今天的計算機都屬於第四代計算機。這個過程美國用了9年研製的ILLIAC-IV中國用了8年
。77型機是中國第一台自行設計研製的，採用大規模集成電路的16位微型計算機
。另外，參照美國Intel8008機型的國產DJS-050微機，也於該年（1977）由清華大學等單位仿製成功並通過鑒定。

1965年，中國自主研製的第一塊集成電路在上海誕生，僅比美國晚了5年。在此後的歲月里，儘管國外對我國進行技術封鎖，但這一領域的廣大科研工作者和工人階級，發揚自力更生和艱苦奮鬥的精神，依靠自己的力量建起了中國早期的半導體工業，掌握了從拉單晶、設備製造，再到集成電路製造全過程，積累了大量的人才和豐富的知識，相繼研製並生產了DTL、TTL、ECL等各種類型的中小規模雙極型數字邏輯電路，支持了國內計算機行業。當時具備這種能力的國家除中國外，只有美國、日本和蘇聯。

中國從小規模集成電路經過中規模集成電路，再發展到大規模集成電路，僅用了7年時間，這以1972年四川永川半導體研究所
。研製成功的我國第一塊PMOS型大規模集成電路為標誌，而美國用了8年。

這一時期，由於受國內外微電子業迅速發展的影響，加上集成電路的利潤豐厚，國內出現一股電子熱潮，全國建設了四十多家集成電路工廠，為以後進行大規模集成電路的研究和生產提供了工業基礎。

通過對比會發現，美、日等國的大規模集成電路從實驗階段到定型，再到批量工業生產，通常用4、5年時間。到我國第一塊大規模集成電路誕生的時候，這些國家已先後進入大規模集成電路的規模生產階段。
1975年，上海無線電十四廠又成功開發出當時屬國內最高水平的1024位移位存儲器，集成度達8820個元器件，達到國外同期水平。

到上世紀70年代末，我國又陸續研製出256和1024位ECL高速隨機存儲器，後者達到國際同期的先進水平；可以生產NMOS256位和4096位、PMOS1024位隨機存儲器；掌握了對於大規模集成電路製造起著重要作用的無顯影光刻技術，可用於製造分子束外延設備
；中科院上海冶金所還獨立發展了製造集成電路所需要的離子注入機，並出口到日本。
在1977年4月的全國微型機專業會議上，確定了中國微機今後的發展方向為參照Intel
8008的DJS-050系列五個機型，以及參照Motorola 6800的DJS-060系列四個機型。這兩大系列的樣機於1980年前後陸續研製成功。

在1979年11月陝西的微型機交流會上，參展的國產微型機有六十多個品種，包括我國當時速度最快、外部設備最齊全的微型機DJS-061-1

1982年，參考DG公司NOVA16位小型計算機，採用國產中大規模集成電路的DJS-153小型計算機研製成功。同時，與NOVA-3機兼容的DJS-185機也由上海電子計算機廠完成。

1983年，中國國防科技大學自行設計的「銀河I」巨型計算機通過鑒定。它是一個每秒向量運算1億次的巨型計算機系統。成為我國第四代計算機中的巨型機代表機型。

在大規模集成電路製造方面，截止到1983年，16KMOS動態存儲器研製成功，8位機用大規模集成電路品種基本配套，4KMOS靜態存儲器進入小批量生產，高性能4位處理機集成電路批量生產，電子器件工業總公司研製成功6800八位微處理器（仿製美國Motorola公司1974年推出的6800），甘肅天光電工廠生產出64位、256位、1024位雙極型ECL存儲器，上海無線電十四廠生產出CMOS大規模集成電路（1981年），等。另外，超大規模集成電路的關鍵設備研製工作也取得一定的進展，不少基礎材料基本達到生產要求
。
值得一提的是，上海元件五廠和上海無線電十四廠於1979年研製成功單片8080八位微處理器
。8080為美國Intel公司1974年的產品，西德仿製出該類產品是在1980年10月（Siemens SAB
8080A-C），蘇聯是在1986年（Eastern Bloc 8080 KP 580BM 80A）。這標誌著我們此時與美國的差距只有5年。

這個時期，國際計算機行業出現兩個新的變化。一是美國IBM公司於1981年推出了個人計算機（PC），從此計算機開始進入家庭。第二個變化是微處理器（CPU）的研發成為一個專門的行業。PC機的出現得益於CPU的價格不斷下降和速度不斷提高。PC機出現後，國外一些從事計算機研製的科研人員逐漸獨立出來，專門從事CPU設計。

1983年2月召開的全國計算機協調工作會議上，我國把生產IBMPC兼容機定為發展方向，提出「照著IBM的PC做」。所謂「照著IBM的PC做」，並不是現在電腦市場上的攢機，實際上當時沒有任何設計圖紙可供參考，完全靠自己摸索。

「銀河I」巨型計算機
，這項工程耗費1億元人民幣，由於片面追求國際最先進技術，忽視了國內相關部門的協調、促進和合作，硬體大量從國外購買，沒有使我國的整體技術取得任何實質性的進步。此時國內一些具有實力的集成電路科研和生產單位，由於得不到足夠的經費進行技術開發和設備改進，生產的計算機硬體沒有得到一展身手的機會。這樣，國際上早在1978年就已經開始出現了超大規模集成電路，而我國卻在邁向超大規模集成電路的路途中慢了下來。

1984年，成為中美關係史上的一個轉折點，也為我國的大量技術引進提供了機遇。在大量進口汽車、彩電、冰箱生產線的同時，各科研、製造單位和大專院校大量引進半導體器件生產線。從1984年到「七五」末期，先後共引進33條集成電路生產線。由於當時的禁運政策，引進設備基本上都是國外已淘汰的
。
進入90年代，我國仍然延續了研發經費的低投入，除了1993年之前的幾年受國際封鎖的影響有了點緊迫感，研發投入佔GDP比重略微超過0
70%以外，90年代中期再次回到80年代的水平，其中1995和1996連續兩年下跌到0 .60% 。

1989年中美關係的蜜月期結束，美國政府嚴格限制對中國出口高性能計算機，除了要付出高額的採購費用外，還要把伺服器放在一個透明的玻璃房子中，由洋人監控，以防止用於其他目的。中國因技不如人而飽受屈辱的情形可想而知。

1993年，具有標誌性意義的曙光一號誕生；1995年曙光1000誕生，它與美國Intel公司1990年產品的技術相近，標誌著我國高性能計算機與國外的差距縮小到5年左右；1997年國防科大研製成功銀河-III百億次並行巨型計算機系統，系統綜合技術達到90年代中期國際先進水平
。然而，由於國內微電子業近十年的技術停滯，這些高性能計算機沒有實現完全國產化，技術上仍然受制於人。例如，曙光一號採用美國Motorola公司1989年底推出的M88100商業微處理器，操作系統移植了美國IBM公司的ATTUNIX。後來的國產計算機，也都沒有「中國芯」。

1990年，中國大幅降低了關稅、取消了計算機產品進出口批文、開放了國內微機市場。頃刻間，國外的286、386電腦如潮水般湧入，長城、浪潮、聯想等國內公司潰不成軍；1991年由英特爾和AMD掀起的「黑色降價風暴」，更是讓中國計算機產業雪上加霜。由於絕大多數整機企業積壓了高價買進的晶元，從而背上巨額虧損的包袱，一家家整機廠商前赴後繼般悲壯地倒在了血雨腥風之中。長城、浪潮和聯想也都元氣大傷；1992年，國家實施控購，進一步使中國PC整機製造業進入發展的低潮
。此後，國內的計算機企業只能從事低附加值的微機組裝。相比之下，同樣是面對外國計算機企業的競爭，由於日本非常注意對本國企業的保護，規定進入日本市場的微機必須支持日語環境，從而使美國微機難以進入日本市場。

在微電子集成電路方面，國內企業繼80年代中後期陸續虧損後，90年代紛紛倒閉，國內集成電路工業逐步變為三資企業為主的局面。據專家估計，到上世紀90年代末，我國微電子科技水平與國外的差距至少是10年
。
2002年8月10日，我國成功製造出首枚高性能通用CPU——龍芯一號。此後龍芯二號龍芯三號也相繼問世。

此時的國際CPU市場，除了美國、日本一些高端機型的專用CPU，以及蘋果公司的PC專用CPU以外，主要被美國的Intel和AMD兩家公司壟斷，兩家的市場份額約佔98%。第三家是我國台灣的威盛公司，但它是1999年連續收購了美國兩家製造CPU的小公司之後，才進軍處理器市場的，因此儘管威盛公司也打著「中國芯」的牌子，但嚴格地說仍屬於美國芯。龍芯的誕生，打破了國外的長期技術壟斷，結束了中國近二十年無「芯」的歷史。

這問題提的有很久了。

我覺得因為今年前段時間美國吊銷了英特爾的出口許可，天河2原計劃的升級無法完成。這個赤裸裸的事實是對題主的最好回答：

真沒有用的話，不提升國家在戰略上的競爭力。那放著快錢不賺，美國人傻嗎？

有點競爭性