全球最快計算機天河二號的研發意義是什麼?

一台這麼牛的機器到底是用來幹什麼的呢?什麼時候需要用它?附上鏈接廣州日報 - 2013年6月18日

全球最快計算機天河二號,每秒運算5.49億億次,運算一小時相當於13億人同時用計算器算1000年。


恭喜中科院軟體所楊超研究員研究團隊獲得中華人民共和國建國後第一個Gordon Bell Prize!!
楊老師做的工作我之前就聽過報告,在天河1號和2號上都有實現,終於今天拿到獎項,實至名歸。


此新聞一出,我願修改我之前的答案。 ACM Gordon Bell Prize


作為曾經的業內人士,也就是之前賣超算的,隨便說點吧,有些算是科普,有些算是自己的想法。另外作為國家級別的大項目,細節也不是我能知道的,所以很多數據可能不是非常有說服力,請讀者不要太較真了。這將是一個長答案,我慢慢寫。

首先,扔出一個公認的、公正的超算排行網站:Home | TOP500 Supercomputer Sites,這上面的數據可以被認為是權威和可信的。

然後,給出天河二號在其上的數據,然後再分別解釋一下幾個名詞

前三個就不說了,從第三個開始:
Cores: 很簡單,就是整個系統總共的處理器核心數量。這裡不是處理器的數量,是核心數量。比如該系統使用的intel xeon E5-2692 處理器和intel xeon phi 3100系列協處理器搭建的。而一顆E5-2692有12個核心,一片phi 3100系列協處理器有57個核心。拿著兩種處理器一樣不一樣呢?這個我們稍後再講。當然這裡面還有我們國產的處理器,這個也稍後再講。
Rmax(TFlop/s): 這一項是整個系統的實際最大計算能力,也就是這個榜排名的依據。這個數越大,排名越考前。天河二號排名第一,也就是說這個數在2013年6月分榜單裡面最大。
Rpeak(TFlop/s):這一項是整個系統的的理論上的計算能力。這個數排名的時候沒有意義,但是在說明技術實力的時候,那是真真的重要。這個也稍後再說。
Power(kw):這個就很簡單了,整套系統的功耗。這裡面不包含機房裡面UPS、精密空調、照明、新風等等等等的耗電量。

待續……

更新分割線----------------------------------------

以上就是簡單的名詞解釋,從最基本的參數來看,天河二號是這樣一套系統:
Rmax,即實際的最大計算能力,是33862.7萬億次每秒。這個數據在2013年6月份的榜單里排名第一。
(註:TFlop/s是超算計算性能的單位,即每秒鐘進行一萬億次雙精度浮點運算)

那這個數據是怎麼算出來的呢?使用一種叫linpack的benchmark測試出來的。簡單來說,跑這種軟體,給定一個初始值,只要計算出來結果,那麼該軟體進行的雙精度浮點計算次數是固定的。
在整套系統(注意,理論上是包含所有的核心一起跑)之上運行這個軟體,用所需的計算次數除以運行的時間得出的結果,即是Rmax,系統的實際計算性能。

下面來說一下系統隱含的參數。不負責任的講,在這個排行榜上,隱含的參數更重要,更能代表超算系統建設的技術實力:

1、計算效率

剛才說了,Rpeak非常重要,就重要在計算效率這個參數上面了。
Rpeak是整個系統的理論計算能力。他是怎麼出來的呢? 他是算出來的。

怎麼算呢?一個類型的cpu,都有它的固定參數。以E5-2692這個處理器為例,它的主頻是2.2G,核心數是12核。intel這代處理器,一個時鐘周期可以計算8個雙精度浮點數。所以這麼一顆處理器的理論計算能力為多少呢? 2.2×12×8=221.2GFlops,即是大約0.22TFlops。那麼有多少這種核心,再乘起來就行了,就是這種核心的計算性能。

所有不同類型的處理器,計算性能相加,即是理論的超算計算性能。

具體到天河二號,裡面除了上述的這個處理器外,還有phi和國產的,他們演算法跟E5不一樣,咱稍後再說。總之,天河二號的理論計算性能為54902.4TFlops。

計算效率,即是Rmax/Rpeak的比值。天河二號的計算效率為61.7%。

為什麼這個參數很重要?天河二號這個效率又處於什麼水平呢?

待續……

繼續分割線----------------------------------------

為什麼計算效率這個數據很重要?就是因為它代表了超算系統設計和建設的技術水平。這個數據越高,說明建設者的技術實力越強。舉個例子,天河二號的計算效率是61.7%。如果有個土豪,它有的是錢,那他搞10倍的投資,上10倍的處理器核心,但計算效率只有10%,可以說它拿到排行榜第一,沒有任何問題。

所以不能說咱第一,咱驕傲。做最大的月餅、最大的火鍋,這種事做的已經不少了。

那61.7%的計算效率,在超算是個什麼水平呢? 讓我們對比一下前十其他幾個系統吧。
以下是前十第二到第九的系統:

第二名Titan,效率64.9%
第三名Sequola,效率85.6%
第四名京,效率92.9%
第五名Mira,效率85.3%
第六名Stampede,效率60.7%
第七名85.3%,第八名85.3%,第九名91%,第十名(中國的天河一號)54.9%

好了,從上面的數據能得出什麼結論?計算效率天河二號倒數第三,倒數第一是天河一號
從這個結論能得出什麼結論?中國上榜的超算技術實力都很爛?


可不能這麼說

天河二號和天河一號計算效率低是有原因的,原因在於他倆都大量使用了協處理器。二號用的是intel phi,一號用的是Nvidia的GPU。效率中倒數第二的第六名Stampede,也是用了大量的intel phi協處理器。

關於協處理器,又是一個啰嗦的話題,這裡暫時給兩個小結論,有空的時候再豐富起來:
1、協處理器計算性能超強,一塊像顯卡一樣的PCIE卡子,計算性能在1TFlops以上。而且一台伺服器能插3到四個卡子,也就是3-4T的理論計算能力。而剛才算過的E5系列,一台伺服器雙處理器,理論計算性能才0.4T多一點。但是有一點,目前的的linpack測試,得出的協處理器的計算效率不高,所以拉低了所有大量使用協處理器系統的計算效率。這裡面有測試軟體的原因,也有協處理器本身規格的制約。儘管如此,由於協處理器價格便宜量又足,即是效率不高,大量使用還是比普通的處理器合適的。
2、協處理器應用範圍還是比較窄,其他答案說的很多像流體力學、化學、物理、生命科學、影視渲染、金融分析,能在協處理器上跑的相對普通處理器來說,實在太少了。具體少到什麼程度,大家可以到intel過nvidia的官網上看一下,可用軟體都是有數的。有興趣的同學可以找一下。但在超級計算領域,協處理器仍被廣泛的看做是一種趨勢,今後能在上面跑的軟體會越來越多。

所以說,一號和二號的技術水平,其實是不差,但也說不上是多好。這裡面有技術擴散的原因,也有我國科研工作者積極探索和研究的原因。妄自菲薄和孤芳自賞都是不好的,不好的

為什麼中國兩個最大型的超算,都要大量用協處理器,而且還是不同平台的?中國不缺錢,再多花點錢,都用普通的處理器,做到計算性能和計算效率雙豐收,不是什麼難事。但為什麼不呢?

待續……

首先,中國建這兩個系統的目的與美國、歐洲的不太一樣。
我們造的是超級計算中心,主要的目的是租給別人用,不管是高校也好,科研院所也好,商業企業也好,都是別人用。不管是天津的一號,還是廣州的二號,建設者都不用來計算。
國外,尤其是美國建設的,以示區別,造的是超級計算機,是建設方自己用。比如Titan,就是美國能源部建來進行核試驗模擬的。
這兩者的區別就是,前者需要準備不同的計算平台,以適應不同用戶的需求。要cpu就跑cpu,要gpu就跑gpu,要mic(intel phi)就跑mic。後者僅需要適應自己的應用即可,計算平台要求單一。

因此排名前十的,除了中國的兩個,剩下的8個中的七個都沒用協處理器,就是他們需求單一的緣故,也就是說,他們要跑的應用,在協處理器上都跑不了。

總結一下吧,建設超算,注意是建設,中國從技術實力上跟歐美日都在一個水平線上,不超前,也不落後。如果說天河二號建設的意義,包含證明中國有實力、有財力、有能力建設一個能夠為國家的科學研究提供計算平台的超大型超級計算機,是沒有問題的。


但是、but、however


以上是廢話的分界線————————————————————————————————————

正是因為我國和歐美建設超級計算機的思路不同,導致了兩種截然不同的結果。歐美是根據所需計算量設計系統,需要多少計算能力就把超級計算機計算能力設計成多少。而中國是先建起來再說,那建多大呢,建能排名第一的。所以說,當年中國建的第一個巨型超算天河一號,就是世界第一,現在的超算二號,也是世界第一,相信不久之後的天河三號,仍舊是奔著世界第一去的。

回到題目的問題,建設天河二號的意義在哪裡呢?
首先,剛才已經說了,為了證明我們有能力、有實力、有財力建設世界第一的超級計算機,是意義之一。我們設想中的意義之二,是讓大量的科學研究的應用跑在上面,加快科學研究的速度,提高科技實力。但要實現這種意義,最基本的條件是要讓整個系統跑起來,不滿負荷跑,也得高負荷跑。閑著肯定啥意義都沒有。

但能高負荷跑嗎?有這麼多計算需求需要租天河二號嗎?現在系統剛建起來,還不好說。那我說說現在中國超算行業的現狀吧。

目前中國的超算資源絕對是供大於求。大部分超算資源處於低負荷甚至是閑置狀態。


開頭說過,我以前就是賣超算的。對這個行業還是有所了解。曾經有個客戶,某高校,買了百十來萬的超算。驗收的時候開了一次機,兩年後又招標要買,去機房調研,兩年前買的機器第二次開機。

這個僅是個個例,不能說明普遍情況。但普遍情況是,全國各大高校和科研院所,每年都有預算購買超級計算機。天河二號造價30億人民幣,夠多吧。其實每年超算市場的規模都不少於10億,30億也不奇怪。

隨便一個211,985高校,只要不是純文科學校,沒個幾十萬億次計算能力的超算,出門都不好意思跟人打招呼。清華、北大、交大、復旦,哪個學校不是百萬億次以上的計算規模。甚至一個系就搞百萬億次以上的規模。如果哪位211,985出來的同學,說自己學校超算性能在10萬億次以下,請告訴我;匿名用戶列舉的那些華南的高校,有哪個沒有自建超算,請告訴我。
超算使用大戶中國科學院和各地科學院,只要需要超算的,沒有不自建的。如果哪位同學知道有沒有超算的院所,也請告訴我。
你指望那些北京的院士、千人計劃學者、國家科研津貼獲得者、教授、博導,拿著動輒幾十G甚至上T的數據往天津超算跑啊還是往廣州超算跑啊。想從網路傳?我等不及,超算不就是講究個快嗎?我突然冒出的靈感等不及啊;寄過去?我數據丟了你負責啊,這可是從比超算更貴的實驗儀器裡面出來的。
再說了,科研是螺旋上升的過程,是困難和曲折的,我哪能知道什麼時候要用,用多長時間,你讓我每次要用都去跟超算中心談商務、談合同,跟學校要預算、填申請,一大堆流程,我耗的起嗎?
所以說在高校和科研院所,很少有人跑到超算中心去跑應用。實際上,越是科研能力強的高校和科學院,越容易拿到國家的撥款,都是自己建自己用,或者幾個人合夥建公用。當然也不排除那些科研實力不足的學校和科研院所,要不到預算,自己建不了。但這樣的加起來,對超算計算資源的需求也沒有多少。
還有超算使用大戶就是石油公司和軍隊,更是不可能拿到超算中心去了,誰都能租的東西,安全性行嗎?石油公司丟數據,頂多還是經濟損失。國防軍工丟數據,軍事法庭估計都得給你傳票了。

以上說的是自建自用的,再舉幾個建了以後出租的:
國家超算天津中心天河一號,2570TFlops
國家超算濟南中心神威藍光,1100TFlops
國家超算深圳中心:1270TFlops
還有多個城市的超算中心包括上海超算中心魔方:230TFlops等

這些超算中心的利用率多少,除了內部人士誰也不知道,就算知道了可能也不會說出來。排名前幾的匿名用戶說的天河一號將近滿負荷運行,我從評論上質疑了以後,也沒能拿出哪怕是官方宣傳的關於使用率的數據來。我所了解的情況是,各大超算的利用率都比較低,甚至有的比較慘,電費都掙不回來,別說回本了(這個我還真給不出證據,除非是超算的工作人員,或者能看到超算財務報表的,可惜他們都不可能公開數據)。

說到底天河二號建設的意義在哪裡呢?一句話,如果用起來,意義非常,排名考前的兩個匿名用戶說的已經非常清楚了;用不起來,則是空談的意義。空談誤國,實幹興邦啊!!!

雖然已經非常長了,但是還想啰嗦幾句…………………………………………………………………………

為什麼美國建這麼多超算就行,美國拿第一就行,中國拿第一就這麼多人跳出來質疑?

因為人家美國是真都能用起來啊,人家放棄核試驗全都用超算泰坦進行模擬;人家這麼多大型石油公司石油勘探;人家這麼多大型醫藥公司進行藥物開發;人家國防部供貨商造武器;人家福特通用造汽車;人家波音造汽車;各大高校物理化學諾貝爾獎呼呼的拿,哪個不需要用超算啊。這些都不算,人家這麼多電影做渲染,你中國都比不了。這個再有異議,請看知乎各科技差距比較問答,先進國家的先進技術大多都是有超算這個工具在後面不斷推動的。

其實更為重要的,硬體是錢,軟體是魂啊。硬體CPU、內存、硬碟都是用的美國的,至少有些互聯晶元啥的還是中國自己造的,軟體呢?請問各位用過超算的知友們,有用過國產軟體的嗎?有想用國產軟體的嗎?你們研究的方向有國產軟體嗎?

要說的太多,就此打住。文中有些說稍後再說的,實在寫不動了,十分抱歉。有興趣的自己google吧,相關信息都很容易找。


這個話題我是外行。外行應該沒啥可說的,但好多人想說,於是就談到政治上了。因為最起碼在政治方面我們都覺得自己很內行。我在這裡隨便聊聊,也屬於空談誤國。

問題本身也太大了。從普通報紙上的新聞來了解是有限的,它不負責告訴你這件事在內行人眼中的意義,只能談談它在外行人眼中的意義。如果連超級計算機用來做什麼都沒有概念,我想很難去談「研發一個世界最快的」計算機有什麼意義。

有時跳開現在的事情,回顧一下歷史,會有趣味些。郝柏林院士的一本文集在海外出版,叫《負戟吟嘯錄》,裡面有很多沒辦法在國內公開的內容。以下主要講我在該書中看到的一篇文章。

1978年3月全國科學大會前後,一些科學工作者就我國計算機科學技術的狀況和問題,多次交換意見。他們委託陳春先和郝柏林起草了一封致鄧小平副主席和方毅副總理的聯名信,由於華羅庚領銜署名,其他名字包括馮康、陸汝鈐、孫繼廣、陳春先、郝柏林等。《負》一書中收錄的是根據1978年4月油印稿。這個聯名信很可能是內參,因此並非旨在愚弄大眾的文字,應該有參考價值。

先用一事例說明軟體和外部設備對計算機整體功能的作用。目前我國速度最快的是科學院研製的200萬次的013計算機。但是,它在在多數作業中,比100萬次的「賽伯-172」機(石油部進口)實際解題能力低十倍以上。有些題目在172機上處理毫無困難,而在013機上無法處理。何以致此呢?實際情況是,由於軟體和外部設備落後。013機的主機往往只有百分之三時間在有效運算,其它的時間都只能「等待」或「空轉」,因而平均有效運算速度從二百次下降到幾萬次。這就好比一個思想極端敏捷的「超人」,每秒鐘本來可以批閱一萬份文件,但由於無法每秒鐘準備好一萬份文件供處理,助手和秘書都來不及寫「批文」,因此「超人」不得不等待著。

這段話說明,計算速度早在1978年我們只做到每秒兩萬次那個時候就已經不是瓶頸了,瓶頸是落後的操作系統和軟體,無法駕御和充分調動這麼高的計算速度。更具體地說,「一台」超級計算機並不適合獨立工作,而是要從——

一個帶有操作系統的、多終端大型計算機系統,進一步發展為大型機與許多小型機、微型機組成的網路。上述操作系統是相當複雜的軟體,1960年代美國IBM公司投入門千人年,花費近三億美元,才搞出了IBM-360計算機的第一個操作系統。我們在這一領域的差距至少有二十年。013機採取的國外五十年代用戶排隊上機的使用方式早已被淘汰。
我國在軟體和外部設備方面與國外差距是很大的。國內軟體基本上在重複國外五十年代後期的工作。軟體人員數目不到美國百分之一。由於組織不善還在做大量無意義的重複工作。沒有一個國產機配上了操作系統;……外部設備中最關鍵的磁碟裝置,不但容量比國外低二十倍以上,而且還不過關;一些新型外部設備,尚未開始研製。

由於長期以來片面追求單項速度指標,形成了「重硬體,輕軟體;重主機,輕外部設備;重速度,輕存貯容量」與國際發展趨勢背道而弛的傾向,結果造成國產大型機「頭腦敏捷,耳目不靈,四肢萎縮,知識貧乏」的畸形發展,極大地妨礙計算機在四個現代化中發揮作用。

這些文字的主題就是:周邊硬體和軟體的落後才是大型機的應用瓶頸。因此,真正令人欣慰的新聞,不應該僅僅是計算速度這一單項指標「世界第一」,而是我們的軟體水平提高使得原有大型機的應用深度和領域進一步擴大。但是,在我們印象中,自1978年以來我們聽到的關於計算機的新聞,都是計算速度的提高。這是因為軟體上的成就,不容易介紹給外行(領導);計算速度概念簡單易懂,而且還有國際組織排名,外行容易認識到這一成就。

這一問題不光光存在於大型計算領域,我國各個科技領域都這個問題,內行人認識到的真正進步,都是不好解釋給大眾的。從報紙上看到的新聞,你也無法根據它說「國家至今還在拼速度,觀念落後」,因為很可能報紙只講外行能理解的部分而已。

郝柏林在文後註:

2008年10月筆者參加了一次研討我國高性能計算髮展的香山科學會議;深感30年來,所涉及的計算速度和經費規模增加了許多個數量級,然而片面追求速度、忽視系統軟體和科學工程計算軟體等等老問題依然如故,還出現了誤把集群機當作全部高性能計算機的有害傾向。

想必三十年前的問題,現在還成問題吧。因此,一方面要為我們在計算速度單項上的突破而驚喜,因為這代表的製造能力和工藝方面的成就(跟材料學、製造裝備業的關係比跟計算機科學的關係大得多);但另一方面我們也要關心,目前軟硬體最齊全,處於「應用主力」的計算機的運算速度是多少。也許我們最快的那台比人家快,但是用得最好的那台比人家慢。

以上是郝析林書中記載的聯名信內容。這本書要從海外訂購,我手頭上有一本。書中其他的內容都很值得一讀,包含了我國建國以來科技發展歷史的豐富細節,由於在海外出版,全是實話,未刪剪。

以下我再試著談談「用來幹什麼」。很多答案說用於「國防」。我想,如果是用於國防,那應該是周邊軟硬體都做得很好的。中國的軍工研究項目一向比較高效務實;而且也是保密的,因此我們都不知道具體應用情況。因此我們沒必要去談這方面的應用。至於民用方面,很多人也都清楚,用於科研中的計算。很多機房是可供各高校研究院申請機時的。就我所在學校自己的機房都可以申請機時。我也不羅列科學研究中哪些方面用到大型機了。

我想說的是一個比較有意思的事。我們這一代科研工作者,基本上是通過搜索引擎去搜文獻的,而且通過郵件提醒或者RSS,我們的觸角基本上能夠覆蓋到幾乎所有已發表了的文獻。因此我總是無法想像,互聯網時代之前,沒有ISI Web of Knowledge的時候,人們怎麼做文獻綜述,怎麼在日常工作中發現新的相關研究——難道天天泡圖書館一本一本地翻雜誌嗎?其實,現在看來家用計算機能做得到的事情,當時無非是要動用大型計算機而已。在計算機出現之後(1954年ENIAC),一些大學或者專門的情報機構製作供情報檢索用的科技文獻磁帶,60年代起就廣泛利用計算機進行自動化檢索,70年代已經發展到通過聯機網路進行檢索。80年代,我國也開始研究怎麼使用國產計算機來解決定題檢索的問題。這恰恰是一個考驗計算機的軟體和外部設備(例如貯存能力和資料庫管理)的一項任務。例如,前面郝析林文產中提到的「賽伯-172」機(CyBER-172),石油部進口。80年代用於檢索Tulsa和API文獻帶。美國化學文摘(CA)磁帶79年初由化工部情報所引進,其定題檢索系統由南化研究院和化工部情報所兩個單位合作開改,於80年通過鑒定,當時在南化研究院計算站的Siemens-7730計算機上運行、每月檢索一次,共12盤磁帶。從這些細節也許可以看出,雖然我們國產計算機在計算速度上趕超國外,但實際應用的都是進口機。由於大型機的操作系統和外設談不上什麼兼容性,所以是否因為進口機配套的操作系統和磁碟系統能夠真正使用,而我們國產的「世界最快」計算機只淪為擺設?就算到今天,我們各個高校和研究所的機房,買的是國產品牌(聯想?),還是IBM的呢?這就好像武器一樣,在和平時代,說出來夠厲害,那只是面子問題;好用好賣,那才是實惠。

好久沒有寫這麼長的答案了。


先從文本表面來分析一下吧,新聞鏈接裡面給了超算前五的排名,除了天河2號之外,其他4個都是歸在具體的研究所/實驗室名下的(而且沒有一個是研究計算機的研究所/實驗室,簡單查了一下都是核能之類的基礎研究為主)。

也就是說,前五的其他四個超級計算機都是有具體的需求(不是計算機研究的需求,而是具體的其他領域如核能的研究需求,也就是對運算能力的具體需求),根據這些需求來進行開發和組裝的系統。

而天河2號從文本來看並非如此,它的客戶是建成之後再去找的。而且從60家之多來看,根本就沒有哪一個單個用戶需要如此強大的運算能力。從平均來看,每個客戶需要的運算能力還不到天河2號的2%,即使考慮到不同客戶的需求不平均,估計也沒有哪個客戶需要的運算能力達到了天河2的10%

要知道弄一個計算能力為2的機器成本要大於弄兩個計算能力為1的機器的,更加不要說弄一個運算能力為10的機器和弄10個運算能力為1的機器了。

個人希望未來中國的超算再建立和規劃時不要再是要去成為第一,而是因為真的有一個用戶有些不可(或者至少不便於)分割的運算任務真的需要那麼大的運算能力。


放在文章之前的p.s. 我批判的那遍文章(自稱和這事兒比較近的那篇)在修改之時已經排到第三去了,我也欣慰我的批判起到了一點作用。而修改之時排在一樓的那位「拿天河一號來說」的匿名用戶的觀點不是我批判的對象。
-------------------------------------------------------------------------------------------------------------------------------------------
實在是看不下去了,這樣一個漏洞百出、什麼內行技術都不懂,其身份十分值得懷疑的人的答案,居然排在第一位!我的回答分為兩個部分。一是說明高居一樓的那個匿名用戶的答案的錯誤,二是回答為什麼要製造天河二號,天河二號能做什麼事。

xxxxxxxxxxxxxxxxxxxxx我是叉叉分割線 PART
1. 破xxxxxxxxxxxxxxxxxxxxxxxxxxxxx

跟這事兒比較近,匿個名吧。

嗯。一樓作者真的和這事兒比較近嗎?下面我會告訴大家,從下文的回復中可以看出,該作者不可能是一個和這事兒比較近的人,我看這純粹是來灌糊水的。呵呵,選擇匿名只是為了告訴大家「我是政府內人士,由於某某某原因,我不能直接站出來說話,但我說的都是真的哦,是可信的哦」吧!

作為給天河二找「意義」的工作相關的間接經歷者,講點你們不知道的。

請問什麼是給天河二找「意義」?超級計算機製造之前的使用意義就如此明確,還需要你去找嗎?我在第二部分會告訴大家天河二號到底有什麼意義。

先說超算這東西NB不,按說技術指標什麼的應該沒什麼假,最快就是最快,最大就是最大,但是建超級計算機這個東西如同蓋摩天大樓,第一造出來也不代表你掌握了核心的技術,第二這東西不是美日不能建,而是建出來除了好看外,沒有多大意義」
於是問題回到了「意義」上。天河二的意義在哪?很可惜,作為直接接觸負責提供「意義」的政府部門的人士,我只能告訴你到現在為止,誰都沒想好這貨能幹嘛。
這也是為什麼美日歐不搞這玩意的原因。

這段話的「第一」、「第二」不尊重實際、誤導性十足,表明作者要麼是什麼都不懂,要麼是故意來知乎上攪渾水。「第一造出來也不代表你掌握了核心的技術」的意思是:你造出了世界第一的計算機與你有沒有掌握核心技術沒有太大的關係,你可能掌握了,也可能沒有掌握。顯然,作者想表達的意思是,你雖然造出了世界第一的計算機,但是你沒有掌握核心技術。這難道是說:即使沒有掌握核心技術也能夠造出世界第一的計算機來嗎?這就真不能理解當年曼海姆大學的Hans Meuer教授(現任國際超級計算大會主席)為什麼要搞出個TOP500榜單並且能夠20多年來一直受到國際的重視了!
製造並運用一台超級計算機所需的技術包括核心處理器、網路互聯、容錯性、操作系統、編程平台、製造工藝、應用軟體等。第一,如此多的CPU如何一起協同工作,提供高速運算,這是體系結構應當解決的問題。而天河二號中採用的新型異構多態體系結構是繼天河一號多陣列可配置協同並行體系結構發展而來。多態異構體系結構技術是中國率先提出並使用的,當今處於國際領先地位。
第二,核心處理器也就是通常所說的CPU,但新型異構多態體系結構的天河二號中,它還包括用於加速運算的MIC(可以理解為GPU)等。天河二號採用的CPU是Intel的Xeon和自主生產的FT1500, MIC是Intel的Phi協處理器。Xeon + Phi構成了主要的計算結點,而FT1500組成服務陣列。處理器方面,天河二號採用了國外的CPU,FT1500的性能也是不錯的,所以總體結論是中國在處理器的設計製造方面是落後國際先進水平的。
第三,多個處理器共同完成一項任務時,需要進行數據的交互,如同一個團隊共同干一個活需要交流溝通一樣。2個處理器的數據傳輸可很容易地實現;10個處理器的數據傳輸也可以輕易實現,但可想而知會略為複雜;當處理器的數目進一步增加,到達100個,100個,1w個,10w個,100w個時,這種複雜度的問題就不是那麼容易解決的了。可以想像TCP/IP協議和全世界大大小小的路由節點就是為了解決這種問題而出現的。但超級計算機內部的數據傳輸與互聯網之間的數據交流不同,超級計算機內部每個節點之間都可以進行數據傳輸,傳輸的量還很大,因此對帶寬有著極高的要求。天河二號採用的光電混合的自主定製高速互連繫統,性能是當前國際上最先進的商用互連繫統的2,繼續保持國際領先地位(詳見:「天河二號」超級計算機獲核心關鍵技術突破。我參加過新聞發布會,雖然引用只是QQ新聞,但內容是可靠的)。
第四,容錯性。同樣的一個東西多了,有一個或幾個出問題的可能就大了。如何保證在一個或多個部件出問題的條件下,其他部件繼續有效地工作,是容錯性設計應當解決的問題。這方面的技術我理解不深,從天河二號新聞發布會的情況了解,它也是處理國際先進水平的。
第五,操作系統。有了硬體,如何管理硬體來完成給定的任務,是操作系統的工作。平時我們所說的裝機就是指裝操作系統。家用台式機或筆記本的操作系統管理一個四核或八核的CPU算是很多的了。但超級計算機的操作系統需要管理三百萬個處理器核,這個技術難度大家自己去想想吧。天河二號採用的是麒麟操作系統,由國防科大自主研製開發。
第六,製造工藝。現在的超級計算機的體積都很大,如何將這麼多的處理器組裝在一定的空間內,並進行良好的散熱,是需要解決的問題。這裡看數據:以高密度高精度結構工藝為例,天河二號共170個機櫃,佔地面積與天河一號基本相同,但性能卻是它的11.6倍;與此前排名世界第一的美國「泰坦」系統相比,佔地面積是它的85%,性能卻是它的近兩倍。(詳見:「天河二號」超級計算機獲核心關鍵技術突破)
第七,應用軟體。應用軟體的開發與維護是個長周期的過程,在這方面,一些國外軟體具有它的優勢。
有沒有掌握核心技術,各位應該自有定論了吧。
第二這東西不是美日不能建,而是建出來除了好看外,沒有多大「意義」」,讀完這話,可以看出兩層意思:一是超級計算機沒有多大的「意義」;二是,因為這個原因所以美日沒有造,從而也就沒有和中國去搶,所以中國才拿了世界第一。本文第二部分再來講「意義」,我們先來看看top500的今年6月的統計(詳見List Statistics):

就top500榜單上的超級計算機而言,美國有252台,中國66台,日本30台,英國29台,法國23台,等等。中國擁有的超級計算機數量是世界第二,而第一美國相當於中國的4倍!而近年來世界第一的計算機,2010年6月是美國橡樹嶺國家實驗室的「美洲豹」(Jaguar),製造經費約為1.4億美元,持續速度1.759 petaFLOPS(每秒…千萬億次);2010年11月是中國天津超算中心的「天河-1A」,製造經費約為6億元人民幣,持續速度2.566 petaFLOPS;2011年6月是日本神戶的理化學研究所的「京」(K-Computer),持續速度8.162petaFLOPS;2011年11月仍然是「京」,技續速度10.510petaFLOPS;2012年6月是屬於美國能源部和美國國家核安全管理局的「紅衫」(Sequoia),持續速度16.325petaFLOPS;2012年11月是美國橡樹嶺國家實驗室的「泰坦」(Titan),持續速度17.59petaFLOPS;2013年6月是中國廣州超算中心的「天河二號」,持續速度33.862petaFLOPS。
美國252台,日本30台,歐盟約80台,真是不知道「這也是為什麼美日歐不搞這玩意的原因。」這樣一個結論是怎麼來的!一樓作者根本是不知道行情啊。而如果HPC真的沒有意義,美日又造這麼多台做什麼?連這點行情都不了解,筆者真心難以想像,會有人找你去給HPC拉應用。

採購這傢伙花掉了廣州市政府30個億,每年的維護費用至少是幾個億,每年維護這貨花的錢甚至可能就接近廣州市政府一年的信息化經費總預算!

關於這點,一年的維護費用達到幾個億,除了幾千萬的電費之外,其他的開銷還請一樓作者具體說明一下,或者是給出數據來源。

於是廣州市到處在給這玩意找「意義」,可惜必須用到超級計算機的行業,基本上一隻手就數得過來,無非是基礎物理、天體物理、大氣環境、災難預測之類的國家投入的基礎科研,這些整個廣東省甚至華南都基本沒有;至於可能用超級計算機的行業,比如生物醫藥、機械、材料甚至電腦動畫之類的,對他們來說用這貨的性價比無比之低,用超算幾乎不會在這些公司的考慮範圍之內。
舉個例子,某公司用自己的實驗室做一個模擬花3天,用超算花10分鐘就得,看起來提高了效率,但要用10分鐘超算的費用可能就在百萬級別,之前還要有N天到N星期的調試。。。哪個公司會願意用?
至於那些可能用得上的基礎研究,很遺憾這項目雖然科技部掛了個名,但是是交給廣州市自己搞並自付盈虧的,中央連個面都沒興趣露,不可能幫你找基礎研究業務並買單,即便有,中科院能繞過不到200公里之外嫡系的深圳超算中心,去找廣州這個?
而廣東省那幾個頭牌大學都跟基礎研究不沾邊,同樣愛莫能助;至於給國外科研機構用嘛。。呵呵這可是國防科大建的計算機

首先,「廣東省那幾個頭牌大學都跟基礎研究不沾邊」,真的是這樣嗎?就說華南理工大學,它就擁有高分子材料廣東省教育廳重點實驗室(廣東省重點實驗室),中山大學有廣東省海洋資源與近岸工程重點實驗室、廣東省地質過程與礦產資源探查重點實驗室等(中山大學 SUN YAT-SEN UNIVERSITY)。這裡僅僅列出廣東省幾個頭牌大學的基礎研究相關的實驗室,更多應用超級計算機的研究實驗室我就不一一列舉了。
第二,使用超級計算機的行業,從天津超算中心的官網的給出的應用案例來看,有石油勘探、動漫渲染、生物醫藥、高端設備製造、航空航天、天氣預報、浩洋環境工程、遙感數據處理、大型土木工程應用、基礎科學研究等,遠不止一樓給出的那四項。
第三,「這些整個廣東省甚至華南都基本沒有」。退一步說,即使這些項目廣東和華南沒有,就不能建在廣州了?難道一樓作者還認為當今是蒸汽朋克時代,工廠都要建在自家門口么?這種荒謬的距離邏輯還體現在「中科院能繞過不到200公里之外嫡系的深圳超算中心」里。HPC提供的是服務,你給我待處理的初始數據和處理應用程序,我就給你運算,並給出相應的運算結果。整個過程可以通過互聯網的遠程訪問來實現。距離,在信息時代根本不是問題。再者,本文第二部分我會告訴大家,當計算量大了的時候,並非是超級計算機就可以用,而一定要用速度更快的機器。一樓作者在這裡暴露了他的無知,筆者再次難以相信他是給HPC找「意義」的。如果說有「找意義」這一工作的話。
第四,「10分鐘超算的費用可能就在百萬級別」,關於這點,二樓回復中給出了一個回答,這裡不贅述。
第五,「至於給國外科研機構用嘛。。呵呵這可是國防科大建的計算機」,這裡作者的邏輯是,因為是作為軍校的國防科大造的東西,所以就不能給外國用。這裡(中國超級計算機天河一號遠程服務好萊塢)是同樣為國防科大造的天河一號用於好萊塢大片的渲染的介紹,這裡(歐盟超級計算合作項目在津啟動 天河一號成主角)是中國與歐盟超算中心在天河一號的基礎上共同開展項目的介紹。

於是最大的可能是在年內組裝完畢,取得世界記錄後就分拆成低級別的計算中心,降低成本和維護費用(至少可以關一部分省點電,每年空轉的耗電量都至少是大千萬級的),以期吸引點用戶 - 可惜即便如此,也仍然不會有多大用武之地。

取得世界記錄後就分拆成低級別的計算中心」,這麼多麼外行的說法啊!前文已經提到,超級計算機與計算機集群相比的優勢在於它可以處理節點交互密集型的計算任務。一樓作者認為這是計算機集群呢?僅僅是亞馬遜提供雲服務的平台呢?看來一樓作者是不知道了,現在拿了世界第一個天河二號還只是整個項目的一半而已,天河二號還要繼續擴容,最終規模是現在的兩倍左右。「至少可以關一部分省點電,每年空轉的耗電量都至少是大千萬級的」表達出作者以為超級計算機一開就必須全開,一關就得全關的想法。這個不多說了。

同時國防科大也會在湖南組一套差一點的超算中心,湖南省出錢。一機雙賣,國防科大和Intel樂壞了。。。

一機雙賣確實是一機雙賣,但不知道一樓作者知不知道,賣給國家超算長沙中心的超級計算機是天河1A的一個小型版,那台機器都已經運轉了兩年了,只是近期才要搬到湖南大學剛修好的超算中心而已。這和天河二號完全是兩碼事。

補充下信息,據說這套系統功率是3萬千瓦(此貼新聞說1.7萬千瓦,說3萬可能是包括精密空調等設備),電費自己算。

第一,據說,是據誰說的?第二,天河二號」峰值功率24MW,即2.4萬千瓦,而非3萬瓦。這包含了17.6MW的計算機功耗和6.4MW的散熱功率。第三,這是峰值功耗,只有滿負荷運轉時才能達到這個功率,一般待機時可以給待機機櫃斷電,因此一般會低於這個功耗。當然,少是少了些錢,但這樣算起來一年幾千萬應該還是有的。

=======================PART.2
立===========================
關於應用,請參考國防科大盧宇彤教授的這篇文章《以天河2號為代表的中國超級計算機之吾問吾答(五問五答)》(原文鏈接:有道雲筆記):

一問:世界各國的超級計算機都是單純的商業行為嗎?

一答:非也。世界各國超級計算髮展計劃都是由政府主導,像世界排名前列的千萬億次以上的系統如紅杉、泰坦和京等頂級系統的研發均由美國和日本政府直接投資,分別由IBM、Cray、富士通等公司聯合有關國家科研機構承研,中國超級計算機系統研製也是類似的模式。超級計算機的研發目標是解決涉及國家安全與發展的重大科學問題,增強綜合國力,絕非單純的市場行為和商業利益驅動。少數別有用心的人把美國、日本的超級計算機研製描述為單純的市場行為,蓄意誤導讀者對我國高性能計算機發展策略和計劃產生質疑,抹黑中國高性能計算技術發展的成就,我們要擦亮眼睛。

二問:天河2號超級計算機只是理論上最快嗎?

二答:非也。國際TOP500排名不是按理論性能,而是以LINPACK應用實測性能為依據。天河2號系統理論峰值為54.9PFlops,以Linpack實測性能33.86PFLOPS三次排名Top500排行榜首位。國際高性能計算500強排名,從1993年誕生之日起就一直沿用LINPACK應用作為基準測試程序,是國際公認的、權威的系統排行標準。近年來由於技術和需求的發展,又衍生出其它一些應用的排行榜,如HPCC、Graph500、HPCG等,是以不同的測試程序代表了不同的應用模式,以衡量超級計算機系統在某些方面的應用性能,同一系統在不同排行榜上的排名上有所變化,是正常現象。例如,TOP500排名第三的美國紅杉超級計算機,按HPCG排名並未上榜;TOP500排名第二的泰坦超級計算機,按Graph500排名也未上榜。相比較而言,天河二號在2014年6月德國超算上首次發布的HPCG排行榜上勇奪第一,只用了部分節點(8192)的Graph500測試結果排名第六,且尚有大量優化提升空間。那些宣揚天河2號只是理論上最快的人如若不是對超級計算排行榜太外行,就只能說是別有用心了。

三問:天河二號超級計算機太過耗電,不符合主流發展趨勢嗎?

三答: 非也。

天河二號超級計算機是一台節能高效的機器,按評價能效的Green500排行標準,天河二號的能效比(1.9GF/W)和世界排名前列的美國泰坦(2.14GF/W,TOP500排名第二)和紅杉(2.17GF/W,TOP500排名第三)相當,遠遠優於日本的京(0.8GF/W,TOP500排名第四)。其採用的CPU+加速器的異構體系結構也是公認的未來E級系統主流技術發展方向之一。某些人故意隱瞞了系統的類型差異,蓄意拿一台性能低兩個數量級的小系統Eurora(排名467),來和天河二號比能效,並在公開場合誇大天河2號的使用能耗,而不與美國、日本的頂級超級計算機比年耗電量,也是為了危言聳聽,博取眼球。

四問:天河二號的應用不行嗎?

四答: 非也。

天河二號的應用領域廣泛,涵蓋氣象,能源,航空航天,生物醫藥,宇宙天體、工業製造等,用戶單位涵蓋國內外各大研究機構、大學、工業企業、政府行業關鍵部門等。僅4月份一個月,超過百萬核的大規模實際領域應用就有6個之多,基於天河二號平台的大規模地震模擬應用Seissol,已入圍國際上高性能計算應用的最高獎項戈登獎(Gordon Bell)。某些人蓄意貶低天河二號的應用成果,並誇張地說「『天河二號』的一些用戶甚至需要十年時間來編寫必要的代碼」,完全是混淆一些領域應用需要很長的開發周期與實際應用在天河2號上很短的移植調試周期,意在把水攪混,嘩眾取寵。


五問:天河2號的應用開發是系統研發單位一己之任嗎?

五答:非也。

天河2號超級計算機系統的研製,是國家科技部審時度勢,根據國際超級計算技術發展的趨勢和我國的迫切需求立項的,選擇了具有高性能計算系統研發悠久歷史和成功經驗的國防科技大學為承研單位,意在為我國多領域科學研究、技術進步、產業革命提供高性能計算服務,為其搶佔優勢地位打下堅實的基礎。應該說,經過不懈努力,天河團隊不辱使命,成功研製出國際上領先的超級計算系統,完成了類似美國IBM、Cray等超級計算廠商所完成的頂級超級計算機研製任務。但高性能應用軟體的研發卻不是能以國防科大的一己之力所能完成的,是依賴於整個國家的科學技術發展水平,需要領域專家和機構長期投入和創新研究,需要全國各學科領域的協同。「成功是成功之母」,天河2號超級計算機系統的研製成功為我國各領域科學與工程的可能成功打下了堅實的基礎,但如何充分發揮系統的應用能力,需要以領域專家為主體的所有人共同努力。

當然,我們作為超級計算機系統研製方,還有很多技術方面需要完善,如研發新型使能技術和體系結構、降低能耗、優化系統軟體、加大對應用軟體的支持力度。但我們應充分認識到,以天河2號為代表的超級計算機系統只是高性能計算生態環境中的重要一環, 我們還需領域物理模型、大型應用軟體、交叉人才的培養等多個環節,才能維持我國高性能計算的生態環境健康有序發展。希望大家都能本著知之為知之,不知為不知的理念,多些溝通,少些曲解;多些理解,少些挑撥;多些實幹,少些空談;多些鼓勵,少些拍磚;使我國超級計算之路走向良性發展的軌道。


1)有關部門沒有分享任何技術細節,非常讓人失望。

2)國產處理器的存在莫名其妙,因為xeno+phi本來就算是異構,那個FT-1500是個啥?
猜測國產的晶元只是負責簡單的控制平面的事情。
China』s Tianhe-2 Supercomputer Takes No. 1 Ranking on 41st TOP500 List

3)據說,phi用的是過時的技術堆砌起來的,die基於96年的奔騰

泰羅Taro
Xeon Phi用P54C架構來做是正確的選擇,樓主可能不是很懂微架構,P6之後的架構能耗效率不夠,可以做多核但不適合做眾核,NVIDIA的SMX核心也同樣是基於這樣的簡單核心做起來的。

泰羅Taro 回復 Ryane Luo(作者)
我覺得您可能不太懂微架構。這個改版P54C的基本構建思路與GPGPU有許多異曲同工處,同是SIMD,謂詞執行,gather-scatter,同時保留了一些眾核特色,每核心獨立緩存,基於分散式目錄的硬體一致性管理等。

泰羅Taro 回復 Ryane Luo(作者)
它和您所謂的全顯卡浮點其實是由一種設計思路演化而來,都是堆積簡單SIMD處理單元陣列,多線程隱藏訪寸延遲,和P6以後的x86已經是不同的兩條路,倒像是吸收了GPGPU長處的眾核架構。它和GPGPU誰勝誰負還很難說。

坂本番茄醬 回復 Ryane Luo(作者)
Intel提供了什麼什麼的優惠,我們其實都知道,這沒啥好講的。但是Phi也沒那麼糟糕,MKL的Auto Offloading用起來還是很舒服的,而且,Native/Symmetric Mode下面跑的話,雖然效率不是特別高,但是省去了部分移植的開發周期帶來的收益還是很可觀的。Phi的關鍵在FPU上,拿奔騰內核說事沒啥意思,人家連個branch prediction沒有,就是專心做計算的

http://www.nvidia.com/object/justthefacts.html


4)天河1A使用的是Nvidia公司的超算卡,2號突然換平台,是什麼個節奏?
Tianhe-1A - NUDT YH MPP, Xeon X5670 6C 2.93 GHz, NVIDIA 2050

5)難道怕被綁死在一個平台上?

6)還是intel的xeno+phi捆綁銷售更加便宜?

7)Linpack 是個很簡單很簡單的程序,它的跑分是很基礎很基礎的運算。
HPL - A Portable Implementation of the High-Performance
Linpack Benchmark for Distributed-Memory Computers
真正要用起來這麼大個硬體幹事情,完全是2碼事。

8)風涼話說完,希望確實能有大型應用在上面能跑起來。

----------------------------
update: 把評論丟進去了,打不打臉無所謂。

NV員工,不做CUDA。


拿天河一號來說。

天河自從投入運行以來,除了需要維護的時間之外,基本都是滿負荷運轉。
時代不同了,什麼東西不靠計算?航空、材料、氣象、空間科學、地質、探礦、核物理、電子電路設計。。。都有大量數據計算。
現在冶金配方不是一爐爐煉出來實驗,很多都是計算機模擬出來的。航空設計很多都不需要在風洞里吹了,直接用流體方程算。石油鑽探不像前一樣到處鑽井看看地下面是啥,而是測出震波之後做計算來分析。人工智慧、生物技術之類的,沒有大機器根本就沒法做。至於核物理,幾大流氓早就不進行真正的核試驗了,全都是計算機模擬的。
另外天河還有大量的計算能力分配給電影特效、動漫渲染、金融證券分析之類的任務,這些也都要靠巨型機。好萊塢大片一分鐘的特效,計算機集群得渲染一天。沒有大機器,大家看電影都沒那麼樂呵。

超算跟錢一樣,是不嫌多的。(學經濟的同學輕拍…)

========================================

關於收費
中國科學院超級計算環境收費細則
我找到的關於超算的收費標準,一般都是0.4~0.8元 /(核心.機時),(這是兩年前的標準)
同時超算中心也會提供包年服務,另一個匿名用戶(天吶,好多匿名用戶)說10分鐘的費用在百萬級別,我不敢苟同

========================================

關於使用
天河二號這種級別超算的使用不會是個體獨佔的。使用是一群人每人用一部分而不是一個人用整個系統,按需購買按需使用。
對於固定的客戶,提交作業在前幾次調試後是輕車熟路,相比較自身模擬,並不需要額外花費很長的時間。
還是用錢作比喻吧,天河二號是一個很大的錢袋子,我們可以用它去買一輛以前買不起的勞斯萊斯,也可以用它去買比以前更多的奧迪A6。何樂而不為呢?

=========================================

關於核心
解密天河二號 八萬顆英特爾處理器的背後
32000個12核心E5 2600 V2+48000個57(61-4)核心至強協處理器組成,共312萬個。
但協處理器核心和E5的核心是不同的,計算價格單純以312W*0.4並不妥。
當然,不管怎麼計算,十幾分鐘百萬級別都是很難以置信的。

=========================================

沒想到原來鮮有人關注的這個問題現在人這麼多,與題無關意氣之爭的內容編輯掉。
評論中與題無關的評論內容刪掉,見諒。


美叫停對華出口英特爾超算晶元 瞄準天河二號
這個新聞一出來,曾經在這個回答里鄙視的某匿名用戶,說沒用的馮東,說是領導好面子的三毛錢人品,都被打臉了。

只可惜當初被忽悠的人們,又有幾個能看到呢?


這個問題有很多層次。匿名用戶(目前有兩個匿名用戶,這裡指時間上較早的)回答了「超算的意義」是什麼。但是「超算的意義」不等於「天河二號的意義」,「天河二號的意義」不等於「天河二號研發的意義」。就如同你問「汽車的意義」,不等於「國產一汽奧迪的意義」,也不等於「一汽要合資生產而不是進口奧迪的意義」,也不等於「某個部委購進了數台奧迪的意義」。

在我看來,在一個誠實、守信的國家,這些意義雖然不同,但是有著比較清晰,簡單的關係。而在一個腐敗、低效、政府不透明的國家,這些意義之間的關係充滿不確定性。而且更多的是值得懷疑的負面性。

我認為,知乎上所謂「理性看待這些問題,不要隨意歸於體制」的呼聲,看似理性,其實是用簡單的「汽車的意義」來混淆了大多數人本來就理不清的這些特定意義。

======================================================
我的答案將「超算的意義」、「天河二號的意義」、「天河二號研發的意義」列為並列項目。不否認匿名用戶的內容,也反對對問題本身意義的不全面誤導。

知乎現在有這麼一種人,認為世界上有兩種人:和他觀點一致的 vs. 政治正確的。


確實 關於說的那個美日都不搞超算的事
我也覺得不可理喻啊 就比如說 那個TOP100還是500純粹是刷存在感把
但是我記得我看過某年的這個表 幾乎大國都在搞啊 而且我看的那一年 美國佔大半啊
除非是美國的數據就是拿來搞矇騙的么?忽悠各國搞「軍事競賽」?然後其實自己不玩的?
大家覺得呢?


曾經在中國最老的超算中心工作過8年,所以略懂點皮毛。在這裡分享一下自己的認識。現在的超級計算機排名是每年德國ISC和美國SC大會上半年、下半年各發布次。這次的是ISC的排名。過去還沒有出現GPU的時候,測的都是CPU。但是現在基本只要把大量的GPU堆一堆,Linpack指數就可以沖第一。用GPU堆的機器基本沒有實際應用意義。至少在我離開超算中心之前,還沒聽說有哪家計算中心GPU用得好的,其中包括國外的。而國產CPU目前來說很難用。因為中國一向重硬體、輕軟體,所以更不具有實際的應用意義。
從日後的應用來看(之前一直在研究超算中心的可持續發展),目前中國超算的發展不具有可持續性。建造超級計算機應該以計算需求為導線,而不是先造機器,再隨便哪裡放一放,掛個國家級計算中心的牌子,每年國家出錢付幾億電費和其他運營成本維持個4、5年(超級計算機基本5年需要更新),然後就沒有然後了。我們目前的這種模式除了面子和形象外,基本屬於燒錢,不利於整體行業的發展。


沒想到寫點自己經歷的東西,招來不少「熱血校園黨」專門註冊帳號來噴,實在是感覺為知乎的推廣做了不少貢獻,順便想起自己當年一聽到某TV里說「中國又取得了XX第一」就激動不已的單純的學生時代。為表慶祝在文末再補點料。

(不過還是提醒知乎一下,用戶低齡化是雙刃劍,相較下Quora的活躍用戶結構對自身發展更有利。)

溫馨提示:本文講的是」【天河二】這台廣州市區兩級財政花錢採購的【全球最快的計算機】意義何在『,如果您在大聲朗讀問題後仍然表示您想看的是』超算的意義",對不起本文不提供,請在請教您語文老師後另開題目詢問。

以下正文:
-------------------------------
跟這事兒比較近,匿個名吧。

作為給天河二找「意義」的工作相關的間接經歷者,講點你們不知道的。

先說超算這東西NB不,按說技術指標什麼的應該沒什麼假,最快就是最快,最大就是最大,但是建超級計算機這個東西如同蓋摩天大樓,第一造出來也不代表你掌握了核心的技術,第二這東西不是美日不能建,而是建出來除了好看外,沒有多大「意義」 。

於是問題回到了「意義」上。天河二的意義在哪?很可惜,作為直接接觸負責提供「意義」的政府部門的人士,我只能告訴你到現在為止,誰都沒想好這貨能幹嘛

這也是為什麼美日歐不搞這玩意的原因。

採購這傢伙花掉了廣州市政府近30個億,每年的維護費用至少是幾個億,每年維護這貨花的錢甚至可能就接近廣州市政府一年的信息化經費總預算!

於是廣州市到處在給這玩意找「意義」,可惜必須用到超級計算機的行業,基本上一隻手就數得過來,無非是基礎物理、天體物理、大氣環境、災難預測之類的國家投入的基礎科研,這些整個廣東省甚至華南都基本沒有;至於可能用超級計算機的行業,比如生物醫藥、機械、材料甚至電腦動畫之類的,對他們來說用這貨的性價比無比之低,用超算幾乎不會在這些公司的考慮範圍之內。

舉個例子,某公司用自己的實驗室做一個模擬花3天,用超算花10分鐘就得,看起來提高了效率,但要用這10分鐘超算的費用可能就在百萬級別,之前還要有N天到N星期的調試。。。哪個公司會願意用?

至於那些可能用得上的基礎研究,很遺憾這項目雖然科技部掛了個名,但是是交給廣州市自己搞並自付盈虧的,中央連個面都沒興趣露,不可能幫你找基礎研究業務並買單,即便有,中科院能繞過不到200公里之外嫡系的深圳超算中心,去找廣州這個?

而廣東省那幾個頭牌大學都跟基礎研究不沾邊,同樣愛莫能助;至於給國外科研機構用嘛。。呵呵這可是國防科大建的計算機。

於是最大的可能是在年內組裝完畢,取得世界記錄後就分拆成低級別的計算中心,降低成本和維護費用(至少可以關一部分省點電,每年空轉的耗電量都至少是大千萬級的),以期吸引點用戶 - 可惜即便如此,也仍然不會有多大用武之地。

(吐個槽。。。每回想到那每年幾個億的維護費用,就氣不打一處來)

--------------------
既然竟有兩百來人支持,就針對回復再補幾句:

1. 匿名是因為跟很多直接相關的人熟,不想露臉,信息本身沒什麼秘密。

2. 我說的是「現在沒找到意義」,不是說這玩意不會有意義,你能找到或建立需要用到世界頂尖超算能力還花得起錢的公司的話他們會很歡迎的,不過一個商用大電腦研究核武器什麼的就算了吧那位孩紙。

3. 我在評論中回復的兩條稍微修改補進來:

  • 國防科大的超級計算機項目是國家資助的一個科研項目。「天河二」是廣州市採購了這個項目的成果,組成了世界最快的超算中心,所以天河二不是科研項目,是商業項目,而且是廣州市兩級政府自掏腰包,自負盈虧的
  • 同時國防科大也會在湖南組一套差一點的超算中心,湖南省出錢。
    一機雙賣,國防科大和Intel樂壞了。。。
  • 當初為什麼上馬這個倒也知道些,不過未經過交叉驗證無法證實,就不說了,但當初決定要搞這個時的確沒想好能幹嘛是確定的,這本就不是政府強項。
  • 我此回復僅針對經濟意義,政治意義您怎麼說都有理。用一次的估價是猜測,是按照能收回運維成本的成本價估算,大家可以自己算一下要收支平衡得是什麼成
    本價(僅貸款利息一項每年就上億了),你要賠本賣當然可以要多便宜有多便宜……

4. 補充下信息,據說這套系統功率是3萬千瓦(此貼新聞說1.7萬千瓦,說3萬可能是包括精密空調等設備),電費自己算。

-----------------------
以為這個問題不用怎麼解釋,但是看來很多人還是糾結於收費問題,鑒於大量學生來看此貼,再添兩句吧:

按照樓下提供的天河一的收費方式:0.4-0.8元/核心每小時來算。天河二的核心數是300萬,算你用一半就能達到「全球最快」的速度,請自己算一下你用一次【全球最快計算機天河二號】要花多少錢。

------------------------
補點料:

(可惜要補的是個」負意義「,更讓熱血青年們失望了)
在決定採購此超算後,廣州市在2012下半年開始基本停止了所有經費來源是市級財政的政府伺服器採購項目,要求各部門的系統需要的計算資源用超算解決,這就是為什麼在早期的宣傳材料上一直把」政務應用「作為重要用途之一。實際上絕大多數的政府IT系統都是基於最簡單的X86伺服器,只有很少數後台用到了小型機,跟超算則是完全是不搭界,於是逐漸明白過來後在現在的宣傳中」政務應用「也逐漸靠後,但這一年多的時間內政府的IT基礎設施升級算是基本停滯了。

這也是為什麼我說我是」間接相關「的原因,具體就不展開了。


這個每天實驗室都有在用天河系統的必須匿名了
上次過來介紹(或者是推銷?)的時候
聽說最主要的客戶是動畫和石油探測(佔用系統資源最多,當然給錢也最多)
然後現在各種科學研究都很難離開計算模擬這個事情,所以國內各個研究所大學很多研究小組也會購買使用許可權來進行各種模擬計算
比如我們中心就是做磁流體的各種模擬研究,老師就會購買許可權來提供計算。


轉載一篇博文:高維世界與一維價值


我前幾天去德國萊比錫參加了ISC學生集羣大賽。這個比賽的內容是在限定功率(3000W)的條件下,優化集羣的計算性能。每個隊伍的集羣分別由贊助商提供,清華大學隊是浪潮公司贊助的。由於硬體實在沒法和別的學校比,我們只好從軟體上來優化,比賽的程序包括了LINPACK、HPCC、HPCG、Quantum ESPRESSO和Gadget。最終清華隊獲得了全球第三名,也算是盡力了——畢竟我們的集羣連GPU都沒,而許多隊伍配置極盡奢華,像愛丁堡大學連液冷系統都上了。

世界上「最快」的超級計算機

在ISC會議期間,我們得知了中國的「天河2號」以LINPACK峯值54902.4 TFlop/S的速度保持了超級計算機TOP500榜首,全球媒體爭相報道。但是在各個媒體的報道中,我們看到的是「天河2號」成爲「全球最快的超級計算機」,如Forbes的報道,而紛紛忽略了一個重要細節,即TOP500是以LINPACK的速度來排名的。LINPACK基準測試求解的問題是一個稠密的線性方程組,它完全是計算密集型的應用,其內存訪問、並行通信、磁盤讀寫都不成爲瓶頸。因此有人批評LINPACK提供的數值是「基本上無法到達的,卻有一小撮程序員在無聊地優化它的代碼,爲了使得他們的機器獲得更好的數值」。實際上衡量一個計算機性能的好壞,僅僅通過浮點計算密集型的應用來估計絕對是以偏概全,真實的系統性能還取決於整數計算性能、內存訪問性能、網路通信性能和磁盤讀寫性能等等各個方面。哪怕是僅僅在科學計算領域,許多應用也不僅僅是在求解稠密線性方程組。許多時候可以認爲LINPACK數值完全不具備參考意義,因爲大多數科學計算應用的性能瓶頸根本不在這上面。

作爲「國家安全戰略投資」的天河2號,想必許多時候在求解的問題是破解密碼。然而一個可怕的事實是,大量密碼學演算法,包括散列、非對稱加密(如MD5、RSA),都只進行整數計算,完全沒有任何浮點計算操作。如此看來,追求高LINPACK數值來提高密碼破解的性能,差不多是緣木求魚。

高維世界的序關係

說到CPU的性能,幾年前,大家在裝電腦的時候選購CPU只看主頻,頻率越高越好。於是英特爾爲了迎合市場,推出了奔騰四3.0GHz甚至3.6GHz主頻的CPU。後來進入多核時代,大家就看核心數,雙核的肯定比單核的好,四核的肯定比雙核的好。殊不知CPU的性能好壞有太多的參數,盲目追求高的主頻或者核心的數量沒有意義。不單單是CPU,想想看大家買數碼相機看什麼呢?許多人第一反應當然是像素啊。買單反鏡頭?光圈大小!買汽車?排量!買房?面積!

事實上這個道理淺顯易懂,但人們卻對它無能爲力。作爲沒有相關知識的普通消費者,面對這個世界紛繁複雜的參數真的是無能爲力,於是只好選擇一個「公認」的參數作爲基準了。

這一切的根源在於,向量和向量是無法比較大小的,只有標量纔能比較。向量只能通過一些函數變換到標量纔能比較,如模長,或者在某個空間上的投影。世界上的任何一件東西都可以用一個高維向量來表示,但爲了獲得序關係,我們通常只能把它映射到一個一維空間。在這個過程中,大量的信息都丟失了。對於同一組向量使用不同的函數,獲得序關係可以是完全不一樣的。

這是一個淺顯易懂的道理,而人們卻無能爲力。因爲人們天生傾向於用一個一維的數值來比較一切同類的事物(甚至不同類的事物),但事物天生是高維的。

價值觀是一個從高維空間到一維空間的映射

人們經常談論價值觀,譬如價值觀不同的人不要在一起,現代社會通過價值觀把人分爲不同的羣體。價值觀實際上是一個從高維空間到一維空間的映射,也就是一個高維向量的函數。人們面對紛繁複雜的事物,一個與生俱來的衝動就是對它進行評價,然後與其他事物相互比較。在這個過程中,不同價值觀的人使用了不同的函數,因此得出的結果是大相徑庭的。

商品的價格與價值

作爲一個通用的價值衡量工具,商品的價格成爲一個被廣泛使用的尺度。價格短期看來反應的是供求的關係,但本質上反映了一個長期的、多人的價值。用數學的語言方式表示,價格是一個高維的泛函(Functional),其中每一維的變量都是一個個體的價值觀函數,或者用以下代碼(OCaml)表示:

(* 價值觀是一個從任意向量到整數的函數 *)
type value = (anything -&> int)

(* 價格是一個從多個價值觀函數到一個價值觀函數的函數(泛函) *)
val price : (values_of_all : value list) -&> value

(* 一個簡單實現:價格即爲所有人價值觀的平均值 *)
let price values_of_all =
fun thing -&>
let sum = List.fold_left (
fun sum value_function -&> sum + (value_function thing)
) 0 values_of_all in
let number_of_people = (List.length values_of_all) in
sum / number_of_people

換人話說,價格反映了全體生產者和消費者的價值觀,儘管可能各不相同,但卻用一個工具把它們統一了起來,變成了一個單一的可以衡量不同事物的價值的函數。對於一個個體來說,商品的價格可能偏離個人對商品的價值衡量,因此會有感覺便宜或者感覺貴。根據個人是否有錢,個人對價值的衡量也會不同,個人資產可以作爲價值觀函數的一個其他參數。

用價格衡量價值的方法看似簡單粗暴,有諸多弊端,卻也有著其他方法無可比擬的優點。其最大的優點就是簡單性,因爲人類對複雜事物的理解力實在有限。這也是爲什麼計劃經濟無法執行的一個原因,因爲沒有一個把萬物映射到一維的函數,或者這個函數取樣過於有限,只能反應少數統治者的意願。

價值多元化

一元價值儘管有著便於比較排序的優點,但卻會導致優化目標的單一化。譬如超級計算機只優化LINPACK或其他某個性能,學生爲了應付高考成爲做題機器,全社會「向錢看」道德淪喪等等。儘管著本身沒有什麼問題,卻會讓導致潛在的評估偏差風險。對此,價值多元化的主張被提了出來。價值多元化是把一維的價值標量變爲多維向量,也可以理解爲是多個價值函數的組合。價值多元化以後,價值本身重新變得不可比較,只能按照維度比較(或者價值向量的函數)。

在我看來,價值多元化沒有解決太多的問題,反而喪失了序關係,事實上是一種掩耳盜鈴的方法。價值多元化就等於沒有價值,只是把一個高維向量映射到了另一個向量,不僅丟失了信息,還無法比較。價值多元化可以當作進一步價值比較的「中間結果」,方便進一步計算而已,最終還是要歸結於一維。用金錢衡量一切的一元價值儘管不能解決許多問題,卻是人類目前能想到並實踐的最有效的方法。但願會有更好的方式被發明出來。


非常驚訝,一個誤導性十足的答案居然會高居第一。澄清幾個問題,歐美、日本不做。這個問題很簡單就可以確定,在每年top500列表上,歐美、日本的超級計算機絕對是前列,恐怕高排位的應該大部分屬於美國能源部旗下的實驗室,如jaguar,Hopper等。這幾年,隨著摩爾定律的發威,單科顆cpu成本急劇降低,國內在這塊也高速推進,遠得不說,光講上過top1的就有天河系列,魔方系列。
至於超級計算機有什麼用,是否僅能作為基礎科研的工具,這同樣是錯誤十足的答案。超級計算在現代工業,國防均有舉足輕重的作用,如材料損傷,汽車建模如汽車碰撞實驗,風洞設計,熱核模擬等等。這些應用性計算,無論對於設計的經濟性,還是可靠性都不可或缺。至於更多的戰略性要素或角度,暫時就不一一展開了。無論從好奇心或者實際效用來看,計算能力都是決定我們擴展疆域邊界的核心力。


建議對自己不懂的事情少發表評論


我還是那句話。在我這十六七年的網齡里,見過形形色色的人,也試圖理解過他們的想法。
但只有兩種人的想法是我一直不能理解的:一個是狗奴,另一個就是反對發展科技。


中山大學學生,在超算中心先導系統那裡當助理。目前中大東校三個集群,負責任地說,很多老師和外面企業使用,其中化學,環境,生科和數學幾個學院用得比較多,整個系統基本每天都是滿負荷在運行,有時也會出現節點down掉的情況(我們做的就是監控環境)。排名第一的回答正確性有待質疑,因為據我觀察,很多老師的程序都是沒日沒夜地在上面運行的,而且節點的使用也是有數量和時間限制,照上面十分鐘百萬級說法,老師豈不得傾家蕩產。


為了仙劍奇俠傳六流暢運行60幀


大一本科生,非計算機專業,第一次答問題說的不對的地方希望大家理解

如大家所知,天河二號超級計算機所在地是廣州 那麼廣州那麼大塊地,超算又放在哪裡呢

實際上,在廣州中山大學東校區裡面有一個國家超級計算機中心,平是機器就是放在裡面二樓

好吧,雖然作為一隻中大狗,能進去超算中心的機會也不多(恩是幾乎沒有的說),超算中心每天都有好幾個壯到飛起的保安把守,沒什麼事是不會讓你進去的,不過好再之前沾一個教授的光,也是有幸進去參觀了一下
先po上幾張圖:

這就是大名頂頂的天河二號啦

整個超計中心不高,只有幾層樓
整個第二層除了一個大廳和接待室之外都是機房。然後機房是在一個密閉的空間里的,為的是在有突發情況(起火之類的)惰性氣體可以及時補救,減少財產的損失,至於超算中心的一層和負一層就都是冷卻系統

現在讓我們來聚焦一下超級計算機。撇開我不懂的專業數據,以及大家已近知道的天河有多大有多屌這些,我們說一說一些其他的數據。

整個計算機的研發過程大約消耗資金30億元,然後配套設施建設大約是為30億元
現在為了省錢沒有把所有機組打開,沒年消耗的電費大約在6000萬 然後現在還在機組升級 耗的錢就不說了

恩,總之就是個耗錢耗人力無力的大傢伙

現在在回歸到這個問題 國家花辣么多錢修健這個big guy 到底有什麼用

當然是為了裝逼 made in chian 嘛(大霧)

哦主要作用肯定不是裝逼
按官方的說法(機房裡面的宣傳資料)
天河二號的誕生是為了推進我國工業 軍事 信息化航天航空等多方面的建設(總之就是那些官方話 你懂的)

那到底有什麼用呢?
事實也是官方說的那些話。
至少在我的理解範圍內,超算為科研各方面的工程事業作做出了很大的貢獻

隨著科技的發展,尤其是我們這種建立在數學模型上的一種科技形式,每一個巨大的工程後面都對應了十分大量的數據,然而這些數據的計算量是非常巨大的,人來算基本不可能,而交給普通的計算機來說也可能算個幾天幾個月幾年,還可能算出來一堆誤差

這顯然是不符合現在生產速度的需要的,這個時候就需要一台計算能力逆天的計算機來輔助計算

拿我們學院舉例子,一個本來平均實驗要要跑十幾天的,然後後來接了條光纜到超算那邊,之後的實驗都很輕鬆了

但是為什麼平時我們完全感覺不到超算的作用
直觀來說 我們中的大多數都沒有很直接地參與到這些大型工程的建設當中這是第一個原因
另一個原因呢就是商業化
正如前面的大神所說 雖然跑一個實驗的確塊了很多 但耗費的代價太大了 很多情況不值得

所以現在超算那邊很努力地在實現商業化
比如超算的系統搭載的就是win xp
基本兼容了所有常用的軟體
還搭建了一個超算雲平台 讓企業在家中就可以用超算

但是 致於最本源的價錢嘛 。。。。
嘛。。。。

恩。商業化的路還很長

大家就隨便看看好啦啊
覺得ok就順便贊一個

再隨便吐槽一下我中山不放假大學到現在還不放假
考試周貌死手機碼字回答
大家晚安


推薦閱讀:

TAG:超級計算機 | 天河二號 |