求了解CPU的大神介紹龍芯的實際性能究竟如何?最近看了雷鋒網和太平洋電腦網關於龍芯性能的爭論文章

龍芯連部分手機處理器的性能都不如么?雷鋒網的小編的比較是否合理?

文章地址:http://m.leiphone.com/news/201504/aCIGktK8BJgon9BV.html

http://m.baidu.com/news?tn=bdbodyquery=%E9%BE%99%E8%8A%AFsrc=http%3A%2F%2Fservers.pconline.com.cn%2F630%2F6303077.htmlfr=ald02ssid=0from=2001auid=0pu=usm@0,sz@1320_1003,ta@iphone_2_4.4_1_10.3bd_page_type=1baiduid=6BCCCDA178A8283AE85CEF18CAAC31B2tj=realtime_3_0_10_l1

http://m.leiphone.com/news/201504/BOOJEiUTJ06HwBjW.html


性能和累計砸的錢的量成正比。不要指望這種堆人力物力的項目有啥多快好省的辦法。計算所那點人槍別說Intel,連NV的CPU部門規模和經費都不一定比得過。


中科院龍芯主設計師胡偉武在其《龍芯3號多核處理器設計及其挑戰》的報告中指出,龍芯3號多核處理器結構特徵是多平台並行虛擬機結構,第一階段到2008年做8~16核,第二階段到2010年做32~64核。


雷鋒的龍芯文章是我寫的,諸位有問題可以在評論區詢問,我會就一些重要內容做統一說明。首先說下數據來源:龍芯的SPEC測試成績、Unixbench成績來自官網龍芯技術白皮書V2.1;sunspider成績出自一篇論文;i7 4770的整數SPEC成績來自SPEC2000: Comparison of LLVM-3.3/3.4 and GCC-4.8/4.9 on x86-64

浮點成績來自hardwarezone;

A8的測試成績來自Anandtech。

Unixbench成績來自Unixbench分數對比網。

SPEC成績對內存配置和編譯器敏感。龍芯平台使用雙路DDR3 1066內存、龍芯專用LCC編譯器;intel平台使用雙路DDR3 1600/1333,GCC編譯器。這裡要注意,根據intel最新的數據,i7 4770換用ICC編譯器並專門優化參數後跑SPEC int可達6000分。

然後說下文章思路。

第一篇文章僅僅是為普通讀者介紹龍芯的實際應用性能與主流CPU的差距。因為龍芯3B的浮點SPEC分數過低,加上SPEC fp與日常應用關聯不大所以沒有選用此項測試。選擇的SPEC int測試與日常應用較接近,可以很好反映龍芯的普通應用性能。考慮到龍芯編譯器水平落後,特地選擇龍芯使用專用LCC編譯器優化過的成績去和Intel CPU用GCC的分數做對比,也是為了照顧龍芯(GCC下龍芯的性能要下降一半)。

文章發布後很多人質疑讓我沒有想到,質疑者並不知道龍芯的SPEC fp表現很差,以為我故意忽略掉龍芯優勢項目。於是我寫了第二篇,將龍芯的SPEC fp放出。

合理性。

這樣的對比本來是不合理的:明顯偏向龍芯,用計算所自己優化過的SPEC成績去對比第三方媒體用GCC測試的其他晶元成績。但是即便如此偏心龍芯的差距依然巨大。注意因為3B的SPEC int分數較低,我甚至用3A高一些的成績換掉了3B原來的分數。

一開始我也沒提及3B因為主打的科學計算能力太差,被計算所曙光超算項目放棄的事情。雖然3B理論浮點指標很強,但極低的訪存性能限制了浮點能力的發揮。只有極少數的偏理論項目中3B才能發揮性能,這沒什麼意義。

很多人質疑為超算研製的3B不該參與通用性能測試,事實上計算所自己就推出了3B桌面PC還試圖推廣,還出品了3B伺服器,顯然他們對3B的定位已經是通用CPU了。超算沒人要,3B也只有這條路可行。

我在文章中不詳細說明技術細節的原因很簡單:大部分讀者看不懂或不關心。為了閱讀體驗,這些內容可以忽略。這並不是技術論文而是科普文章,不需要過分嚴謹。

最後放上計算所龍芯組老大對龍芯現狀的總結:


雷鋒網上的文章可能不夠嚴謹,但基本是靠譜的。

反駁的文章,基本可以說是不要臉級別。

龍芯3b 1Ghz下實測122Gflops。它選取的對比晶元跑浮點什麼成績?i7 4770k 3.9ghz也就86.36Gflops,也就是說浮點性能i7 4770k同頻率也只有龍芯3B-1500的18%,接近1/5。

自從地球模擬器輝煌了幾年之後,超算領域基本就沒有矢量機了,編程麻煩適

應性差,但龍芯的這個實測成績是只能在矢量模式才能跑出來的,在通常的標量模式下跑1.2G頻率,但能跑出來的成績要差得多。

用2008年前的構架來說2015年的水平?要點臉吧?

  龍芯小組這些年期間把工作重心放在了眾核並行構架和龍芯2B超算向CPU和龍芯2J軍用加固CPU方面。新的面向桌面定位的龍芯3A1500也已經進入流片階段。對照上面放出的成績我們來估算一下龍芯3A的水平。

  i7 965滿載睿頻3.46ghz,spec_int成績184,按照1ghz性能也該是53.1。

  龍芯3a工作頻率是900mhz~1Ghz,就當樣品是1ghz測試結果spec_int 25,整數性能周期效率是i7 965的1/2。

這裡作者為了拉平年代距離,找了款2008年的intel CPU對比剛流片不久的龍芯3A,來說明整數的差距不是那麼大。這邏輯真好。

應大家的要求,列一下現有的幾款超算CPU的浮點計算能力:

  intel xeon phi 5110 60核 1011Gflop 225w 2013年 (intel的製造工藝是怪物 不過60核功率是225w 相當於3~4顆龍芯3b )

  中科龍芯 龍芯2B-1500 8核 192GFlop 45~85w 2013~2014

  富士通 Sparc64 VIIIfx 8核心 128Gflops 功率? 2009

  IBM CELL BE 9核心 192Gflops 2007年發布 但是因為功耗太高 實際獲得性能效率太低 cell項目已經死了

  江南計算所 申威-1600 140Gflops 16核心 45~75w 2011年

這叫哪門子超算CPU,除了第一個是主流,看看Home | TOP500 Supercomputer Sites 上的列表,另外幾種有幾個人用?

性能差太遠的時候就比同頻性能,這叫什麼混蛋邏輯。最新3B1500在32nm工藝能跑到1.5G,可是幾年前的intel、AMD處理器在32nm就能跑到3G多,難道人家達到高頻率不是經過努力才實現的有益成果?就算舉白旗說我頻率就是上不去,咱們換個規則比同頻性能,也應該是對比的CPU運行在和龍芯一樣的頻率來比。

不管是科研還是工程,最終都是數據說話,真實,只有真實才能長久。

回答下 @黎明灰燼的幾條

1.好吧,不扯閑白,I7-4770跑linpack實測大概170GFPops+

2.筆誤抱歉

3.我的意思很清楚:性能差太遠的時候就比同頻性能,這叫什麼混蛋邏輯

一粉頂十黑啊。

再補充幾句,龍芯到今天,基本已經完蛋了,完蛋的道理很簡單,用戰術上的勤奮掩蓋戰略上的懶惰,龍芯到今天取得的成果誰也無法否認,但這都是戰術問題,戰略問題是,這玩意幹嘛?賣給誰?他們需要什麼?這個問題直到今天仍未明確,一會兒伺服器,一會兒高性能計算,嵌入式隔三差五也喊喊,桌面也不缺席。胡大神再能忽悠,人力和資金就那麼些,沒有方向的分散下去結局會很不妙,不是全面開花,而是顆粒無收,等申請不到新項目新經費的時候就運轉不下去了。

龍芯的浮點能力肯定是經過很大努力實現的,但出了課題組,誰能弄出能跑122GFLOPS的代碼?龍芯那一套東西有AVX好用嗎?有CUDA好用嗎?CNKI上很容易搜到好幾篇優化在龍芯上跑的矢量化代碼的文章,優化程度非常有限,作者可都是龍芯粉絲啊。難道就沒想到自己再優化一遍給別人看看嗎?難道除了中國科學就沒有能入得了龍芯項目組法眼的雜誌嗎?


我覺得這種跨平台的對比本身就沒什麼意義,軟體的影響太大了,以前intel跑安卓不是一樣不行嘛,如果能找到相關資料的話,比較下相同指令集的MIPS國外CPU就可以知道龍芯到底怎麼樣了


哎感覺當年胡偉武和一群人辛辛苦苦的搞了那麼久,總算是搞出來點東西,後來怎麼就去搞思想政治工作去了,痛心...

引自《龍芯的足跡-行走在路上》.


推薦閱讀:

如何看待 2018 年 1 月 2 日爆出的 Intel CPU 設計漏洞?
如何評價intel最新發布的低功耗架構Apollolake?
Intel C++ Compiler(icc)與gcc對比有什麼優缺點?
高通推出伺服器處理器會對英特爾的業務造成怎樣的影響?
如何評價intel的新一代處理器i7 7700k?

TAG:英特爾Intel | 中央處理器CPU | 計算機 | 龍芯 |