求了解CPU的大神介紹龍芯的實際性能究竟如何?最近看了雷鋒網和太平洋電腦網關於龍芯性能的爭論文章

01-06

龍芯連部分手機處理器的性能都不如么?雷鋒網的小編的比較是否合理?
文章地址：http://m.leiphone.com/news/201504/aCIGktK8BJgon9BV.html
http://m.baidu.com/news?tn=bdbodyquery=%E9%BE%99%E8%8A%AFsrc=http%3A%2F%2Fservers.pconline.com.cn%2F630%2F6303077.htmlfr=ald02ssid=0from=2001auid=0pu=usm@0,sz@1320_1003,ta@iphone_2_4.4_1_10.3bd_page_type=1baiduid=6BCCCDA178A8283AE85CEF18CAAC31B2tj=realtime_3_0_10_l1
http://m.leiphone.com/news/201504/BOOJEiUTJ06HwBjW.html

性能和累計砸的錢的量成正比。不要指望這種堆人力物力的項目有啥多快好省的辦法。計算所那點人槍別說Intel，連NV的CPU部門規模和經費都不一定比得過。

中科院龍芯主設計師胡偉武在其《龍芯3號多核處理器設計及其挑戰》的報告中指出，龍芯3號多核處理器結構特徵是多平台並行虛擬機結構，第一階段到2008年做8～16核，第二階段到2010年做32～64核。

雷鋒的龍芯文章是我寫的，諸位有問題可以在評論區詢問，我會就一些重要內容做統一說明。首先說下數據來源：龍芯的SPEC測試成績、Unixbench成績來自官網龍芯技術白皮書V2.1；sunspider成績出自一篇論文；i7 4770的整數SPEC成績來自SPEC2000: Comparison of LLVM-3.3/3.4 and GCC-4.8/4.9 on x86-64

浮點成績來自hardwarezone；

A8的測試成績來自Anandtech。

Unixbench成績來自Unixbench分數對比網。

SPEC成績對內存配置和編譯器敏感。龍芯平台使用雙路DDR3 1066內存、龍芯專用LCC編譯器；intel平台使用雙路DDR3 1600/1333，GCC編譯器。這裡要注意，根據intel最新的數據，i7 4770換用ICC編譯器並專門優化參數後跑SPEC int可達6000分。

然後說下文章思路。

第一篇文章僅僅是為普通讀者介紹龍芯的實際應用性能與主流CPU的差距。因為龍芯3B的浮點SPEC分數過低，加上SPEC fp與日常應用關聯不大所以沒有選用此項測試。選擇的SPEC int測試與日常應用較接近，可以很好反映龍芯的普通應用性能。考慮到龍芯編譯器水平落後，特地選擇龍芯使用專用LCC編譯器優化過的成績去和Intel CPU用GCC的分數做對比，也是為了照顧龍芯（GCC下龍芯的性能要下降一半）。

文章發布後很多人質疑讓我沒有想到，質疑者並不知道龍芯的SPEC fp表現很差，以為我故意忽略掉龍芯優勢項目。於是我寫了第二篇，將龍芯的SPEC fp放出。

合理性。

這樣的對比本來是不合理的：明顯偏向龍芯，用計算所自己優化過的SPEC成績去對比第三方媒體用GCC測試的其他晶元成績。但是即便如此偏心龍芯的差距依然巨大。注意因為3B的SPEC int分數較低，我甚至用3A高一些的成績換掉了3B原來的分數。

一開始我也沒提及3B因為主打的科學計算能力太差，被計算所曙光超算項目放棄的事情。雖然3B理論浮點指標很強，但極低的訪存性能限制了浮點能力的發揮。只有極少數的偏理論項目中3B才能發揮性能，這沒什麼意義。

很多人質疑為超算研製的3B不該參與通用性能測試，事實上計算所自己就推出了3B桌面PC還試圖推廣，還出品了3B伺服器，顯然他們對3B的定位已經是通用CPU了。超算沒人要，3B也只有這條路可行。

我在文章中不詳細說明技術細節的原因很簡單：大部分讀者看不懂或不關心。為了閱讀體驗，這些內容可以忽略。這並不是技術論文而是科普文章，不需要過分嚴謹。

最後放上計算所龍芯組老大對龍芯現狀的總結：

雷鋒網上的文章可能不夠嚴謹，但基本是靠譜的。

反駁的文章，基本可以說是不要臉級別。

龍芯3b 1Ghz下實測122Gflops。它選取的對比晶元跑浮點什麼成績？i7 4770k 3.9ghz也就86.36Gflops，也就是說浮點性能i7 4770k同頻率也只有龍芯3B-1500的18%，接近1/5。

自從地球模擬器輝煌了幾年之後，超算領域基本就沒有矢量機了，編程麻煩適

應性差，但龍芯的這個實測成績是只能在矢量模式才能跑出來的，在通常的標量模式下跑1.2G頻率，但能跑出來的成績要差得多。

用2008年前的構架來說2015年的水平？要點臉吧？
　　龍芯小組這些年期間把工作重心放在了眾核並行構架和龍芯2B超算向CPU和龍芯2J軍用加固CPU方面。新的面向桌面定位的龍芯3A1500也已經進入流片階段。對照上面放出的成績我們來估算一下龍芯3A的水平。
　　i7 965滿載睿頻3.46ghz，spec_int成績184，按照1ghz性能也該是53.1。
　　龍芯3a工作頻率是900mhz~1Ghz，就當樣品是1ghz測試結果spec_int 25，整數性能周期效率是i7 965的1/2。

這裡作者為了拉平年代距離，找了款2008年的intel CPU對比剛流片不久的龍芯3A，來說明整數的差距不是那麼大。這邏輯真好。

應大家的要求，列一下現有的幾款超算CPU的浮點計算能力：

　　intel xeon phi 5110 60核 1011Gflop 225w 2013年 (intel的製造工藝是怪物不過60核功率是225w 相當於3~4顆龍芯3b )
　　中科龍芯龍芯2B-1500 8核 192GFlop 45~85w 2013~2014
　　富士通 Sparc64 VIIIfx 8核心 128Gflops 功率？ 2009
　　IBM CELL BE 9核心 192Gflops 2007年發布但是因為功耗太高實際獲得性能效率太低 cell項目已經死了
　　江南計算所申威-1600 140Gflops 16核心 45~75w 2011年

這叫哪門子超算CPU，除了第一個是主流，看看Home | TOP500 Supercomputer Sites 上的列表，另外幾種有幾個人用？

性能差太遠的時候就比同頻性能，這叫什麼混蛋邏輯。最新3B1500在32nm工藝能跑到1.5G，可是幾年前的intel、AMD處理器在32nm就能跑到3G多，難道人家達到高頻率不是經過努力才實現的有益成果？就算舉白旗說我頻率就是上不去，咱們換個規則比同頻性能，也應該是對比的CPU運行在和龍芯一樣的頻率來比。

不管是科研還是工程，最終都是數據說話，真實，只有真實才能長久。

回答下 @黎明灰燼的幾條

1.好吧，不扯閑白，I7-4770跑linpack實測大概170GFPops+

2.筆誤抱歉

3.我的意思很清楚：性能差太遠的時候就比同頻性能，這叫什麼混蛋邏輯

一粉頂十黑啊。

再補充幾句，龍芯到今天，基本已經完蛋了，完蛋的道理很簡單，用戰術上的勤奮掩蓋戰略上的懶惰，龍芯到今天取得的成果誰也無法否認，但這都是戰術問題，戰略問題是，這玩意幹嘛？賣給誰？他們需要什麼？這個問題直到今天仍未明確，一會兒伺服器，一會兒高性能計算，嵌入式隔三差五也喊喊，桌面也不缺席。胡大神再能忽悠，人力和資金就那麼些，沒有方向的分散下去結局會很不妙，不是全面開花，而是顆粒無收，等申請不到新項目新經費的時候就運轉不下去了。

龍芯的浮點能力肯定是經過很大努力實現的，但出了課題組，誰能弄出能跑122GFLOPS的代碼？龍芯那一套東西有AVX好用嗎？有CUDA好用嗎？CNKI上很容易搜到好幾篇優化在龍芯上跑的矢量化代碼的文章，優化程度非常有限，作者可都是龍芯粉絲啊。難道就沒想到自己再優化一遍給別人看看嗎？難道除了中國科學就沒有能入得了龍芯項目組法眼的雜誌嗎？

我覺得這種跨平台的對比本身就沒什麼意義，軟體的影響太大了，以前intel跑安卓不是一樣不行嘛，如果能找到相關資料的話，比較下相同指令集的MIPS國外CPU就可以知道龍芯到底怎麼樣了

哎感覺當年胡偉武和一群人辛辛苦苦的搞了那麼久，總算是搞出來點東西，後來怎麼就去搞思想政治工作去了，痛心...

引自《龍芯的足跡-行走在路上》.