剛剛,中國晶元獨角獸寒武紀發布新一代AI 雲端晶元,全方位覆蓋IP與晶元方案丨現場
今天下午,寒武紀在上海舉辦 2018 產品發布會,創始人陳天石重磅發布了新一代雲端 AI 晶元 ——Cambricon MLU100 雲端智能晶元和板卡產品、寒武紀 1M 終端智能處理器IP產品。寒武紀最新兩款產品的發布,也意味著寒武紀成為中國首家同時擁有終端和雲端智能處理器產品的公司。
圖丨寒武紀科技創始人陳天石演講,以先驅者10號和《2001太空漫遊》的故事開場
最新發布的寒武紀1M是公司的第三代IP產品,是業界第一款支持本地終端處理的IP產品。在TSMC 7nm工藝下8位運算的效能比達5Tops/watt (每瓦5萬億次運算),提供三種規模的處理器核(2Tops/4Tops/8Tops)以滿足不同應用場景下不同量級的智能處理需求,並可通過多核互聯進一步提高性能。其具有非常好的通用性,而且不以性能功耗比的犧牲為代價。
圖丨寒武紀1M應用領域廣泛
圖丨陳天石特地邀請了陳氏兄弟的恩師上場,共同正式發布MLU100
本次發布的首款雲端AI處理器---「MLU100」——這正是寒武紀科技在2017年底預告的其中一款雲端高性能智能處理器,支持伺服器端的推理和訓練需求,尤其是側重推理,另有一款MLU200偏重訓練。在發布會現場,陳天石稱MLU100的功耗僅為是英偉達同類產品的幾分之一,將樹立新的行業標杆。
圖丨最新MLU100的具體參數
值得注意的是,為了區別之前的神經網路處理器(NPU),寒武紀科技特意將雲端晶元命名為機器學習處理器(MLU),意在強調其雲端處理器不再局限於深度學習加速,而是擴展到整個機器學習加速,同時搭建一整套生態。
圖丨聯想也在發布會上發布新產品
同時,聯想、中科曙光等作為寒武紀的合作夥伴也發布了基於寒武紀晶元的應用產品。聯想在發布會上宣布了國內首款搭載寒武紀 MLU100 智能處理卡的伺服器平台 Thinksystem SR 650 全新發布,實現伺服器平台系統,智能卡,應用三方協作調優,共同加速推進人工智慧市場。
圖丨中科曙光也在發布會上發布新產品
中科曙光則發布了全新PHANERON系列,即全球首款基於寒武紀MLU的雲端伺服器。中科曙光稱,公司正在考慮從傳統高性能廠商轉型為先進計算的集大成者,其中就必須有強大的「中國芯」,寒武紀在其中扮演著非常重要的角色。
這次發布會的產品對於提升雲端和伺服器端的 AI 計算效能有深遠影響,而最具代表性的應用案例就是超級計算機。計算核心的發展可以說是中國發展超算(超級計算機)的基礎,從龍芯到申威,這些標準化 CPU 核的推動,成了中國超算領域中的根基,並持續茁壯成長,然而中國還缺了關鍵的一塊。
近幾年來,由於 AI 計算的議題火熱,中國超算也把 AI 當作重點推動的功能,但過去中國專註於自有 CPU 核的發展,對 AI 計算方面,還是只能依靠英偉達 GPU 等外來核心才有辦法實現。
當然,這對於中國計算技術的自主化是一個相當大的諷刺,若核心計算功能塊被握在國外廠商手中,那無論如何也不可能達成獨立自主的目標。
因此,在 AI 計算領域,寒武紀就扮演了極為重要的角色,其完全自有,可通用的平台化 AI 計算架構,完全契合了中國的計算核心發展需求,更重要的是,直到今年,中國產業方才領悟整個半導體產業鏈是有多脆弱不堪,更賦予寒武紀這次發布的新核心不同的時代意義。
早在 2017 年底,寒武紀首次舉辦的發布會中,就已經把所有的產品布局和線路公諸於世,重點圍繞終端和雲端兩條產品線。而這次特地把針對雲端 AI 計算的 MLU100 及 MLU200 最終版本拿出來向全球宣告,往後中國超算中的 AI 計算也將成為整個中國芯布局的一部分,徹底擺脫對外來計算架構的倚賴。
中國超算髮展火熱,性能水平超越世界水準
中國在超算領域方面的技術在過去數年一直都是處於領先地位,根據 2017 年 11 月 13 日、半年發布一次的全球超級計算機 500 強榜單,中國超級計算機又毫無意外地佔據了十分明顯的優勢。其中,「神威·太湖之光」和「天河二號」再次領跑,連續第四次分列冠亞軍,其浮點運算速度分別為每秒 9.3 億億次和每秒 3.39 億億次。
而在中國隊崛起的同時,美國的超算排名則不那麼樂觀,其上榜數量已經來到了 25 年來的新低,雙方的超算 500 強比例為 202:143。
圖丨超算前五名
而登上榜首的「神威·太湖之光」位於無錫的國家超級計算中心。不同於普通計算機的小巧體積,每一個超級計算機都是一個「巨無霸」,以「神威·太湖之光」為例,其佔地接近 1000 平方米,由 40 個比家用冰箱體積還大的運算機櫃和 8 個網路機櫃組成。而在每個機櫃內部,一共有 1024 塊「申威 26010」高性能處理器提供高性能的計算服務,而整個超級計算機的處理器數量則超過了 40960 塊。
值得注意的是,雖然 「神威·太湖之光」的持續計算性能為每秒 9.3 億億次,但其系統峰值性能卻達到了每秒 12.5 億億次,是世界首台峰值運算速度超過 10 億億次的超級計算機。換算下來,其 1 分鐘的運算能力相當於全球 70 多億人使用計算器 32 年的計算量,即便和普通 PC 機相比,其計算性能也要超過 200 萬倍。
圖丨神威·太湖之光
當然,「神威·太湖之光」的亮點不僅在於其驚人的計算能力,國產「申威 26010」高性能處理器的使用也特別引人注意,尤其是在中美之間圍繞晶元問題你來我往的難解難分之際,這款晶元就帶給我們更多的啟示和思考。
根據了解,「申威 26010」採用了片上融合的異構眾核體系結構,在 25 平方厘米的面積上集成了 260 個運算核心、數十億晶體管,計算能力達到了每秒 3 萬億次。其指令集和配套軟體生態系統具有完全自主知識產權。
圖丨一位工程師展示「申威 26010」
「申威 26010」的設計概念與 xeon phi 協處理器卡極為類似,只是 intel 這樣一塊計算卡只有區區 60 個核心,而且不能獨立工作,還需要另外購買一個獨立的 xeon 主機作為管理處理器使用。而「申威 26010」處理器集成了管理處理器,可以獨立工作,並且單個處理器卡擁有高達 520 個處理器核心。
不論從何種角度來看,「申威 26010」都代表了國產超算核心已經達到國際一流水準的頂尖地位。
自運營的一年多以來,「神威·太湖之光」的利用率已經超過了 50%,應用領域涉及天氣氣候、航空航天、先進位造、生物醫藥、新材料、新能源等 19 個方面,共計完成 200 多萬項作業任務,平均每天完成近 7000 項。例如核聚變發電的理論和實驗模擬、C919 大飛機的飛行狀態的模擬和天宮系列飛行器的飛行狀態模擬都有「神威·太湖之光」的身影。
圖丨天河二號
不過神威主要還是作為國防用途,與之互補的天河就比較偏一般商用超算,雖在效能上略微落後神威,但是在架構方面同樣有著相當優秀的自有核心技術,其基礎的算力來源,也就是號稱中國計算加速卡China Accelerator的Matrix2000。
Matrix2000主要規格為16核設計的通用型DSP設計,最大可達到2.4T/s的浮點性能輸出,雖略少於英特爾Knight Landing的3T/s,但對於白手起家的中國來說,已經相當不易,而且功耗比現有的Xeon Phi少了100W,從Matrix2000的設計規格上看,至少在能耗均衡性是個相當大的優勢。
中國超算是最早發展自有核心的產業之一
中國過去發展超算技術,其實還是基於歐美的計算核心基礎,這些架構包括英特爾、超微的 CPU,來自超微以及英偉達的 GPU 核心,和來自賽靈思與 Altera 的 FPGA 架構。雖說中國過去在超算技術成功突破特定架構的物理規模限制,實現遠超過外國的超算性能表現,但這些成果都是基於歐美的計算架構,以及相關的核心,並非完全自有,如果哪天關鍵元件被歐美限制出口,那麼這些算力的表現都是無法延續的,也無法為中國供應鏈創造真正的價值。
也因此,超算領域可以說是中國最早的中國芯計劃實現者之一,中國在超算技術方面不僅在性能表現方面真正實現彎道超車,而且具備核心技術的完全自主。
中國超算核心過去十幾年的發展主要還是通過基於通用核心的發展而來,從早期的龍芯架構,以及後來的申威技術,都是基於過去曾經在業界被認可的標準計算架構。
DT 君以申威為例探討自有超算架構的來源,「申威 26010」其實屬於 Alpha 陣營,指令集也是基於 Alpha 進行擴展。但與龍芯指令集走現有 MIPS 兼容路線不同,申威的技術來源是於 DEC 的 Alpha 21164。
圖丨Alpha 21164 成為申威1600 設計的基礎
DEC 的技術實力很強,Alpha 性能更是驚艷,AMD 就曾經購買了 Alpha 21264 的技術資料,挖走了部分 DEC 的技術人員後,開發出自己的 K7 微結構。
雖然 DEC 的技術實力遠比同時期的競爭對手強,但因為商業模式不如人,最終導致失敗的結局,Alpha 也被幾經轉手,先被康柏收購,後被惠普雪藏。目前 Alpha 已經被束之高閣,指令集和微結構都已經不再更新,技術專利大多已過期。
但申威卻很好的重新利用了這個被世人拋棄的架構,成為目前 Alpha 陣營中僅存的碩果,經過中國技術研發人員的鑽研改造,Alpha 已經成功脫胎換骨,成為中國超算體系中難得一見的純種中國芯。
滿足了 CPU 的自主化,AI 計算的空白就由寒武紀來填補
申威的發展是中國晶元發展史上的一個相當經典的案例,也代表中國是有能力、也有意願打造出屬於自有的計算核心與生態,不過對讀者來說,申威並非完全從零開始的自有研發,而是基於過去被淘汰計算架構的基礎之上的再研發,雖是中國芯,但又不是那麼根正苗紅。
而且申威作為 CPU 核心,對於現代 AI 計算所需要的訓練與推理在計算效率上無法得到百分之百的發揮,因此仍需要傳統 GPU 或 FPGA 等 AI 專用計算架構來搭配,而這些都是外來架構。
寒武紀不僅是非常純粹的中國科技產物,從核心指令集、架構、軟體生態,都是自有知識產權,而更重要的是,它針對了時下最流行的 AI 計算優化,很好解決了中國芯在相關領域遇到的計算瓶頸。
其不論是計算核心的設計,以及演算法應用的發展上,都是基於原創的技術推動,雖然概念上參考自2010 年 ISCA 大會上 Temam 教授所發布的「The Rebirth of Neural Networks」主題演說中所提到機器學習加速器的概念,但寒武紀陳氏兄弟隨後在 2012 年與 Temam 教授共同發展出第一代加速設計,並命名為 Diannao 項目。
Diannao 項目的核心實際上就是提出了一系列定製的 AI 加速器的設計方案。包括第一個最原始的加速器概念 Diannao,第二個加速器 DaDiannao,基本上就是 Diannao 的多片版本,通過多片設計,可以將較大的模型維持在片上緩存中。
第三個加速器 ShiDiannao,則是將 AI 加速器與感測器直連,從而減少內存通訊的開銷,第四個加速器 PuDiannao 則將加速器從只支持特定神經網路擴寬到支持多種常規機器學習演算法,也是後來寒武紀發展 AI 加速器的最關鍵核心邏輯:通用平台的設計概念的主要來源。
PuDiannao 也是 Diannao 項目的最後一個工作。 隨後,陳氏兄弟就提出了 Cambricon 指令集的思想,試圖在更為泛化的層面來完成 AI 加速器的設計。與前面幾個架構比較之下,Cambricon 里試圖針對 AI 演算法,提取出更為細粒度,泛化性更強的建構基礎,在更具原子性的基礎上完成硬體結構設計,從而提升了加速器的通用性。
Cambricon 核心裡所有的指令都是 64-bit 的長度,這也算是 RISC 設計思想的體現,可以有效簡化指令解碼器的負擔,有助於減少功耗和晶元面積。 指令集可以劃分為四大類,分別是計算類 / 邏輯類 / 控制類 / 數據存取類。這也和一般常見的通用計算 CPU 指令即有著異曲同工之妙,而如此設計,也註定其要走向大市場,走平台方案發展的路線。
後來陳氏兄弟甚至將其架構設計轉化為可對外授權的 IP,並發展出相關商業模式,在國內清一色開自有晶元的風潮下顯得特立獨行,將目標瞄準更高層的市場,意圖成為整個 AI 計算加速產業的共主。
目前,寒武紀的 IP 授權已經有包含海思在內幾家廠商採用,其性能表現也要優於諸如蘋果內建的 NPU,以及高通所採用的 DSP 架構,可以說為 AI 加速方案的發展立下標竿。
圖丨華為海思麒麟 970 取得了寒武紀的 IP 授權
而此次發布的 MLU100 及 MLU200 則可說是完全針對雲端 AI 計算的需求而推出,二者都基於 TSMC 16nm 工藝打造,以 PCIE 板卡形式呈現,這是寒武紀推出的雲端市場的專用產品。
這兩顆晶元都同時支持推理和訓練,其中 MLU100 偏重推理,將面向數據中心和中小型伺服器,而 MLU200 偏重訓練,將面向企業級人工智慧研發中心。而隨著這兩個全新架構的推出,寒武紀也宣示通過其與中科曙光的合作,正式在國家級超算計算中推動真正自有的 AI 計算核心,而不是像過去必須依靠外來架構。
推薦閱讀:
※寒武紀將發布新一代AI處理器:國人要對自主AI及晶元技術要有信心
※2018年微處理器市場總規模將達745億美元,X86功不可沒
※8250U VS 7200U:功耗+10%,性能+50%
※蘋果A11X仿生處理器曝光:8核 7nm工藝