「藍色巨人」終於出手,在京發布全新晶元架構!IBM聯手NVIDIA欲對Intel「釜底抽薪」
當下,寒武紀、Graphcore、Wave Computing 等 AI 晶元設計企業都想要以能耗優勢攻取市場,英特爾也拿出 Nervara 和 Lake Crest 架構想徹底取代 GPU,在業界看來, GPU 在 AI 計算領域的前景似乎已經不容樂觀了。
但 NVIDIA 則是拿出自 2014 年以來與 IBM 的技術合作成果向世界證明:你們錯了!
12 月 13 日,IBM 在北京正式發表了新一代 Power 9 伺服器晶元架構。該架構針對目前熱門的 AI 計算領域優化,並期望作為新一代通用平台,協助 GPU 等計算架構解開來自 X86 平台的層層限制,發揮真正的計算性能。作為 IBM 長久以來的合作夥伴,NVIDIA 也首發了 NVLINK 2.0 規格,並在 Power 9 平台上展現出了遠超過 X86 平台的性能表現。
圖丨IBM 新一代 Power 9 伺服器晶元架構
為強化 GPU 應用生態,NVIDIA 和意圖在高效能伺服器市場重新站穩腳步的 IBM 合作,希望能夠結合二者的技術優勢,重新打造更好的雲端機器學習環境,不僅要擺脫英特爾的制約,也是要甩開 ASIC 的追趕。
從性能指標測試方面,2017 年 8 月 IBM 使用自行開發的 Power 8 伺服器,配合 256 塊 GPU,處理來自 ImageNet-22K 資料庫的 750 萬張圖片時,不僅識別準確率高達 33.8%,比起微軟在 2016 年創下的 29.8% 紀錄還高出 4%,不要小看這 4%,這是調用大量的計算資源才能換到的結果。
最值得一提的是,微軟一共花費 10 天才完成計算,而 IBM 只花了 7 個小時。二者的合作不僅帶來準確率提升,更大幅度的縮短計算時間。
通過與 IBM 的合作,NVIDIA 證明只要通過正確的設計,GPU 還有許多計算潛力可以挖掘,尚無須畏懼新興 ASIC 架構的挑戰,而剛推出的 Power 9 在核心計算性能與 NVLINK 頻寬比 Power 8 更上一層樓。
事實上,IBM 基於新款處理器和 NVIDIA GPU 的組合也成為美國能源部超級計算機及 Google 新款資料中心伺服器的架構基礎,可見過去由 X86 體系主導的高端計算架構版圖已經在二者的合力進擊下,開始出現鬆動。
IBM 欲借 AI 浪潮將 Power 架構重新推上高峰
Power 架構起源於 20 世紀 70 年代,原始設計目標是創建一個大型電話交換網路,每秒處理至少 300 個呼叫,預計需要 2 萬個機器指令來處理每個呼叫,同時保持實時回應,因此認為有 12 MIPS 性能的處理器是必要的。這個規格要求在當時可以說是非常激進,主流的複雜指令集架構基本上不可能達到這個目標。
圖丨前幾代 IBM Power 架構
但後來開發者另闢蹊徑,因為這台機器只需要執行 I / O,分支,添加寄存器,移動數據在寄存器和存儲器之間,並且不需要特別的指令來執行大量的計算,因此最終在架構設計方面省略了很多傳統處理器所需要的結構部分。
這種單純化的設計理念,把每個複雜操作的每個步驟都由一個機器指令明確指定,並且名確定義所有指令都需要在相同的恆定時間內完成,而這樣的架構後來也被稱為 RISC,沒錯,Power 架構正是所有 RISC 晶元的始祖。後續在核心設計的許多技術創新,比如說 Out of Order(亂序執行),以及寄存器重命名等特性,都被幾乎後來所有處理器架構所仿效。
到 1975 年,電話交換機項目被取消,但這個 RISC 處理器的架構概念留下來持續發展,最終在 1990 年推出了 Power 處理器。Power 架構曾是伺服器主流架構之一,其特點就是計算能力特強,及擁有極高的帶寬表現,針對特定計算負載能夠有遠比同一代 X86 更好的效能表現。而後期 IBM 也曾開發出針對低功耗環境的嵌入式 Power 技術,甚至曾作為主流遊戲機的核心,比如說索尼的 PS2、PS3,以及任天堂 N64、Game cube、wii、Wii U,都是基於 Power 架構,Power 架構可說風生水起,不可一世。
但後來在伺服器領域,成本與兼容性取代了絕對性能,即便曾推出世界首款刀片伺服器,曾以深藍的名號打敗世界圍棋冠軍,Power 架構也逐漸走入其他 RISC 高性能處理器的老路,步向衰亡,X86 架構幾乎一統伺服器核心。
另外一方面,Power 架構在低功耗產品的發展受到 ARM 的狙殺,遊戲機核心也被 X86 和 ARM 架構所取代,乍看之下,Power 架構曾經一度走上絕路,所有的客戶幾乎都喪失殆盡,只能在少數通信設備以及金融業高端伺服器市場苟延殘喘。
但 IBM 並沒有像其他 RISC 公司一樣選擇直接放棄,而是通過完全開放的方式,意圖拯救即將完全死亡的生態,OpenPOWER 也就是在這個時代背景下產生的組織。
OpenPOWER 創始會員有 Google、Mellanox、NVIDIA,以及當時在伺服器領域相當出名的泰安 (Tyan) 計算機,OpenPOWER 組織把相關的核心技術 IP 對外開放,提供會員一整套可參考的設計以及相關的軟硬體環境,會員可對 Power 架構深度定製化,滿足不同應用所需要的計算彈性,相關生態因此開始回溫。而 IBM 在開放 Power 架構的同時,也持續發展自有的 Power 架構,其最新的架構命名為 Power 9。
AI 時代所帶來的各種計算需求把目前的計算架構逼到極限,CPU 已經不敷使用,GPU 也正面臨瓶頸與挑戰,未來看似是 ASIC 的天下?但 IBM 和 NVIDIA 的合作向世界宣告,ASIC 要取代 GPU 沒有那麼容易!當然,這是著眼於 NVIDIA 與 IBM 合作開發的 NVLINK 技術。
然而 Power 架構的優勢還不止於此,根據官方數據,IBM POWER9 的最大 I/O 帶寬是 Intel x86 處理器的 9.5 倍,可支持存儲器容量是 2.6 倍,高效能核心數量為 x86 的 2 倍,存儲器帶寬則是 x86 的 1.8 倍。更重要的是,通過 NVLINK 2.0,CPU 與 GPU 之間的互連帶寬達到 X86 伺服器目前使用的 PCIe 3.0 的 9 倍,大大舒緩了 GPU 等待數據傳輸所造成的計算能力浪費。
Power 9 也不是指針對了 NVIDIA 的計算架構作優化,事實上,它針對的是所有平台,包括 AMD、Xilinx,以及其他 AI 計算方案:IBM 與 AMD、ARM、華為等公司合作組件 CCIX 聯盟,推出集成了 CCIX 技術,為 Power 9 提供帶寬更高的匯流排加速器。就架構定義上來看,可以當作開放規格的 NVLINK,其最高帶寬表現也相近,IBM 也為此匯流排技術取名為 BlueLINK,以作為和 NVLINK 的區分。
另外,IBM 也針對 Power 9 環境推出了分散式深度學習軟體 (Distributed Deep Learning;DDL),可以讓處理器的 100% 擴容得到 95% 的效率增長,相較起一般公司,比如說 Facebook 的 89% 擴容效率明顯高出不少。
IBM Power 計算架構向世界展示了它的強大,而相較英特爾為主的 X86 體系逐漸走向封閉,其在支持 NVLINK 之類的獨家規格的同時,也和其他計算架構供應商合作推出了基於 CCIX 介面的 BlueLINK 開放架構,其欲取代 X86 成為 AI 計算領域通用平台的的意圖非常明顯。
從 IBM 的技術布局看起來野心不小,且專有架構與開放架構兼容並蓄,最大化自己的應用格局,也明顯有向目前以 X86 為主的 AI 生態發起挑戰的意味。NVIDIA 與 IBM 這個組合在 Power 9 第一波攻勢中證明了架構的優勢,不僅彌補 GPU 架構在數據傳輸上的弱點,也更好的發掘了 GPU 的計算潛力。
依靠與 IBM 的合作而得以發揮計算實力的 GPU 架構,似乎又能重新站上競爭的風口,與即將到來的新架構一較高下,晶元成本的弱勢暫時也不是問題,畢竟專業計算注重的還是整體性能表現,而不是晶元本身的規模與成本。當然,GPU 架構本身的功耗表現和 ASIC 相較之下還是有落差,但若能針對軟硬體的統合與優化來大幅減少機器學習訓練過程所需要的時間,也等同節省了功耗,那麼就整體來看,差別就不是那麼明顯。
也因為 NVIDIA 和 IBM 在 NVLINK 技術的合作時程較早,其他計算架構就算依靠開放規格加入 Power 平台,恐怕必須等到新一代產品才有辦法實現,在時程上也將落後 NVIDIA 和 IBM 的組合半年到一年以上。而這一年也就成為 NVIDIA 徹底改善產品設計的機會:不論是對現有 GPU 架構進行深度改造,亦或者是改變以 GPU 為核心的策略,針對 AI 計算領域推出專有計算架構。
但值得注意的是,IBM 提出的架構還是以伺服器市場為主,諸如在汽車或者是其他終端的 AI 計算領域,Power 架構恐怕就幫不上忙。NVIDIA 雖可憑藉與 IBM 的合作鞏固高效能計算市場,但是在嵌入式領域,恐怕就必須要提出更高效率的架構。
以汽車產業為例,其最新 Pegasus 自動駕駛平台高達 500W 的功耗,恐怕就不是主流汽車廠能夠接受的程度,雖幸好 2020 年之前市場上還不會有可與目前 NVIDIA 相提並論的自動駕駛方案出現,且 L5 自動駕駛在未來幾年也難以普及,但 NVIDIA 仍須及早做好準備,藉以應對未來的競爭。
英特爾與 NVIDIA 矛盾漸深,IBM 趁虛而入
英特爾從機器學習問世方法以來,就一直希望能夠以自家 X86 架構取代 GPU 計算,但 GPU 架構在學習方面的優勢太過強大,且英特爾本身的架構發展也陷入停頓,英特爾也只好看著 NVIDIA 在 AI 產業攻城掠地,自己只能一旁艷羨。
但後來英特爾先後併購了 Altera 以及 NERVANA 這兩家公司,欲以 FPGA 架構重新進入機器學習領域,且又強調 FPGA 的超低延遲推理性能優勢,一時之間 NVIDIA 也大為緊張。
英特爾對 AI 產業野心勃勃,不僅在計算架構,也針對自動駕駛領域買下 Mobileye,所有的商業決策幾乎都是針對 NVIDIA 而來,雙方雖仍是合作夥伴,但實際上已經勢同水火。
在此情形下,NVIDIA 轉向與 IBM 的合作也就順理成章,一方面,IBM 的 Power 架構與 NVIDIA 緊密合作,提供原生 NVLINK 支持,大幅強化 GPU 計算性能,另一方面,IBM 也憑藉 GPU 的計算能力,打下 Google 和美國能源部這兩個大客戶,證明在高性能計算領域,Power 架構仍然寶刀未老,二者的結合正撼動著英特爾一手建立起的 X86 伺服器帝國。
GPU 因本身架構與平台限制被 ASIC 步步緊逼
GPU 在 AI 計算領域的優劣勢可以用個簡單的例子說明:GPU 進行機器學習的訓練時,就好像數千個小學生同時計算幾千道小學數學題目,而 CPU 則象是大學生,但一所學校只有幾個大學生,要同時做幾千道小學生題目,每道題目解題耗時雖短於 GPU,但因為題目數量太多,必須排序來做,導致實際解題時間其實遠短於解題後答案輸出以及等待下一道題目的耗時,整體訓練效率也明顯不如 GPU。
而在推理的場景上,通常來自終端的要求量要遠少於訓練時的計算量,幾千個小學生分搶題目後,通常最終只有幾個小學生能實際承擔到計算工作,那麼問題來了,回歸到 GPU 本身的計算能力只有小學生的程度,在工作量不大的情況下,GPU 無從發揮大量平行計算的優勢,於是基本解題能力上的弱勢就顯現出來了。
事實上,在一般推理應用場景上,GPU 的推理能力在不少情況下可能要小於 CPU,更不用提基本設計就已經是完全神經網路化的 ASIC 方案,以及可根據場景調整計算規模的 FPGA。雖然 NVIDIA 後來提出 TensorCore 來解決推理性能低下的問題,但這是額外的計算單元,而非原本 GPU 架構的能力,這個作法也等同額外增加了 GPU 計算功耗的負擔。
最後,GPU 原本就是設計給遊戲圖像處理市場,而非純粹計算,所以在架構上必須考慮到圖像處理所需的計算彈性,這點導致近半晶體管無法被用在實際計算工作上。且因為要做到彈性、可編程設計,設計上就必須考慮到一定程度的可重構性。換言之,對 AI 計算而言「冗餘」的部分太大,無法像 ASIC 僅需要針對特定的計算工作設計電路,因此可大幅「去蕪存菁」,只留下必要的部分。
半導體晶元設計中的晶體管規模不但代表了成本,也代表了功耗,額外的部分越多,消耗的電力和生產成本也越高,而規模數一數二,且近半晶體管無法投入到 AI 計算中的缺點,就成為 GPU 越來越被關注,並同時被新進 ASIC 架構攻擊的重點。
NVIDIA 推出 NVLINK 期望解決 GPU 計算的最大瓶頸
而 DT 君也曾經在之前的分析提到,未來 AI 計算晶元的方向,尤其是 ASIC 方面,都走向集成度更高且具備大量片上存儲器的方式,甚至在演算法或模型設計上進行優化,盡量讓數據可以留在片上存儲器重複利用,避免數據傳輸過程中所導致的延遲——而這也是 GPU 架構設計上最被公認的弱點:考慮到晶元應用廣度,以及規模對成本及功耗的影響,NVIDIA 或 AMD 都不敢集成容量太大的片上緩存,更何況 GPU 早因大量計算單元的集成,規模之大已是數一數二。
所以 GPU 在進行大量平行計算時,無法把大部分計算完的數據暫存在晶元端,而是要通過匯流排與主系統來回溝通搬移數據,常常造成 GPU 需空轉等待數據送達。而目前的主流 PCIe 3.0 匯流排最大僅能提供 32GB/s 帶寬,剛宣布的 4.0 正式版本雖可達到 192GB/s 的整體帶寬,但標準才剛公布,相關方案也要 2018 年稍晚才會推出,對 NVIDIA 而言,可說遠水救不了近火。
圖丨PCIe 路線圖
而英特爾偏好開放標準,循著 PCIe 規格的演進改進自己的匯流排效率,而不想把 NVIDIA 的 NVLINK 技術放進自己的處理器架構中,考慮的因素包含了過去與 NVIDIA 在專利和架構授權上曾發生過的爭議,以及未來英特爾要推廣自有的 AI 計算架構,不希望讓 GPU 計算架構優勢持續下去,因此對 NVLINK 采冷處理的方式。
NVLINK 在 2014 年發表時,因為英特爾的冷處理,NVIDIA 後來便決定和 IBM 共同發展此界面規格,從 Power 8 架構開始支援 NVLINK 1.0 技術,而才剛推出的 Power 9 則是集成了速度更高的 2.0 版,其提供的總帶寬可高達 300GB/s,很大程度上解決了數據傳輸過程的瓶頸,且因為 NVLINK 支持了緩存一致性設計,也同時能夠有效提升 GPU 的計算性能。
IBM 打亂英特爾伺服器生態,或將引爆 AI 晶元新戰局
目前在 X86 平台上展開的 AI 晶元戰爭,GPU 目前遭受的挑戰越來越大,主要就是周邊的搭配未能如 NVIDIA 之意,導致計算效率無法完全發揮。但借原生 NVLINK 之助,NVIDIA 在 IBM 新的 Power 平台上表現可說脫胎換骨,這不只是 Power 伺服器本身硬體設計上的優勢,也同時是 IBM 配套軟體上的成功,比如說分散式深度學習軟體發揮了極大的功效,讓伺服器規模的增加能帶來相對應的性能增長,而不是只增加了功耗,卻沒有增加效率。
當然,NVIDIA 和 IBM 的合作其實也是各有所圖,NVIDIA 借 BIM 之力大幅強化 GPU 計算架構的性能表現,要在包含英特爾等對手的方案正式面世前先穩住市場。IBM 則是想要在潛藏多年之後重新打進伺服器市場,正面挑戰英特爾的 X86 生態霸權,因此在連接能力、各類標準的支持方面盡量做到完美,首波攻勢雖是和 NVIDIA 聯手,但長遠來看,還是希望能夠吸引到世界上各大主流計算方案,而非僅只 NVIDIA 一家。
至於英特爾要如何應對?如果未來主流計算架構轉而支持 IBM 體系,而非 X86,肯定傷害會很大,英特爾手握 FPGA 生態,未來完全封閉起來自己做也不是不可能的事情,但客戶的流失將是無可避免的後果,如此看來,IBM 的 Power 架構已可說立於不敗之地。
推薦閱讀:
※OLED為什麼能夠取代液晶屏?
※索尼在家研發5年又出黑科技 —— TOIO 震撼玩具圈
※Boss直聘:審核漏洞凸顯安全危機
※為什麼國內一些用戶對國外產品保持敬畏,反而對國內相似產品保持懷疑並且噴聲一片?
※去年Alexa搶盡風頭,今年CES大廠巨頭全數上陣!蘋果、谷歌全面圍剿亞馬遜,2018 CES 五大熱點搶先解讀
TAG:科技 |