「AI晶元大清洗」即將來臨:ARM終於出手,要一統人工智慧生態

作為幾乎所有智能移動終端及多數智能聯網設備的計算核心設計者,全球最為著名晶元架構設計公司arm 在這兩年 AI 生態蓬勃發展的走勢中一反常態,沒有站在主導地位,甚至也沒什麼音量。

可以說,雖然 arm 的地位如今仍然重要,但卻已經不再是眾人眼光的焦點,當蘋果、華為、高通等客戶不斷在 AI 技術與應用上進行創新時,arm 基礎架構似乎還是維持自己的步調,沒有太多波瀾起伏。

3 月 6 日,arm 在北京舉辦了人工智慧新品發布會。面對市場的質疑,arm 通過這次發布會正式向市場宣布進軍 AI 方案,實際上解答了這兩年來為何 arm 在 AI 領域沒有太多作為的具體原因。在這次為期兩天的發布會中宣布了兩款針對中低端市場的GPU架構及多媒體方案,但本次發布會的重點還是在第二天關於人工智慧方案布局的座談,arm 資深市場營銷總監 Ian Smythe 針對未來 arm 在 AI 應用領域的布局進行深入的探討。

事實上,該行業巨頭早在 2016 年就已經把觸手伸進多個 AI 應用領域同時發展,包含號稱針對機器學習優化的 Bifrost GPU 架構,以及針對高端伺服器晶元的 SVE 延伸指令集。隨著相關方案陸續成熟,採用者也逐漸增加,arm 終於在今年 2 月底推出 Project Trillium,結合開發環境、演算法與各大主流機器學習框架,要布局從終端到雲端所有 AI 應用開發生態。

為什麼 arm 要在這個時間點推出他們自己的AI方案?

首先,各家使用的 AI 方案架構方面都有不小落差,且應用的兼容性可能也存在些問題,雖然都支持類似的框架,但畢竟沒有一個標準的 AI 計算介面存在,在此情況下,應用開發商若要開發各類行應用,就必須針對不同廠商的設備個別支持,如此曠日廢時,且可能會受限於不同架構的性能落差而使得應用的表現不如預期。

其次,開發獨家的 AI 加速架構代價並不低,且除了要考慮到所採用的 IP 來源的可擴展性、框架支持廣度、是否提供標準介面,相關演算法也不是朝夕之間就可研發出來,如果能夠提供一個可利用既有架構便可達到接近完全硬體處理 AI 算力,不需支出額外的授權成本,也不需要改變既有的晶元設計布局,那麼對市場而言,其吸引力自然是不言可喻。

圖丨 Ian Smythe

arm 資深市場行銷總監 Ian Smythe 對此表示,他們正在做的就是提供業界更多的選擇,其他使用自有 AI 計算架構的客戶也同樣能夠得到好處。

但 DT 君認為這是個排他性很強的選擇,以包含軟硬體等大生態逼迫客戶放棄未來開發自有 AI 晶元的打算,確保能持續主導整體計算架構發展走勢,未來甚至要挑戰伺服器等其他專業 AI 計算架構——arm 這步棋將為整個 AI 計算生態,尤其是相關晶元產業帶來另一波榮景,還是一次大滅絕?恐怕是整個業界目前最關切的。

挑戰高端 AI 計算,直取 NVIDIA 主場,甚至構築排他性生態

arm 要用針對嵌入式市場的小 GPU 來挑戰 NVIDIA?乍看之下不大可能,但 Ian 對 DT 君展示了其 AI 計算方案的能效表現,以類似規模的架構來比較,其實 arm 的方案在能效方面都還是有一定的優勢存在,加上 arm 架構原生就支持高效率的推理工作,配合已經相當成熟的開發套件,可以支持大多數主流機器學習框架,相信對開發者可具相當的吸引力。

當然,要以絕對性能對抗 NVIDIA,DT 君認為短期間之內還不大現實,但若以能耗、配合 arm 在邊緣計算以及終端上的 AI 算布局構成完整的生態鏈,那麼要在數據中心市場吃下一定的佔比,也不是不可能的事情。

在終端市場方面,前兩年AI熱潮中,各家新創產業紛紛推出自有的AI晶元,尤其是主流CV方案,市場上可說群雄並起,連過去止做低價主控的公司也都陸續搶進,打造自己的AI方案。

不過,在關鍵的演算法方面,多數公司其實都還是倚賴第三方,真正創造自有演算法的比例其實很少,就連AI計算架構也可能都是直接取用現成的第三方方案,這些方案的支持完整性不一,且因為技術來源分散,很難構成,或分享來自一套共通的生態環境的優點,基本上就是處於單打獨鬥的窘境。

然而,arm 這次的作法則是建立了一套從端到雲的完整體系,不論客戶在市場中的定位如何,都能從 arm 拿到相對應的方案,且不只是硬體,就連開發工具包以及演算法都能提供。DT 君認為這將造成相當深遠的影響,個別的 AI 晶元架構 IP 或者是演算法 IP 供貨商會先受到一定的衝擊,甚或可能會被逐步逼出市場。

諸如寒武紀、深鑒等想要打進主流消費AI方案的供貨商恐怕將成為首波受害者,arm自家方案擁有強大的生態優勢,即便絕對性能可能還稍微落後寒武紀或深鑒的方案,但憑藉極低的導入門坎,及對主流演算法模型的完整支持,且額外增加的成本極低,客戶會如何選擇,其實已經不言可喻。

arm 方面也在說明會上表示,其架構將可承載不同的演算法來進行各種 AI 應用,演算法來源不限定。然而,arm 自己也在發展相關演算法,表面上的說法是要提供客戶更多樣化的選擇,但真正的盤算,恐怕是要對整個 AI 市場進行一次大清洗,並替換成自己的生態,藉此擴大 arm 的市場格局,走向真正的架構霸主之路。

畢竟從 arm 生態的歷史發展中,以嵌入式 GPU 為例,當初 arm 和 Imagination 兩家英國 IP 公司關係緊密,相互提攜,但後來 arm 決定要發展自有的 GPU 架構後,沒錯,市場有了更多的選擇,但事實上,arm 依靠包裝行銷與生態的優勢,將 Imagination 打到落花流水。除少數如高通的 Andreno 自有 GPU 架構較不受影響外,目前嵌入式 GPU 的 IP 授權產業幾乎也都被arm 通吃,不復見以往競爭激烈的局面。

後續 arm 也進入多媒體與顯示相關方案的 IP 市場,同樣對相關產業的技術供應商造成相當大的影響,雖然擴大產品布局是 arm 避免在特定領域掉隊,繼而維持其市場霸業的最有效方式,而被其策略布局影響到的對手或客戶可能就不是那麼樂意了。

當然,arm 的客戶永遠都有得選擇,但依附在 arm生態之下的第三方 IP 供應商就未必了。

早期從固定功能軟體著手,後續補齊硬體與整體開發生態

實際上,如果從當年 arm 進入 GPU 市場對市場所帶來的影響觀察,上面所描述結果或許就不那麼讓人驚訝了。「循序漸進」是arm近年來布局 AI 生態時很重要的遵循方向,Ian 向 DT 君說道。

其實,arm 早在 NPU 等 AI 加速晶元概念出現之前,就已經搶先在手機以及其他聯網終端產品中引入 AI 計算概念,而且值得一提的是,雖然 arm 是提供計算架構硬體基礎核心的公司,演算法與軟體生態環境通常都是跟著新架構發展,但是在 AI 生態方面,卻反其道而行,演算法和軟體先行,後續才逐漸補上硬體設計與開發環境。

以華為公司的手機為例,其實雖然消費大眾被其在 Kirin 970 中採用的 NPU 設計抓住了眼光,認為此類硬體 AI 計算架構算是開創了手機產品的另一個新時代,但事實上,早在 Kirin 960 時,ARM 就已經提供華為不少關於物件偵測、語音加速以及照相處理等演算法與 AI 軟體功能,妥善利用了當時 arm 晶元基於 GPU 與 CPU 合作而來的 AI 計算能力,雖然沒有真正的硬體加速方案,但在效率上已經相當受肯定。

圖丨Kirin 970

Ian 對 DT 君表示,早期移動終端對 AI 概念還不明顯,因此 arm 先提供功能有限的軟體方案讓市場嘗鮮,等到市場看出更多應用潛力,不滿於現有的軟硬體搭配時,arm 再推出更完整的硬體設計與開發環境,承接這些想要創造更多可性的客戶的需求。

市場的需求總是會一直前進,且應用也會越趨複雜,Mate 10 的 AI 場景攝影功能由於進行了更多、更複雜的計算,華為因此選擇在晶元中集成了專屬的 AI 計算晶元,也就是 NPU,期望在增加 AI 計算複雜度的同時也要能改善性能表現,蘋果過去的 AI 方案主要也是基於 GPU 計算,但同樣在其 A11 晶元中引入架構類似的神經網路晶元。

由於 AI 技術的革新速度超乎預期,眾多晶元客戶心中也開始有了疑惑:arm 的 AI 方案呢?Ian 對 DT 君表示,其實 arm 早在 2016 年發表基於 Bifrsost 架構的 Mali G-71 時,就已經希望藉由該架構來推動 AI 在終端以及邊緣計算的應用場景,但當初可和主流 AI、機器學習框架緊密結合的整套軟體開發環境還不夠成熟,且 arm 也不希望揠苗助長,推出半生不熟的環境搞壞自己名聲,因此在 Project Trillium 發布前,基本上也都沒有太多動作。

這次雖然推出通用的 AI 開發平台,但首波針對的還是基於計算機視覺 (CV) 為主的 OD(object detection) 處理設計平台,以及機器學習等市場相對較成熟,且應用較廣的方。Ian 進一步表示,基於 Project Trillium 開發平台的 AI 應用將可針對幾乎所有類型的 AI 應用,小到 IoT 設備,大至數據中心,只要是機器學習相關的應用開發需求,都可基於同一套可變規模的架構發展出來。

以 GPU 算力為核心,結合 CPU 生態優勢,首波布局邊緣計算

GPU 計算可說是 arm 未來要發展 AI 計算生態的主要角色,從第一代 BiFrost 架構開始,就已經針對 AI 計算所需要的各種場景,包含機器學習中的訓練,以及推理加速等進行優化。

我們都知道,過去數據中心以及超算架構中所使用的 GPU 架構,其實只能應對訓練,但是訓練完,要利用模型推理的工作處理上,效率非常差,這主要是因為傳統 GPGPU 擅長計算 32bit 甚至 64bit 的高精度整數或浮點計算,但是在深度學習所需要的數據處理而言,其實不需要這麼高的精度,大部分場景下甚至只需要低精度的整數計算即可。目前,包含 TPU、NPU 等各種專用計算硬體都把 8bit 精度計算當作標準的數據處理寬度,也因此其每秒操作性能都可達數個 TeraFlops。

arm 早在數年前投入研發機器學習架構時,就已經把 8bit 寬度數據處理能力列為標準,不只在 GPU,CPU 中的 NEON DSP 單元也同樣支持 8bit 寬度數據計算,因此基於 arm 機器學習平台,不僅可充分應對機器學習的訓練需求,推理能力也能充分獲得滿足。

圖丨arm推出面向機器學習和神經網路的Project Trillium

雖因這樣的設計,過去 arm 的 Mali GPU 在晶元面積及功耗表現稍弱,但隨著晶元工藝的改進,以及各種 AI 計算需求的帶動,其設計的價值也逐漸被顯現出來。

arm 的 AI 計算平台規劃同時也包括了數據中心等應用。Ian 對此表示,由於數據中心等大型機器學習平台數據流通量極大,如果只是單純把目前針對移動平台開發的 arm 架構規模等比例放大,核心算力雖足夠與一線平台相提並論,但數據傳輸能力就會成為短板,即便核心算力再強大,數據來不及存取,那麼晶元也只能空轉,平白浪費能源。

因此,arm 初期還是會以數據需求量較小的終端和邊緣計算應用為主,著重在小規模的計算應用,2018 年稍晚就會推出新版架構,補足匯流排與帶寬方面的缺點,正式向目前主流的數據中心應用挑戰。


推薦閱讀:

人工繁殖
【實用技術】豐田車系部分車型保養燈人工歸零及遙控設定方法
「機器」與「人」如何同步轉型——三問「無人工廠」
人工智慧的發展 可能會加劇人類的不平等·每日商報
人工半肩、全肩、反肩,你怎樣選擇?

TAG:人工智慧 | 智慧 | 生態 | 清洗 | AI晶元 | 人工 |