「芯」戰爭,人工智慧晶元研發攻略 | 半導體行業觀察

在全球科技領域,人工智慧無疑是最熱門的領域。這種並不算新的應用場景將會帶動新一輪的計算革命,這也將給人工智慧晶元帶來新的需求,給半導體領域帶來新的機遇。人工智慧晶元設計的目的是從加速深度學習演算法到希望從底層結構模擬人腦來更好實現智能。目前人工智慧晶元涵蓋了三個階段:(1)基於 FPGA 的半定製、(2)針對深度學習演算法的全定製、(3)類腦計算晶元。

我們來看一下安信證券給我們科普的人工智慧晶元研發攻略。

深度學習推動新一輪計算革命

深度學習作為新一代計算模式,近年來,其所取得的前所未有的突破掀起了人工智慧新一輪發展熱潮。深度學習本質上是多層次的人工神經網路演算法,即模仿人腦的神經網路,從最基本的單元上模擬了人類大腦的運行機制。由於人類大腦的運行機制與計算機有著鮮明的不同,深度學習與傳統計算模式有非常大的差別。

大腦運行機制和目前計算機的差別

深度學習的人工神經網路演算法與傳統計算模式不同,它能夠從輸入的大量數據中自發的總結出規律,從而舉一反三,泛化至從未見過的案例中。因此,它不需要人為的提取所需解決問題的特徵或者總結規律來進行編程。人工神經網路演算法實際上是通過大量樣本數據訓練建立了輸入數據和輸出數據之間的映射關係,其最直接的應用是在分類識別方面。例如訓練樣本

的輸入是語音數據,訓練後的神經網路實現的功能就是語音識別,如果訓練樣本輸入是人臉圖像數據,訓練後實現的功能就是人臉識別。

深度學習實際上是建立輸入和輸出數據之間的映射關係

傳統計算機軟體是程序員根據所需要實現的功能原理編程,輸入至計算機運行即可,其計算過程主要體現在執行指令這個環節。而深度學習的人工神經網路演算法包含了兩個計算過程:

1、用已有的樣本數據去訓練人工神經網路;

2、用訓練好的人工神經網路去運行其他數據。

這種差別提升了對訓練數據量和並行計算能力的需求,降低了對人工理解功能原理的要求。

人工神經網路演算法與傳統計算模式的不同

根據上文的分析我們可以看到,深度學習與傳統計算模式最大的區別就是不需要編程,但需要海量數據並行運算。傳統處理器架構(包括 x86 和 ARM 等)往往需要數百甚至上千條指令才能完成一個神經元的處理,因此無法支撐深度學習的大 規模並行計算需求。

為什麼傳統計算架構無法支撐深度學習的大規模並行計算需求? 因為傳統計算架構計算資源有限。傳統計算架構一般由中央運算器(執行指令計算)、中央控制器(讓指令有序執行)、內存(存儲指令)、輸入(輸入編程指令)和輸出(輸出結果)五個部分構成,其中中央運算器和中央控制器集成一塊晶元上構成了我們今天通常所講的 CPU。

CPU 內部結構圖(僅 ALU 為主要計算模塊)

我們從 CPU 的內部結構可以看到:實質上僅單獨的 ALU 模塊(邏輯運算單元)是用來完成指令數據計算的,其他各個模塊的存在都是為了保證指令能夠一條接一條的有序執行。這種通用性結構對於傳統的編程計算模式非常適合,同時可以通過提升 CPU 主頻(提升單位時間執行指令速度)來提升計算速度。但對於並不需要太多的程序指令,卻需要海量數據運算的深度學習的計算需求,這種結構就顯得非常笨拙。尤其是在目前功耗限制下無法通過提升CPU 主頻來加快指令執行速度,這種矛盾愈發不可調和。

因此,深度學習需要更適應此類演算法的新的底層硬體來加速計算過程,也就是說,新的硬體對我們加速深度學習發揮著非常重要的作用。目前主要的方式是使用已有的 GPU、 FPGA 等通用晶元。

新計算平台生態正在建立

GPU 作為應對圖像處理需求而出現的晶元,其海量數據並行運算的能力與深度學習需求不謀而合,因此,被最先引入深度學習。

運算單元在 CPU 中佔比很少,而 GPU 中絕大部分都是運算單元

2011 年吳恩達率先將其應用於谷歌大腦中便取得驚人效果,結果表明 12 顆 NVIDIAD 的 GPU 可以提供相當於 2000 顆 CPU 的深度學習性能,之後紐約大學、多倫多大學以及瑞士人工智慧實驗室的研究人員紛紛在 GPU 上加速其深度神經網路。

英偉達 GPU 使訓練深度神經網路的速度提升了 50 倍

英偉達(Nvidia) 是全球可編程圖形處理技術的領軍企業,公司的核心產品是 GPU 處理器。英偉達通過 GPU 在深度學習中體現的出色性能迅速切入人工智慧領域,又通過打造NVIDIA CUDA 平台大大提升其編程效率、開放性和豐富性,建立了包含 CNN、 DNN、深度感知網路、 RNN、 LSTM 以及強化學習網路等演算法的平台。

英偉達迅速建立了支撐科研機構、行業巨頭和初創企業的通用 GPU 加速平台

根據英偉達公開宣布, 在短短兩年里,與 NVIDIA 在深度學習方面展開合作的企業便激增了近 35 倍,增至 3,400 多家企業,涉及醫療、生命科學、能源、金融服務、汽車、製造業以及娛樂業等多個領域。

與 NVIDIA 在深度學習方面展開合作的企業兩年激增了近35 倍

英偉達針對各類智能計算設備開發對應 GPU,使得深度學習可以滲透各種類型的智能機器

深度學習系統一方面需要利用龐大的數據對其進行訓練,另一方面系統中存在上萬個參數需要調整。 IT 巨頭開源人工智慧平台,旨在調動更多優秀的工程師共同參與發展其人工智慧系統。開放的開發平台將帶來下游應用的蓬勃發展。最典型的例子就是谷歌開源安卓平台,直接促成下游移動互聯網應用的空前繁榮。

以谷歌為例,用戶使用開源的 TensorFlow 平台訓練和導出自己所需要的人工智慧模型,然後就可直接把模型導入 TensorFlow Serving 對外提供預測類雲服務,相當於 TensorFlow 系列把整個用深度學習模型對外提供服務的方案全包了。實質上是將開源深度學習工具用戶直接變為其雲計算服務的用戶,包括阿里、亞馬遜在內的雲計算服務商都將機器學習平台嵌入其中作為增強其競爭實力和吸引更多用戶的方式。

2015 年以來,全球人工智慧頂尖巨頭均爭向開源自身最核心的人工智慧平台,各種開源深度學習框架層出不窮,其中包括: Caffe、 CNTK、 MXNet、 Neon、 TensorFlow、 Theano 和 Torch等。

各大巨頭爭相開源人工智慧平台

人工智慧催生新一代專用計算晶元

回顧計算機行業發展史,新的計算模式往往催生新的專用計算晶元。人工智慧時代新計算的強大需求,正在催生出新的專用計算晶元。

目前以深度學習為代表的人工智慧新計算需求,主要採用 GPU、 FPGA 等已有適合併行計算的通用晶元來實現加速。在產業應用沒有大規模興起之時,使用這類已有的通用晶元可以避免專門研發定製晶元(ASIC)的高投入和高風險,但是,由於這類通用晶元設計初衷並非專門針對深度學習,因而,天然存在性能、功耗等方面的瓶頸。隨著人工智慧應用規模的擴大,這類問題將日益突出:

GPU 作為圖像處理器,設計初衷是為了應對圖像處理中需要大規模並行計算。因此,其在應用於深度學習演算法時,有三個方面的局限性:

第一, 應用過程中無法充分發揮並行計算優勢。 深度學習包含訓練和應用兩個計算環節,GPU 在深度學習演算法訓練上非常高效,但在應用時一次性只能對於一張輸入圖像進行處理,並行度的優勢不能完全發揮。

第二, 硬體結構固定不具備可編程性。 深度學習演算法還未完全穩定,若深度學習演算法發生大的變化, GPU 無法像 FPGA 一樣可以靈活的配臵硬體結構;

第三, 運行深度學習演算法能效遠低於 FPGA。 學術界和產業界研究已經證明,運行深度學習演算法中實現同樣的性能, GPU 所需功耗遠大於FPGA,例如國內初創企業深鑒科技基於FPGA 平台的人工智慧晶元在同樣開發周期內相對 GPU 能效有一個數量級的提升。

另外還需要談一下FPGA,即現場可編輯門陣列,是一種新型的可編程邏輯器件。其設計初衷是為了實現半定製晶元的功能,即硬體結構可根據需要實時配臵靈活改變。 根據賽靈思報告, 目前的 FPGA市場由 Xilinx 和 Altera 主導,兩者共同佔有 85%的市場份額,其中 Altera 在 2015 年被 intel以 167 億美元收購(此交易為 intel 有史以來涉及金額最大的一次收購案例),另一家 Xilinx則選擇與 IBM 進行深度合作,背後都體現了 FPGA 在人工智慧時代的重要地位。

FPGA 應用於深度學習研究里程碑

儘管 FPGA 倍受看好,甚至新一代百度大腦也是基於 FPGA 平台研發,但其畢竟不是專門為了適用深度學習演算法而研發,實際仍然存在不少局限:

第一, 基本單元的計算能力有限。 為了實現可重構特性, FPGA 內部有大量極細粒度的基本單元,但是每個單元的計算能力(主要依靠 LUT 查找表)都遠遠低於 CPU 和 GPU 中的 ALU模塊。

FPGA 的內部結構

第二, 速度和功耗相對專用定製晶元(ASIC)仍然存在不小差距;

第三,FPGA價格較為昂貴,在規模放量的情況下單塊 FPGA的成本要遠高於專用定製晶元。

從發展趨勢上看,人工智慧定製晶元將是計算晶元發展的大方向:

第一, 定製晶元的性能提升非常明顯。 例如 NVIDIA 首款專門為深度學習從零開始設計的晶元 Tesla P100 數據處理速度是其 2014 年推出 GPU 系列的 12 倍。谷歌為機器學習定製的晶元 TPU 將硬體性能提升至相當於按照摩爾定律發展 7 年後的水平。

NVIDIA 為深度學習專門設計晶元 Tesla P100 比一年前發布的 GPU 快 12 倍

需要指出的是這種性能的飛速提升對於人工智慧的發展意義重大。中國科學院計算所研究員、寒武紀深度學習處理器晶元創始人陳雲霽博士在《中國計算機學會通訊》上撰文指出:通過設計專門的指令集、微結構、人工神經元電路、存儲層次,有可能在 3~5 年內將深度學習模型的類腦計算機的智能處理效率提升萬倍(相對於谷歌大腦)。提升萬倍的意義在於,可以把谷歌大腦這樣的深度學習超級計算機放到手機中,幫助我們本地、實時完成各種圖像、語音和文本的理解和識別;更重要的是,具備實時訓練的能力之後,就可以不間斷地通過觀察人的行為不斷提升其能力,成為我們生活中離不開的智能助理。

谷歌 TPU 相當於將硬體性能實現了按照摩爾定律需要發展 7 年時間的跨越

第二, 下游需求量足夠攤薄定製晶元投入的成本。 人工智慧的市場空間將不僅僅局限於計算機、手機等傳統計算平台,從無人駕駛汽車、無人機再到智能家居的各類家電,至少數十倍於智能手機體量的設備需要引入感知交互能力。而出於對實時性的要求以及訓練數據隱私等考慮,這些能力不可能完全依賴雲端,必須要有本地的軟硬體基礎平台支撐。僅從這一角

度考慮,人工智慧定製晶元需求量就將數十倍於智能手機。

人工智慧核心晶元下游應用極為廣泛

人工智慧將催生數十倍於智能手機的核心晶元需求

第三, 通過演算法切入人工智慧領域的公司希望通過晶元化、產品化來盈利。 目前通過演算法切入人工智慧領域的公司很多,包括採用語音識別、圖像識別、 ADAS(高級駕駛輔助系統)等演算法的公司。由於它們提供的都是高頻次、基礎性的功能服務,因此,僅僅通過演算法來實現商業盈利往往會遇到瓶頸。

Mobileye 發布第四代 ADAS 視覺處理器

通過將各自人工智慧核心演算法晶元化、產品化,則不但提升了原有性能,同時也有望為商業盈利鋪平道路。目前包括 Mobileye、商湯科技、地平線機器人等著名人工智慧公司都在進行核心演算法晶元化的工作。

地平線機器人正在打造深度學習本地化晶元

目前為人工智慧專門定製晶元的大潮已經開始逐步顯露,英偉達在今年宣布研發投入超過 20億美元用於深度學習專用晶元,而谷歌為深度學習定製的 TPU 晶元甚至已經秘密運行一年,該晶元直接支撐了震驚全球的人機圍棋大戰。

我國的寒武紀晶元也計劃於今年開始產業化。 人機圍棋大戰中的谷歌「阿爾法狗」(AlphaGo)使用了約 170 個圖形處理器(GPU)和 1200 個中央處理器(CPU),這些設備需要佔用一個機房,還要配備大功率的空調,以及多名專家進行系統維護。 AlphaGo 目前用的晶元數量,將來如果換成中國人研製的「寒武紀」架構的晶元,估計一個小盒子就全裝下了。這意味著「阿爾法狗」將可以跑得更快些。人工智慧專用晶元的湧現表明從晶元層面開啟的新一輪計算模式變革拉開帷幕,是人工智慧產業正式走向成熟的拐點。

人工智慧晶元發展路線圖

設計晶元的目的是從加速深度學習演算法到希望從底層結構模擬人腦來更好實現智能。目前人工智慧晶元涵蓋了基於 FPGA 的半定製、針對深度學習演算法的全定製、類腦計算晶元三個階段。

人工智慧晶元發展階段

(一)基於 FPGA 的半定製人工智慧晶元

在晶元需求還未成規模、深度學習演算法暫未穩定需要不斷迭代改進的情況下,利用具備可重構特性的 FPGA 晶元來實現半定製的人工智慧晶元是最佳選擇。

這類晶元中的傑出代表是國內初創公司深鑒科技,該公司設計了「深度學習處理單元」(Deep Processing Unit, DPU)的晶元,希望以 ASIC 級別的功耗來達到優於 GPU 的性能,其第一批產品就是基於 FPGA 平台。這種半定製晶元雖然依託於 FPGA 平台,但是利用抽象出了指令集與編譯器,可以快速開發、快速迭代,與專用的 FPGA 加速器產品相比,也具有非常明顯的優勢。

深鑒科技 FPGA 平台 DPU 產品開發板

(二)針對深度學習演算法的全定製人工智慧晶元

這類晶元是完全採用 ASIC 設計方法全定製,性能、功耗和面積等指標面向深度學習演算法都做到了最優。谷歌的 TPU 晶元、我國中科院計算所的寒武紀深度學習處理器晶元就是這類晶元的典型代表。

寒武紀在國際上開創了深度學習處理器方向

以寒武紀處理器為例,目前寒武紀系列已包含三種原型處理器結構:寒武紀 1 號(英文名DianNao,面向神經網路的原型處理器結構)、寒武紀 2 號(英文名 DaDianNao,面向大規模神經網路)、寒武紀 3 號(英文名 PuDianNao,面向多種深度學習演算法)。

寒武紀晶元計劃於今年內實現產業化

其中寒武紀 2 號在 28nm 工藝下主頻為 606MHz,面積 67.7 mm2,功耗約 16W。其單晶元性能超過了主流 GPU 的 21 倍,而能耗僅為主流 GPU 的 1/330。 64 晶元組成的高效能計算系統較主流 GPU 的性能提升甚至可達 450 倍,但總能耗僅為 1/150。

(三)類腦計算晶元

這類晶元的設計目的不再局限於僅僅加速深度學習演算法,而是在晶元基本結構甚至器件層面上希望能夠開發出新的類腦計算機體系結構,比如會採用憶阻器和 ReRAM 等新器件來提高存儲密度。這類晶元的研究離成為市場上可以大規模廣泛使用的成熟技術還有很大的差距,甚至有很大的風險,但是長期來看類腦晶元有可能會帶來計算體系的革命。

這類晶元的典型代表是 IBM 的 Truenorh 晶元。TrueNorth 處理器由 54 億個連結晶體管組成,構成了包含 100 萬個數字神經元陣列,這些神經元又可通過 2.56 億個電突觸彼此通信。

Truenorh 晶元集成神經元數目迅速增長

該晶元採用跟傳統馮諾依曼不一樣的結構,將內存、處理器單元和通信部件完全集成在一起,因此信息的處理完全在本地進行,而且由於本地處理的數據量並不大,傳統計算機內存與 CPU之間的瓶頸不復存在。同時神經元之間可以方便快捷地相互溝通,只要接收到其他神經元發過來的脈衝(動作電位),這些神經元就會同時做動作實現事件驅動的非同步電路特性。由於不需要同步時鐘該晶元功耗極低: 16 個 TrueNorth 晶元的功耗僅為 2.5 瓦,僅與平板電腦相當。

美國勞倫斯利弗莫爾國家實驗室一台價值 100 萬美元的超級計算機中使用了 16 顆 Truenorh 晶元

類腦計算晶元市場空間巨大。 根據 Markets- and-Markets 預測,包含消費終端的類腦計算晶元市場將在 2022 年以前達到千億美元的規模,其中消費終端是最大市場,佔整體 98.17%,,其他需求包括工業檢測、航空、軍事與國防等領域。

2022 年類腦計算晶元市場份額預測

全球知名晶元公司的類腦晶元

核心晶元是人工智慧時代的戰略制高點

核心晶元將決定一個新的計算時代的基礎架構和未來生態,因此,谷歌、微軟、 IBM、 Facebook等全球 IT 巨頭都投巨資加速人工智慧核心晶元的研發,旨在搶佔新計算時代的戰略制高點,掌控人工智慧時代主導權。

回顧在 PC 和移動互聯網時代分別處於霸主地位的 X86 架構和 ARM 架構的發展歷程,可以看到:從源頭上掌控核心晶元架構取得先發優勢,對於取得一個新計算時代主導權有多麼重要。

計算機指令集架構可以分為複雜指令集(CISC)和精簡指令集(RISC)兩種。 PC 時代處於壟斷地位的 X86 架構就是屬於複雜指令集。複雜指令集在處理複雜指令上具備先天優勢,但同時也存在設計複雜、難以流水作業、高功耗的問題。

PC 處理器市場格局(其中 Intel、 AMD、威盛均是X86 架構)

實質上精簡指令集正是上世紀 80 年代針對複雜指令集缺點設計出來的,學術界當時一致認為精簡指令集更為領先。但是 PC 時代的晶元霸主英特爾早在精簡指令集發明之前的處理器晶元 8086 就採用了複雜指令集的 X86架構,在後續的 80286、 80386 等系列處理器晶元繼續採用兼容的 X86 架構,同時加強每一代處理器對上層軟體的兼容,並與微軟建立了 Wintel 聯盟牢牢支撐整個 PC 的應用生態。

WINTEL 聯盟壟斷了 PC 市場的計算平台

習慣了使用英特爾 X86 處理器的軟體公司不再願意使用其他架構的處理器,即使它們的性能更好。其結果就是:上世紀 90 年代幾乎只有英特爾一家公司堅持開發 X86 架構的處理器,卻戰勝了 MIPS、 PowerPC、 IBM、 HP、 DEC 等及其他各家精簡指令集的處理器, X86 架構牢牢掌控了 PC 時代的主導權。

移動互聯網時代,英特爾並沒有延續其在 PC 時代的優勢,而是一家此前名不見經傳的英國晶元設計公司 ARM 成為壟斷移動處理器晶元的新霸主。

ARM 授權晶元設計 IP 的商業模式

ARM 的成功有三方面的原因:

第一, ARM 在 20 世紀 90 年代初為蘋果公司設計 CPU 起家(ARM 是由 Acorn、蘋果和VLSI Technology 聯合出資成立) ,因而其在智能手機革命開啟之初就進入了這個快速成長的市場,與蘋果的關係奠定了其架構在移動處理器市場先發優勢;

第二, ARM 處理器隸屬於精簡指令架構,相對於複雜指令架構的 X86 處理器天然具備低功耗優勢,而這在移動市場極為重要;

第三, ARM 創造了只授權核心設計 IP 不生產晶元的商業模式,迅速拉攏各大晶元巨頭建立自己的生態聯盟。

移動處理器市場份額(高通、聯發科、蘋果、三星等均採用 ARM 授權的架構)

ARM 的成功給我們的啟示是:

一、新的計算時代來臨之時往往是新興企業彎道超車的絕佳機遇,再強勢的傳統巨頭也難免面臨重新洗牌的局面;

ARM 佔據嵌入式處理器 IP 超過一半份額,其中佔據移動手機處理器超過 90%份額

二、把握核心晶元架構的先發優勢,在此基礎上迅速建立生態體系是在一個新計算變革時代來臨時的成功關鍵。

三、目前使用的 GPU、 FPGA 均非人工智慧定製晶元,天然存在局限性,人工智慧專用晶元對於巨頭和初創企業都同一起跑線的藍海。

ARM 各系列移動處理器銷售量,其中超過一半銷售量是在 2009 年移動互聯網時代興起後取得

我們正處在從信息時代邁向智能時代的重要拐點,人工智慧將推動新一輪計算革命,而晶元行業作為產業最上游,是人工智慧時代的開路先鋒:一方面具備行業先導指標的意義,另一方面也是在人工智慧產業發展初期率先啟動、彈性最大的行業。信息時代產生了英特爾這樣的千億市值的晶元巨頭,擁有更大應用市場的人工智慧時代必將孕育出更多的「英特爾」。

今天是《半導體行業觀察》為您分享的第1425期內容,歡迎關注。

Reading

推薦閱讀(點擊文章標題,直接閱讀)

2027年的iPhone長啥樣?

指紋識別技術的生與死

復盤MIPS,為什麼成不了另一個ARM

關注微信公眾號 半導體行業觀察,後台回復關鍵詞獲取更多內容

回復 科普,看更多半導體行業科普類的文章

回復 DRAM,看更多DRAM的文章

回復 光刻,看更多光刻技術相關文章

回復 濾波器,看更多濾波器相關文章

回復 全面屏,看更多全面屏相關文章

回復 雙攝,看更多關於手機雙攝像頭的文章

回復 製造,看更多關於晶元製造的文章

回復 人工智慧,看《零基礎看懂全球AI晶元:詳解「xPU」》

回復 展會,看《2017最新半導體展會會議日曆》

回復 投稿,看《如何成為「半導體行業觀察」的一員 》

回復 搜索,還能輕鬆找到其他你感興趣的文章!


推薦閱讀:

致中國半導體工作者的風雨60年 | 半導體行業觀察
AI晶元的幾種選擇,你更看好哪個?|半導體行業觀察
月利潤2億,這家公司是如何做到的 | 半導體行業觀察
EUV光刻究竟難在哪裡?看完本文你就明白了

TAG:芯片设计 | 半导体 | 半导体产业 |