【半導體】人工智慧晶元——新架構改變世界20160929

  獨角獸VIP會員群招募  產業研究第一社群,每周行業專家及明星分析師線上路演,分享新興行業的最新投資機會,不定期線下產業沙龍,北上廣深等地閉門會。加入會員即可獲得原價3999元各行業及個股深度報告。申請加入需加微信:itouzi6(二維碼在文末),加入需備註:姓名+公司+職位  作者|農冰立 陳俊傑  來源|天風證券  編輯|獨角獸智庫  人工智慧倒逼晶元底層的真正變革  人類精密製造領域(半導體製造是目前為止人類製造領域的最巔峰)遇到硅基極限的挑戰,摩爾定律的放緩似乎預示著底層架構上的晶元性能的再提升已經出現瓶頸,而數據量的增長卻呈現指數型的爆發,兩者之間的不匹配勢必會帶來技術和產業上的變革升級。變革從底層架構開始。計算的體系處於碎片化引發架構變革。數據的擴張遠大於處理器性能的擴張,依靠處理器性能在摩爾定律推動下的提升的單極世界已經崩潰,處理器性能提升的速度並不足以滿足AI所需的應用程序的需求。大量數據消耗的數字運算能力比幾年前所有數據中心加起來還要多。基於馮諾伊曼架構的拓撲結構已經持續了很多年並沒有本質上的變化。而人工智慧帶來的,是在摩爾定律放緩維度下引發晶元底層架構重構的變革。有可能引發的是一次超越以往任何時代的科技革命。  基於摩爾定律的機器時代的架構——從Wintel到AA  馮諾伊曼架構帶來了計算體系的建立並通過Intel實現了最大化;ARM通過共享IP的商業模式帶來了更開放的生態體系,實現了軟硬體的結合延伸了人類的觸角觀察Intel和ARM的黃金十年,站在現在時點往後看,我們提出以下觀點:過去十年以下游的應用驅動設計公司的成長轉換為由設計公司主導應用正在發生。從需求層面看企業成長空間。類似90年代的PC和10年的智能手機帶來的億級大空間增量市場將很容易推動企業的快速增長。設計企業能夠在成長軌跡上實現跨越式突破的可能性來自於賽道的選擇。但站在現在時點看,人工智慧是確定性的方向,在所有已有領域的人工智慧滲透,都將極大的改變人類的生活。處於最前沿的晶元公司的革新正在以此而發生,重新定義底層架構的晶元,從上游推動行業的變革。在並沒有具體應用場景爆發之前已經給予晶元公司充分的高估值就是認可設計公司的價值  人工智慧晶元——新架構的異軍突起  觀察人工智慧系統的搭建,以目前的架構而言,主要是以各種加速器來實現深度學習演算法。討論各種加速器的形式和實現,並探討加速器變革下引發的行業深層次轉變。認為人工智慧晶元將有可能在摩爾定律放緩維度下引發晶元底層架構重構的變革。  從2個維度測算人工智慧晶元空間  從兩個維度討論人工智慧晶元的市場空間測算。維度一從人工智慧總市場規模空間反推晶元,維度二詳細拆分雲端/移動端所需人工智慧加速器的BOM進而推斷人工智慧晶元市場空間。二個維度印證到2020年人工智慧晶元將達到百億美元市場。  重點標的:Intel,台積電,NVIDIA,全志科技,富瀚微,北京君正  風險提示:人工智慧晶元發展不達預期  1.人工智慧倒逼晶元底層的真正變革  研究人類的科技發展史,發現科技的進步速度呈現指數型加速態勢。尤其在1950年以後進入晶元時代,摩爾定律推動下的每18個月「晶元晶體管同比例縮小一半」帶來的性能提升以倍數計。每一次加速的過程推動,都引發了產業的深層次變革,帶動從底層到系統的階躍。我們本篇報告將著重從底層晶元角度出發,探討人工智慧晶元帶來的深層次變革。

  然而時至今日,人類精密製造領域(半導體製造是目前為止人類製造領域的最巔峰)遇到硅基極限的挑戰,摩爾定律的放緩似乎預示著底層架構上的晶元性能的再提升已經出現瓶頸,而數據量的增長卻呈現指數型的爆發,兩者之間的不匹配勢必會帶來技術和產業上的變革升級。

  變革從底層架構開始  計算晶元的架構50多年來都沒有發生過本質上的變化,請注意計算架構的決定是資源的組織形式。而傳統的馮諾伊曼是採取控制流架構,採用的是線性的記憶體和布爾函數作為基線計算操作。處理器的架構基於流水線串列處理的機制建立,存儲器和處理器分離,流水線的計算過程可以分解為取指令,執行,取數據,數據存儲,依次循環。依靠整個串列的過程,邏輯清晰,但性能的提升通過兩種方式,一是摩爾定律下推動下晶體管數量的增多實現性能倍增;二是通過並行多個晶元核來實現。無論何種方式,本質上都是線性的性能擴張。  人工智慧晶元根據數據流的碎片化和分散式而採取神經網路計算範式,特徵在於分散式的表示和激活模式。變數由疊加在共享物理資源上的向量表示,並且通過神經元的激活來進行計算。以神經元架構實現深度學習人工智慧的臨界點實現主要原因在於:數據量的激增和計算機能力/成本。  深度學習以神經元為架構。從單一的神經元,再到簡單的神經網路,到一個用於語音識別的深層神經網路。層次間的複雜度呈幾何倍數的遞增。數據量的激增要求的就是晶元計算能力的提升。

  計算的體系處於碎片化引發架構變革。數據的擴張遠大於處理器性能的擴張,依靠處理器性能在摩爾定律推動下的提升的單極世界已經崩潰,處理器性能提升的速度並不足以滿足AI所需的應用程序的需求。大量數據消耗的數字運算能力比幾年前所有數據中心加起來還要多。  我們在下一章將觀察歷史上兩次重要的電子產業變革,試圖證明無論是PC時代的「Wintel」還是智能手機時代的「ARM+Android」,都還無法擺離線器本身的桎梏。換句話說,截止於現階段的一切技術和應用,基於馮諾伊曼架構的拓撲結構已經持續了很多年並沒有本質上的變化。而人工智慧帶來的,是在摩爾定律放緩維度下引發晶元底層架構重構的變革。有可能引發的是一次超越以往任何時代的科技革命。  2.基於摩爾定律的機器時代的架構——從Wintel到AA  本章我們重點討論兩次晶元架構變化引發的產業變革和應用爆發。Intel與Windows結合構建PC生態,本質上誕生了軟硬體結合的機器時代。而在其基礎上的延升,2010後蘋果帶來的智能手機引發的ARM與Android生態,將機器與人的結合拓展到了移動端。我們回顧歷史上的晶元架構歷史,認為馮諾伊曼架構帶來了計算體系的建立並通過Intel實現了最大化;ARM通過共享IP的商業模式帶來了更開放的生態體系,實現了軟硬體的結合延伸了人類的觸角。

  觀察Intel和ARM的黃金十年,站在現在時點往後看,我們提出以下觀點:過去十年以下游的應用驅動設計公司的成長轉換為由設計公司主導應用正在發生。從需求層面看企業成長空間。類似90年代的PC和10年的智能手機帶來的億級大空間增量市場將很容易推動企業的快速增長。設計企業能夠在成長軌跡上實現跨越式突破的可能性來自於賽道的選擇。但站在現在時點看,人工智慧是確定性的方向,在所有已有領域的人工智慧滲透,都將極大的改變人類的生活。處於最前沿的晶元公司的革新正在以此而發生,重新定義底層架構的晶元,從上游推動行業的變革。在並沒有具體應用場景爆發之前已經給予晶元公司充分的高估值就是認可設計公司的價值。  2.1.Intel——PC時代的王者榮耀  本節重點闡述Intel公司在X86時代的晶元架構產品以及此架構下公司以及行業的變化。  2.1.1.Intel公司簡介  Intel是一家成立於1968年的半導體製造公司,總部位於美國加州。隨著個人電腦的普及和全球計算機工業的日益發展,公司逐漸發展成為全球最大的微處理器及相關零件的供應商。公司在2016年實現營業收入594億美元,世界500強排名158。  公司分為PC客戶端部門、數據中心部門、物聯網、移動及通訊部門、軟體及服務運營,其他還有筆記本部門、新設備部門及NVM解決方案部門。公司主要營業收入來自於PC客戶部門,其次是數據中心部門。公司的主要產品X86處理器佔主導地位,接近90%,包括蘋果在2006年放棄PowerPC改用英特爾的x86processors。

  Intel是第一家推出x86架構處理器的公司。Intel從8086開始,286、386、486、586、P1、P2、P3、P4都用的同一種CPU架構,統稱X86。大多數英特爾處理器都是基於x86指令集,被稱為x86微處理器。指令集是微處理器可以遵循的基本命令集,它本質上是微處理器的晶元級「語言」。英特爾擁有x86架構的知識產權和給AMD和Via做處理器的許可權。

  2.1.2.Intel帶來的PC行業的市場規模變革和產業變化  回顧Intel90年代至今發展歷程,清晰看到90年代是Intel發展最快的階段並在2000年前後達到了峰值。顯而易見的原因是個人電腦的快速普及滲透。而遵從摩爾定律的每一代產品的推出,疊加個人電腦快速滲透的乘數效應,持續放大了企業的市值,類似於戴維斯雙擊,推動股價的一路上揚。

  馮諾伊曼架構帶來了計算體系的建立並通過Intel實現了最大化,但從本質上說,英特爾參與的是機器時代的興起和計算晶元價值體現。但時至今日,在人口紅利消散,PC滲透率達到穩定階段,依託於PC時代的處理器晶元進入了穩定常態。英特爾在總產品收入提升的情況下,PC端提供的收入增長機會停滯。處理器依靠摩爾定律不斷推經延續生命力,但在應用增長乏力的階段缺乏爆髮式的再增長。PC時代的處理器設計遵從了下游應用驅動上游晶元的實質。

  進入2010年後,英特爾的處理器增速同半導體行業基本協同一致,毫無疑問超越行業增速的增長已經需要新的應用拉動。摩爾定律支撐了10多年的快速增長再出現邊際改善的增長需要重新審視。

  2.2.ARM——開放生態下移動時代的新王加冕  本節重點闡述ARM在移動時代的晶元架構產品以及此架構下公司以及行業的變化。  2.2.1.ARM公司簡介  ARM公司是全球領先的半導體知識產權(IP)提供商,專門從事基於RISC技術晶元設計開發,並因此在數字電子產品的開發中處於核心地位。公司的前身Acorn於1978年在倫敦正式成立。1990年ARM從Acorn分拆出來。得益於20世紀90年代手機的快速發展,基於ARM技術的晶元出貨量飛速增長,並於2017年宣布正式達成1000億晶元出貨量的里程碑。2016年7月,日本軟銀以320億美元收購了ARM。  ARM本身不直接從事晶元生產,只設計IP,包括指令集架構、微處理器、圖形核心和互連架構,依靠轉讓設計許可由合作公司生產各具特色的晶元,目前它在世界範圍有超過1100個的合作夥伴。  ARM的創新型商業模式為公司帶來了豐厚的回報率:它既使得ARM技術獲得更多的第三方工具、製造、軟體的支持,又使整個系統成本降低,使產品更容易進入市場被消費者所接受,更具有競爭力。正因為ARM的IP多種多樣以及支持基於ARM的解決方案的晶元和軟體體系十分龐大,全球領先的原始設備製造商(OEM)都在廣泛使用ARM技術,因此ARM得以在智能手機、平板上一枝獨秀,全世界超過95%的智能手機都採用ARM架構。  圖12:ARM的商業模式

  2.2.2.ARM架構——重新塑造移動智能時代  ARM沿用了馮諾伊曼架構,在性能和功耗上做到了更加平衡。在底層架構沒有發生根本性變革的情況下,在架構的橫向延伸上尋找到了技術的轉換,從而實現了智能手機時代移動端的產品階躍。  處理器架構在根源上看ARM延續了X86的底層架構。正如我們在之前討論架構時指出,處理器一般分為取指令,解碼,發射,執行,寫回五個步驟。而我們說的訪存,指的是訪問數據,不是指令抓取。訪問數據的指令在前三步沒有什麼特殊,在第四步,它會被發送到存取單元,等待完成。與X86不同的是在指令集方面,ARM架構過去稱作進階精簡指令機器(AdvancedRISCMachine),更早時期被稱作AcornRISCMachine,是32位精簡指令集(RISC)處理器架構,被廣泛地使用在嵌入式系統設計中。在應用場景上有所不同。  ARM指令集架構的主要特點:一是體積小、低功耗、低成本、高性能,因此ARM處理器非常適用於移動通訊領域;二是大量使用寄存器且大多數數據操作都在寄存器中完成,指令執行速度更快;三是定址方式靈活簡單,執行效率高;四是指令長度固定,可通過多流水線方式提高處理效率。  圖13:ARM架構的發展

  2.2.3.生態的建立和商業模式的轉變——ARM重塑了行業  ARM的商業模式值得真正的關注。ARM通過授權和版稅來賺取收入。使用ARM的授權,跟據流片的次數,可以付一次流片的費用,也可以買三年內無限次流片,更可以永久買斷。晶元量產後,根據產量,會按百分比收一點版稅。Intel通過售賣自己的晶元來贏得終端客戶和市場,而ARM則是通過授權讓全世界的晶元製造商使用自家的產品來推廣。ARM的商業模式之所以在智能手機時代能夠推廣,是因為移動端的生態更為開放,自上而下的生態建立,不僅是晶元開發者,也包括軟體開發者,都被構建在生態的範圍內。  智能移動設備上包含多件ARM的處理器/技術,每當智能手機上新增一個功能時,就為新的ARM知識產權帶來了新的機會。2016年,ARM在移動應用處理器(包括智能手機、平板電腦和筆記本電腦)上,根據量的測算,其市場份額高達90%,同時ARM估計移動應用處理器規模將從2016年的200億美元增長到2025年的300億美元。

  2016年,ARM各項技術在智能手機領域都有良好的滲透率:ARMv7-A技術早已完全滲入,ARMv8-A技術滲透率達到70%,Maligraphics達到50%,高核數技術(highcorecount)則為35%.

  根據ARM的預測,到2025年為止,智能手機設備的CAGR為3%左右,而ARM在這一板塊的專利收入將會以大於5%的CAGR上漲。

  ARM的累計出貨量已經超過1000億支,2016年全年發出的基於ARM技術晶元達到177億,發貨量在過去5年時間中CAGR將近15%。ARM的增長完美契合了智能手機的快速增長10年。  圖16:基於ARM晶元的出貨量

  3.人工智慧晶元——新架構的異軍突起  觀察人工智慧系統的搭建,以目前的架構而言,主要是以各種加速器來實現深度學習演算法。本章討論各種加速器的形式和實現,並探討加速器變革下引發的行業深層次轉變,並從2個維度給出詳細的測算人工智慧晶元的潛在空間。  首先我們必須描述人工智慧對晶元的訴求,深度學習的目標是模仿人類神經網路感知外部世界的方法。深度學習演算法的實現是人工智慧晶元需要完成的任務。在演算法沒有發生質變的前提下,追根溯源,所有的加速器晶元都是為了實現演算法而設計。

  我們整理了人工智慧晶元相關的類型和產業鏈公司,傳統的晶元廠商/生態的建立者/新進入者。傳統的晶元製造廠商:Intel,Nvidia和AMD。他們的優勢在於在已有架構上對人工智慧的延伸,對於硬體的理解會優於競爭對手,但也會困頓於架構的囹圄;2上層生態的構建者進入晶元設計,比如蘋果和Google,優勢在於根據生態靈活開發定製各類ASIC,專用性強;新進入者,某些全新的架構比如神經網路晶元的寒武紀,因為是全新的市場開拓,具有後發先至的可能。新進入者的機會,因為是個全新的架構機會,將有機會誕生獨角獸。

  3.1.GPU——舊瓶裝新酒  GPU使用SIMD(單指令多數據流)來讓多個執行單元以同樣的步伐來處理不同的數據,原本用於處理圖像數據,但其離散化和分散式的特徵,以及用矩陣運算替代布爾運算適合處理深度學習所需要的非線性離散數據。作為加速器的使用,可以實現深度學習演算法。但注意的是,GPU架構依然基於馮諾伊曼。  我們以GPU和CPU的對比來說明GPU所具有的架構特點。GPU由並行計算單元和控制單元以及存儲單元構成GPU擁有大量的核(多達幾千個核)和大量的高速內存,擅長做類似圖像處理的並行計算,以矩陣的分散式形式來實現計算。同CPU不同的是,GPU的計算單元明顯增多,特別適合大規模並行計算。

  注意GPU並行計算架構,其中的流處理器組(SMs)類似一個CPU核,多個流處理器組可實現數據的同時運算。因此,GPU主要適用於在數據層呈現很高的並行特性(data-parallelism)的應用。

  CPU和GPU本身架構方式和運算目的不同導致了CPU和GPU之間的不同,主要不同點列舉如下

  深度學習是利用複雜的多級「深度」神經網路來打造一些系統,這些系統能夠從海量的未標記訓練數據中進行特徵檢測。因為GPU可以平行處理大量瑣碎信息。深度學習所依賴的是神經系統網路——與人類大腦神經高度相似的網路——而這種網路出現的目的,就是要在高速的狀態下分析海量的數據。GPU擅長的是海量數據的快速處理。  GPU的特徵決定了其特別適合做訓練。機器學習的廣泛應用:海量訓練數據的出現以及GPU計算所提供的強大而高效的並行計算。人們利用GPU來訓練這些深度神經網路,所使用的訓練集大得多,所耗費的時間大幅縮短,佔用的數據中心基礎設施也少得多。GPU還被用於運行這些機器學習訓練模型,以便在雲端進行分類和預測,從而在耗費功率更低、佔用基礎設施更少的情況下能夠支持遠比從前更大的數據量和吞吐量。與單純使用CPU的做法相比,GPU具有數以千計的計算核心、可實現10-100倍應用吞吐量,因此GPU已經成為數據科學家處理大數據的處理器。

  3.1.1.GPU晶元王者——NVIDIA  NVIDIA是一家以設計GPU晶元為主業的半導體公司,其主要產品從應用領域劃分,包括GPU(如遊戲圖形處理器GeForceGPU,深度學習處理器Tesla,圖形處理器GRID等)和TegraProcessor(用於車載,包括DRIVEPX和SHIELD)等。GPU晶元構成公司最主要收入來源,2017年上半年,GPU貢獻收入34.59億美元,占公司總收入的83%;TegraProcessor貢獻收入6.65億美元,佔比16%,其他部分貢獻收入1%。  公司業績穩定,營業收入除2013年略有下降外,2012-2016年均實現穩步增長,從42.80億美元增至69.10億美元,CAGR為10.05%;2016年公司實現凈利16.66億美元,相較於2012年的5.63億美元,CAGR達24.23%。毛利潤方面,公司毛利潤從2012年的22.26億美元增至2016年的40.63億美元,實現穩步增長,毛利率維持在50%以上。

  從收入構成來看,公司GPU晶元業務從2012年的32.52億美元增至2016年的58.22億美元,實現穩步增長,GPU業務在收入結構中佔比穩定在76%以上。

  在高性能計算機、深度學習、人工智慧等領域,NVIDIA的GPU晶元有十分關鍵的作用。NVIDIA的CUBA技術,大幅度提高了純CPU構成的超級計算機的性能。人工智慧和深度學習需要大量的浮點計算,在高性能計算領域,GPU需求在不斷增強。目前NVIDIA的高性能顯卡已經佔有84%的市場份額。亞馬遜的AWS,Facebook,Google等世界一級數據中心都需要用NVIDIA的Tesla晶元,隨著雲計算和人工智慧的不斷發展,我們認為NVIDIA的GPU晶元業務在未來將繼續維持增長態勢,我們分拆每個領域的出貨量,預計將從2016年的3602萬顆增至2018年的4175萬顆。

  3.2.FPGA——緊追GPU的步伐  FPGA是用於解決專用集成電路的一種方案。專用集成電路是為特定用戶或特定電子系統製作的集成電路。人工智慧演算法所需要的複雜並行電路的設計思路適合用FPGA實現。FPGA計算晶元布滿「邏輯單元陣列」,內部包括可配置邏輯模塊,輸入輸出模塊和內部連線三個部分,相互之間既可實現組合邏輯功能又可實現時序邏輯功能的獨立基本邏輯單元。注意FPGA與傳統馮諾伊曼架構的最大不同之處在於內存的訪問。FPGA在本質上是用硬體來實現軟體的演算法,因此在實現複雜演算法方面有一些難度。

  架構方面,FPGA擁有大量的可編程邏輯單元,可以根據客戶定製來做針對性的演算法設計。除此以外,在處理海量數據的時候,FPGA相比於CPU和GPU,獨到的優勢在於:FPGA更接近IO。換句話說,FPGA是硬體底層的架構。比如,數據採用GPU計算,它先要進入內存,並在CPU指令下拷入GPU內存,在那邊執行結束後再拷到內存被CPU繼續處理,這過程並沒有時間優勢;而使用FPGA的話,數據I/O介面進入FPGA,在裡面解幀後進行數據處理或預處理,然後通過PCIE介面送入內存讓CPU處理,一些很底層的工作已經被FPGA處理完畢了(FPGA扮演協處理器的角色),且積累到一定數量後以DMA形式傳輸到內存,以中斷通知CPU來處理,這樣效率就高得多。

  性能方面,雖然FPGA的頻率一般比CPU低,但CPU是通用處理器,做某個特定運算(如信號處理,圖像處理)可能需要很多個時鐘周期,而FPGA可以通過編程重組電路,直接生成專用電路,加上電路並行性,可能做這個特定運算只需要一個時鐘周期。比如一般CPU每次只能處理4到8個指令,在FPGA上使用數據並行的方法可以每次處理256個或者更多的指令,讓FPGA可以處理比CPU多很多的數據量。舉個例子,CPU主頻3GHz,FPGA主頻200MHz,若做某個特定運算CPU需要30個時鐘周期,FPGA只需一個,則耗時情況:CPU:30/3GHz=10ns;FPGA:1/200MHz=5ns。可以看到,FPGA做這個特定運算速度比CPU塊,能幫助加速。  FPGA相對於CPU與GPU有明顯的能耗優勢,主要有兩個原因。首先,在FPGA中沒有取指令與指令解碼操作,在Intel的CPU裡面,由於使用的是CISC架構,僅僅解碼就占整個晶元能耗的50%;在GPU裡面,取指令與解碼也消耗了10%~20%的能耗。其次,FPGA的主頻比CPU與GPU低很多,通常CPU與GPU都在1GHz到3GHz之間,而FPGA的主頻一般在500MHz以下。如此大的頻率差使得FPGA消耗的能耗遠低於CPU與GPU。

  Intel167億美元收購Altera,IBM與Xilinx的合作,都昭示著FPGA領域的變革,未來也將很快看到FPGA與個人應用和數據中心應用的整合  根據Altera內部文件顯示,Altera很早就在研發使用FPGA針對深度學習演算法的應用,並在2015年Intel的論壇上展示了產品的性能。結論是在功耗和性能上相對同等級的CPU,有較大的優勢。CPU+FPGA在人工智慧深度學習領域,將會是未來的一個重要發展方向

  3.3.ASIC——定製化的專用人工智慧晶元  ASIC(專用定製晶元)是為實現特定要求而定製的晶元,具有功耗低、可靠性高、性能高、體積小等優點,但不可編程,可擴展性不及FPGA,尤其適合適合高性能/低功耗的移動端。目前,VPU和TPU都是基於ASIC架構的設計。  我們梳理針對圖像和語音這兩方面的人工智慧定製晶元,目前主要有專用於圖像處理的VPU,以及針對語音識別的FAGA和TPU晶元。

  3.3.1.VPU——你是我的眼  VPU是專門為圖像處理和視覺處理設計的定製晶元。根據特定演算法來實現定製化的晶元架構,實現特定的圖像處理能力,提高效率,是VPU的基礎理念。集成在攝像頭中的VPU,直接對輸入圖像進行識別理解,消除了存儲器的讀寫操作。相較主流的移動處理晶元(集成GPU的SoC),VPU的尺寸更小,視覺處理運算的效能更高。  以Movidiu公司產品Myriad2為例,VPU晶元包括介面電路(Interfaces)、硬體加速器(HardwareAccelerators),矢量處理器陣列(ArrayofVectorProcessors),精簡指令集的CPU(RISCCPU)等部分。介面電路支持多路攝像頭感測器等外部設備,硬體加速器可以迅速的提高運算處理速度,矢量處理器陣列專門針對機器視覺,精簡指令集的CPU(RISCCPU)主要進行任務分配。

  VPU能夠處理各種不同的任務:利用立體攝像機的數據處理深度信息,還有來自聲納感測器的近距離、空間定位,以及用於識別和跟隨人的先進光流;它也可以成為虛擬現實、現實增強技術的核心部分,讓智能手機以及更便宜的頭戴產品達成現如今較為昂貴的系統才能完成的目標。如HTCVive,這台設備需要比較詭異的頭戴式護目鏡,還需要兩個激光盒子繪製整個空間,並追蹤用戶的運動。而裝備VPU通過移動設備或者耳機就能做到這一點;此外,具備深度學習能力的VPU,能夠在設備本地就能利用強悍的圖像識別計算,設備能夠看見和理解周圍的世界,不需要檢索雲端就能做到,避免了延遲的問題。  目前,VPU的應用市場有機器人、物聯網、智能穿戴設備、智能手機、無人駕駛、無人機等。

  結合光學,在前端實現智能處理識別運算的晶元,正在移動端不斷滲透提升。在蘋果推出帶3D感應功能的結構光方案之後,我們預計會深度推動市場在向具有人工智慧功能的特定晶元端邁進。VPU實現了在移動設備端具備PC級別的圖像處理能力。通常來說這類圖像處理晶元能耗非常高,而且也需要電腦支持,但通過VPU,成功將高級的圖像處理方案移植到移動設備中。在前端設備中引入帶有AI功能的新架構晶元將帶來移動端價值量的提升和潛在的變革。

  3.3.1.TPU——Google的野心  TPU(TensorProcessingUnit)是谷歌的張量處理器,它是一款為機器學習而定製的晶元,經過了專門深度機器學習方面的訓練,它有更高效能。

  Google對GPU,IntelXeonE5v3CPU和TPU進行了性能對比。在Google的測試中,使用64位浮點數學運算器的18核心運行在2.3GHz的HaswellXeonE5-2699v3處理器能夠處理每秒1.3TOPS的運算,並提供51GB/秒的內存帶寬;Haswell晶元功耗為145瓦,其系統(擁有256GB內存)滿載時消耗455瓦特。相比之下,TPU使用8位整數數學運算器,擁有256GB的主機內存以及32GB的內存,能夠實現34GB/秒的內存帶寬,處理速度高達92TOPS,這比Haswell提升了71倍,此外,TPU伺服器的熱功率只有384瓦。但TPU是專為Google深度學習語言TensorFlow開發的一種晶元,不具有可擴展性。

  3.4.人工神經網路晶元  從底層架構的變革角度看,最前沿的革新以深度學習原理打造的人工神經網路晶元。人工神經網路是模仿生物神經網路的計算架構的總稱,由若干人工神經元節點互連而成,神經元之間通過突觸連接。每個神經元其實是一個激勵函數,突觸則是記錄神經元間聯繫的強弱權值。  神經網路是多層的,一個神經元函數的輸入由與其相連的上一個神經元的輸出以及連接突觸權重共同決定。所謂訓練神經網路,就是通過不斷自動調整神經元之間突觸權重的過程,直到輸出結果穩定正確。然後在輸入新數據時,能夠根據當前的突觸權重計算出輸出結果。以此來實現神經網路對已有知識的「學習」。神經網路中存儲和處理是一體化的,中間計算結果化身為突觸的權重。  馮諾伊曼架構的傳統處理器處理神經網路任務時效率低下,是由其本身的架構限制決定的。馮諾伊曼架構存儲和處理分離,基本運算為算術和邏輯操作,這兩點決定了一個神經元的處理需要成百上千條指令才能完成。以AlphaGo為例,總共需要1202個CPU+176個CPU。

  3.4.1.寒武紀——真正的不同  真正打造的類腦晶元,寒武紀試圖將通過低功耗高性能的架構重塑,顛覆已有的馮諾伊曼架構,實現在移動端/雲端的加速器實現。

  從寒武紀披露的數據來看,其性能遠超GPU和CPU。

  寒武紀試圖將代表性智能演算法的處理速度和性能功耗比提升一萬倍,在移動端實時完成圖像語音和文本的理解和識別,更為重要的是通過實時訓練,還能不斷進化提升能力,真正實現超越。  圖45:終端和移動端

  4.從2個維度測算人工智慧晶元空間  我們在前二章重點討論了Intel和ARM的歷史發展,認為馮諾伊曼架構帶來了計算體系的建立並通過Intel實現了最大化;ARM通過共享IP的商業模式帶來了更開放的生態體系,實現了軟硬體的結合延伸了人類的觸角。同時我們認為人工智慧晶元將有可能在摩爾定律放緩維度下引發晶元底層架構重構的變革。  本章我們重點討論人工智慧晶元的市場空間測算,我們從兩個維度來進行估算,給出詳細的拆解。  維度一:市場規模反推晶元空間  根據Nvidia官方給出的資料統計,到2020年,由軟體、硬體、服務三者組成的人工智慧市場將達到400億美元,其中硬體佔到1/3強,為160億美元。而硬體的核心是晶元。我們估算硬體的BOM,晶元會佔到60%,晶元空間將達到96億美元。  圖46:人工智慧市場規模

  維度二:詳細拆分雲端/移動端所需人工智慧加速器的BOM  人工智慧晶元從用途來看,分為雲端加速器晶元和終端(包括智能手機、無人駕駛汽車、)智能晶元。我們基於這兩個場景,給出結論,預測至2021年,人工智慧晶元市場有望達到111億美元,CAGR達20.99%。

  雲端加速器詳細拆解  具體來看雲端方面,根據Gartner的統計,到2020年,全球雲計算市場規模將達到3834億美元,其中,雲基礎設施服務市場規模達863.5億美元。

  我們假設深度學習相關基礎設施占雲基礎設施的20%,而其中人工智慧晶元占深度學習相關硬體BOM的50%,據此,我們測算雲端方面人工智慧晶元市場規模將從2016年的32億美元增至2021年的106億美元,CAGR達21.77%。

  終端加速器市場詳細拆解  終端方面,目前人工智慧晶元主要應用領域是智能手機、無人駕駛汽車和無人機。我們假設:  1)智能手機全球出貨量年均增速3.3%,主處理器平均價格15美元,帶人工智慧晶元模塊占智能手機主處理器BOM的10%  2)帶人工智慧功能的智能手機滲透率從2018的10%提升到2020年的40%  3)無人駕駛汽車市場規模年均增速10%。因無人駕駛汽車以及其晶元市場均尚未成型,目前成本較高,我們假設晶元成本佔總成本的20%,人工智慧晶元占處理器成本的10%。據此預測終端領域人工智慧晶元的市場規模。  據此我們預測,在終端領域,至2021年,全球人工智慧晶元市場規模由2016年的3.05億美元增至5.55億美元,CAGR為10.49%。其中,智能手機市場中,人工智慧晶元由2016年的2.25億美元增至2021年的4.26億美元,CAGR為11.24%;無人駕駛汽車市場中,人工智慧晶元由2016年的0.80億美元增至2021年的1.29億美元,CAGR為8.27%。

  5.重點標的  台積電:無論是何種架構的人工智慧晶元,都是依賴於台積電最先進位程的代工工藝,在全球只有台積電能夠提供HPC(高性能計算晶元)的工藝平台上,行業的卡位優勢已然確立,確定性受益標的。  Intel:收購Altera,收購Movidius,CPU+FPGA方案,Intel在人工智慧領域的布局長遠,而通過我們的測算,伺服器端將是人工智慧晶元未來行業滲透和消耗的重點,而Intel在伺服器端已經有深厚不可撼動的優勢。  NVIDIA:目前人工智慧晶元領域的領跑者,深度學習訓練領域的唯一方案選擇。有完整的生態布局,針對雲端+汽車自動駕駛,百億美元新增市場的競爭者。  寒武紀:寒武紀試圖將代表性智能演算法的處理速度和性能功耗比提升一萬倍,在移動端實時完成圖像語音和文本的理解和識別,更為重要的是通過實時訓練,還能不斷進化提升能力,真正實現超越。  富瀚微:國內上市公司智能視頻監控領域的前端晶元方案解決商,在前端晶元集成一定的智能演算法功能處理。  北京君正:積極進入視頻監控領域的晶元方案解決商,曾經的MIPS方案晶元設計商,有晶元架構層基因,對標Movidius。  全志科技:SoC晶元方案解決商,未來能將AI演算法模塊嵌入SoC之中。


推薦閱讀:

最全集成電路、半導體晶元板塊投資標的及獨家資料(收藏帖)
韓國人眼裡的中國半導體 | 半導體行業觀察
兩岸半導體技術戰一觸即發
華商韜略丨今天,告別張忠謀!

TAG:人工智慧 | 半導體 | 世界 | 架構 | 智慧 | 改變 | 改變世界 | 人工 | 2016 |