深度學習晶元?

目前做深度學習晶元的機構和公司有哪些?目前的深度學習晶元能夠實時處理嗎?譬如手機晶元能夠做到嗎?而不是通過數據中心操作深度學習將結果返回造成大量的時延。如果目前不能,那主要的坑是什麼呢?又有哪些公司在嘗試?


可參考知乎問題:目前有多家廠家投入Deep Learning深度學習處理器研發,以當前信息預計哪家會最先投入市場? - 機器學習

晶元巨頭和創業公司競相角逐:人工智慧晶元市場一片火熱

=====================================

鑒於最近業界新聞很多,也順便在這裡收集整理一下新聞

- Intel收購Nervana, Movidius

- Xilinx收購Auviz Systems

=====================================

中國科學院計算技術研究所 - 「寒武紀」

學術文章:

- DianNaoYu: An Instruction Set Architecture for Neural Networks, ISCA"16

知乎問題:

- 中科院說的深度學習指令集diannaoyu到底是什麼? - 人工智慧

相關報道:

- 中科院計算所提出國際上首個深度學習指令集DianNaoYu----中國科學院計算技術研究所

- 深度學習進入晶元領域,揭秘寒武紀神經網路處理器

- 開啟人工智慧的「寒武紀」

- 【中國科學報】打造「三駕馬車」 發展「中國芯」----中國科學院重大科技任務局

- 「寒武紀」晶元有望明年面世

MIT - Eyeriss -
Eyeriss Project

學術文章:

- Eyeriss: A Spatial Architecture for Energy-Efficient Dataflow for Convolutional Neural Networks, ISCA"16

相關報道:

- MIT研發168核心深度學習晶元Eyeriss-EDA/IP/IC設計

- A Deep Learning AI Chip for Your Phone

- Energy-friendly chip can perform powerful artificial-intelligence tasks

- A new MIT computer chip could allow your smartphone to do complex AI tasks

- MIT"s 168-core chip could give big brains to mobile devices and robots

- Chip promises brain-like AI in your mobile devices

Google - TPU

- https://cloudplatform.googleblog.com/2016/05/Google-supercharges-machine-learning-tasks-with-custom-chip.html

- https://www.tensorflow.org/

學術文章:

- TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems, http://arXiv.org

相關報道:

- 相較傳統CPU,Google的這款AI晶元能帶來什麼?

- Google built a processor just for AI

- Google reveals the mysterious custom hardware that powers AlphaGo

- Google』s Tensor Processing Unit: What We Know

NVIDIA - Pascal架構Tesla晶元(P100, P4, P40)

相關報道:

- NVIDIA人工智慧晶元專註深度學習 集成超過15億個晶體管

- NVIDIA Announces PCI Express Tesla P100: Shipping In Q4』16

- Nvidia monstrous Pascal GPU-powered Tesla P100 is getting a PCI-E version, too

- New NVIDIA Pascal GPUs Accelerate Deep Learning Inference

NVIDIA - Tegra X1 - DRIVE PX平台

這款晶元針對自動駕駛技術,將最先應用於智能汽車領域。

相關報道:

- NVIDIA Announces DRIVE PX 2

IBM - TrueNorth - IBM Research: Brain-inspired Chip

學術文章:

- A Million Spiking-Neuron Integrated Circuit with a Scalable Communication Network and Interface, Science 08 Aug 2014: Vol. 345, Issue 6197, pp. 668-673

相關報道:

- TrueNorth:IBM的百萬神經元類人腦晶元_36氪

- IBM wires up "neuromorphic" chips like a rodent"s brain

- How IBM Got Brainlike Efficiency From the TrueNorth Chip

Movidius - Myriad 2 - Vision Processing Unit

學術文章:

- Myriad 2: Eye of the Computational Vision Storm, 2014 IEEE Hot Chips 26 Symposium (HCS)

相關報道:

- Movidius wants to change the way your smartphone sees the world

- This chip is bringing intelligent computer vision to the world of thermal cameras

- Google"s latest partnership could make smartphones smarter

- The revolutionary chipmaker behind Google』s project Tango is now powering DJI』s autonomous drone

- Artificial intelligence now fits inside a USB stick

- Movidius puts deep learning chip in a USB drive

ST意法半導體/Mobileye - EyeQ - EyeQ? - Mobileye

學術文章:

- A Computer Vision System on a Chip: a case study from the automotive domain

相關報道:

- Mobileye Bullish on Full Automation, but Pooh-Poohs Deep-Learning AI for Robocars

- Interview: Mobileye on vehicle automation and deep learning

Intel - Xeon Phi - Intel? Xeon Phi? Product Family

相關報道:

- http://www.pcworld.co.nz/article/602798/intel-tunes-its-mega-chip-machine-learning/

- Intel names its 50-core x86 co-processor family "Xeon Phi," available this year

- Intel christens its "Many Integrated Core" products Xeon Phi, eyes exascale milestone

Qualcomm - Snapdragon 820 Automotive Processor in Zeroth Platform

相關報道:

- Qualcomm"s deep learning SDK will mean more AI on your smartphone

Microsoft - Project Catapult

CEVA - CEVA?s DSP Cores for Communication, Audio, Voice, Video, Imaging and CEVA Deep Neural Network (CDNN)

=====================================

順便收集一下遠親 - 自動駕駛系統

TI - Jacinto | DRAxx

NXP - BlueBox: Autonomous Vehicle Platform|NXP

=====================================

暫時想到這麼多,之後再更


難道沒人知道我NVIDIA 的深度學習加速器DLA已經開源了嗎?文檔,代碼一應俱全。


發現一篇採用模擬電路方式來實現深度學習晶元的paper,如下:

(關注「觀芯志」專欄可下載全文)

題目:An Analog VLSI Deep Machine Learning Implementation

作者:Junjie Lu

單位:University of Tennessee - Knoxville

Abstract

Machine learning systems provide automated data processing and see a wide range of applications. Direct processing of raw high-dimensional data such as images and videos by machine learning systems is impractical both due to prohibitive power consumption and the 「curse of dimensionality,」 which makes learning tasks exponentially more difficult as imension increases. Deep machine learning (DML) mimics the hierarchical presentation of information in the human brain to achieve robust automated feature extraction, reducing the dimension of such data. However, the computational complexity of DML systems limits large-scale implementations in standard digital computers. Custom analog signal processing (ASP) can yield much higher energy efficiency than digital signal processing (DSP), presenting a means of overcoming these limitations.

The purpose of this work is to develop an analog implementation of DML system.

First, an analog memory is proposed as an essential component of the learning systems. It uses the charge trapped on the floating gate to store analog value in a non-volatile way. The memory is compatible with standard digital CMOS process and allows random-accessible bidirectional updates without the need for on-chip charge pump or high voltage switch.

Second, architecture and circuits are developed to realize an online k-means clustering algorithm in analog signal processing. It achieves automatic recognition of underlying data pattern and online extraction of data statistical parameters. This unsupervised learning system constitutes the computation node in the deep machine learning hierarchy.

Third, a 3-layer, 7-node analog deep machine learning engine is designed featuring online unsupervised trainability and non-volatile floating-gate analog storage. It utilizes massively parallel reconfigurable current-mode analog architecture to realize efficient computation. And algorithm-level feedback is leveraged to provide robustness to circuit imperfections in analog signal processing. At a processing speed of 8300 input vectors per second, it achieves 1×1012 operation per second per Watt of peak energy efficiency.

In addition, an ultra-low-power tunable bump circuit is presented to provide similarity measures in analog signal processing. It incorporates a novel wide-input-range tunable pseudodifferential transconductor. The circuit demonstrates tunability of bump center, width and height with a power consumption significantly lower than previous works.

--------------------------給自己live做個廣告---------------------------

---即將進行的live

報名入口:如何成為一個優秀的電子信息類大學生

時間:2017.11.05 20:00

---我們的專欄

觀芯志:知乎專欄

---往期live

知乎live—Digital IC 設計職位筆試題分析(上):知乎 Live - 全新的實時問答

知乎live—Digital IC 設計職位筆試題分析(下):知乎 Live - 全新的實時問答

半導體先進工藝的器件結構和挑戰 : 知乎 Live - 全新的實時問答

你不了解的微電子行業 : 知乎 Live - 全新的實時問答

初學者在數字 IC 設計學習中易進入的誤區 : 知乎 Live - 全新的實時問答

從零學習 TCL 腳本 :知乎 Live - 全新的實時問答

TCL 腳本:數字 IC 設計應用篇:知乎 Live - 全新的實時問答


這個……首先謝邀。但是……我真的只是科研醬油黨而已的。晶元神馬的,真的不了解

我知道的做深度學習晶元的,就只有IBM的那個模擬鼠腦的 48 塊 TrueNorth 晶元陣列所運行的演算法是什麼? - 劉東博的回答詳情可以看下這個

另外關於你後面的問題,其實現在很多DL的應用,都是將訓練好的模型拿來用的。這就對計算能力要求沒有那麼高,你看有些廠家還做FPGA的DL模型。當然,這些我不清楚,還是希望大牛來作答,我就不要誤人子弟了。。。抱歉


近日,國內人工智慧晶元公司寒武紀科技(Cambricon)獲得了一億美元A輪融資,是目前國內人工智慧晶元領域初創公司所獲得的最高融資記錄,如果要說這樁融資對人工智慧領域的最直接意義,或許是讓人工智慧晶元逐漸走入了更多人的視野。

深度學習不僅在傳統的語音識別、圖像識別、搜索/推薦引擎、計算廣告等領域證明了其劃時代的價值,也引爆了整個人工智慧生態向更大的領域延伸。由於深度學習的訓練(training)和推斷(inference)均需要大量的計算,人工智慧界正在面臨前所未有的算力挑戰,而其始作俑者,是摩爾定律的失效。

由於結構所限,CPU性能近年來未能呈現如摩爾定律預測的定期翻倍,於是具有數量眾多計算單元和超長流水線、具備強大並行計算能力與浮點計算能力的GPU,成為了深度學習模型訓練的標配。GPU可以大幅加速深度學習模型的訓練速度,相比CPU能提供更快的處理速度、更少的伺服器投入和更低的功耗,並成為深度學習訓練層面的事實工具標準。

但是,隨著人工智慧產業鏈的火速延伸,GPU並不能滿足所有場景(如手機)上的深度學習計算任務, GPU並不是深度學習算力痛點的唯一解。算力的剛需,吸引了眾多巨頭和初創公司紛紛進入人工智慧晶元領域,並形成了一個自下而上的生態體系,本文希望通過不太長的篇幅,系統呈現這個繽紛而有趣的人工智慧晶元生態。

人工智慧晶元分類

一項深度學習工程的搭建,可分為訓練(training)推斷(inference)兩個環節:訓練環境通常需要通過大量的數據輸入,或採取增強學習等非監督學習方法,訓練出一個複雜的深度神經網路模型。訓練過程由於涉及海量的訓練數據(大數據)和複雜的深度神經網路結構,需要的計算規模非常龐大,通常需要GPU集群訓練幾天甚至數周的時間,在訓練環節GPU目前暫時扮演著難以輕易替代的角色。

推斷(inference)環節指利用訓練好的模型,使用新的數據去「推斷」出各種結論,如視頻監控設備通過後台的深度神經網路模型,判斷一張抓拍到的人臉是否屬於黑名單。雖然推斷環節的計算量相比訓練環節少,但仍然涉及大量的矩陣運算。在推斷環節,除了使用CPU或GPU進行運算外,FPGA以及ASIC均能發揮重大作用。

FPGA(可編程門陣列,Field Programmable Gate Array)是一種集成大量基本門電路及存儲器的晶元,可通過燒入FPGA配置文件來來定義這些門電路及存儲器間的連線,從而實現特定的功能。而且燒入的內容是可配置的,通過配置特定的文件可將FPGA轉變為不同的處理器,就如一塊可重複刷寫的白板一樣。因此FPGA可靈活支持各類深度學習的計算任務,性能上根據百度的一項研究顯示,對於大量的矩陣運算GPU遠好於FPGA,但是當處理小計算量大批次的實際計算時FPGA性能優於GPU,另外FPGA有低延遲的特點,非常適合在推斷環節支撐海量的用戶實時計算請求(如語音雲識別)。

ASIC(專用集成電路,Application Specific Integrated Circuit)則是不可配置的高度定製專用晶元。特點是需要大量的研發投入,如果不能保證出貨量其單顆成本難以下降,而且晶元的功能一旦流片後則無更改餘地,若市場深度學習方向一旦改變,ASIC前期投入將無法回收,意味著ASIC具有較大的市場風險。但ASIC作為專用晶元性能高於FPGA,如能實現高出貨量,其單顆成本可做到遠低於FPGA。

在深度學習的訓練和推斷環節,常用到的晶元及特徵如下圖所示:

從市場角度而言,目前人工智慧晶元的需求可歸納為三個類別:首先是面向於各大人工智慧企業及實驗室研發階段的訓練環節市場;其次是數據中心推斷(inference on cloud),無論是亞馬遜Alexa還是出門問問等主流人工智慧應用,均需要通過雲端提供服務,即推斷環節放在雲端而非用戶設備上;第三種是面向智能手機、智能安防攝像頭、機器人/無人機、自動駕駛、VR等設備的設備端推斷(inference on device)市場,設備端推斷市場需要高度定製化、低功耗的人工智慧晶元產品。如傳聞華為即將在Mate 10的麒麟970中搭載寒武紀IP,旨在為手機端實現較強的深度學習本地端計算能力,從而支撐以往需要雲端計算的人工智慧應用。

我們圍繞上述的分類標準,從市場及晶元特性兩個角度出發,可勾畫出一個人工智慧晶元的生態體系,整個生態體系分為訓練層、雲端推斷層和設備端推斷層:

Training層晶元生態

毫無疑問在深度學習的Training階段,GPU成為了目前一項事實的工具標準。由於AMD今年來在通用計算以及生態圈構建方面都長期缺位,導致了在深度學習GPU加速市場NVIDIA一家獨大的局面。根據NVIDIA今年Q2年報顯示,NVIDIA的Q2收入為達到22.3億美元,毛利率更是達到了驚人的58.4%,其中數據中心(主要為面向深度學習的Tesla加速伺服器)Q2收入4.16億美元,同比上升達175.5%。

面對深度學習Training這塊目前被NVIDIA賺得盆滿缽滿的市場,眾多巨頭紛紛對此發起了挑戰。Google今年5月份發布了TPU 2.0,TPU是Google研發的一款針對深度學習加速的ASIC晶元,第一代TPU僅能用於推斷(即不可用於訓練模型),並在AlphaGo人機大戰中提供了巨大的算力支撐。而目前Google發布的TPU 2.0除了推斷以外,還能高效支持訓練環節的深度網路加速。根據Google披露,Google在自身的深度學習翻譯模型的實踐中,如果在32塊頂級GPU上並行訓練,需要一整天的訓練時間,而在TPU2.0上,八分之一個TPU Pod(TPU集群,每64個TPU組成一個Pod)就能在6個小時內完成同樣的訓練任務。

目前Google並沒急於推進TPU晶元的商業化。Google在TPU晶元的整體規劃是,基於自家開源、目前在深度學習框架領域排名第一的TensorFlow,結合Google雲服務推出TensorFlow Cloud,通過TensorFlow加TPU雲加速的模式為AI開發者提供服務,Google或許並不會考慮直接出售TPU晶元。如果一旦Google將來能為AI開發者提供相比購買GPU更低成本的TPU雲加速服務,藉助TensorFlow生態毫無疑問會對NVIDIA構成重大威脅。

當然TPU作為一種ASIC晶元方案,意味著其巨大的研發投入和市場風險,而其背後的潛在市場也是巨大的:一個橫跨訓練和雲端推斷的龐大雲服務,但目前恐怕只有Google才有如此巨大的決心和資源稟賦,使用ASIC晶元去構築這一布局——如果將來TPU雲服務無法獲得巨大的市場份額從而降低單顆TPU的成本,Google將難以在這一市場盈利。但市場的培育除了晶元本身顯然是不足夠的,還包括讓眾多熟悉GPU加速的研究/開發者轉到TPU雲計算平台的轉換成本,這意味著Google要做大量的生態系統培育工作。

除了Google外,昔日的GPU王者AMD目前也奮起直追,發布了三款基於Radeon Instinct的深度學習加速器方案,希望在GPU深度學習加速市場分回一點份額,當然AMD是否能針對NVIDIA的同類產品獲得相對優勢尚為未知之數。

對於現任老大NVIDIA而言,目前當務之急無疑是建立護城河保衛其市場份額,總結起來是三方面的核心舉措。一方面在產品研發上,NVIDIA耗費了高達30億美元的研發投入,推出了基於Volta、首款速度超越100TFlops的處理器Tesla,主打工業級超大規模深度網路加速;另外一方面是加強人工智慧軟體堆棧體系的生態培育,即提供易用、完善的GPU深度學習平台,不斷完善CUDA、 cuDNN等套件以及深度學習框架、深度學習類庫來保持NVIDIA體系GPU加速方案的粘性。第三是推出NVIDIA GPU Cloud雲計算平台,除了提供GPU雲加速服務外,NVIDIA以NVDocker方式提供全面集成和優化的深度學習框架容器庫,以其便利性進一步吸引中小AI開發者使用其平台。

核心驅動能力:對於深度學習訓練這個人工智慧生態最為關鍵的一環,我們可以看到競爭的核心已經不是單純的晶元本身,而是基於晶元加速背後的整個生態圈,提供足夠友好、易用的工具環境讓開發者迅速獲取到深度學習加速算力,從而降低深度學習模型研發+訓練加速的整體TCO和研發周期。一言蔽之,這個領域是巨頭玩家的戰場,普通的初創公司進入這個領域幾乎沒有任何的機會,接下來的核心看點,是Google究竟是否能憑藉TensorFlow+Google Cloud+TPU 2.0生態取得對NVIDIA的相對優勢,以市場份額的量變引起質變。畢竟相比主打通用計算的NVIDIA GPU,TPU的ASIC方案當出貨量突破一定閾值後,其單顆價格和功耗比均能構成無法忽視的競爭優勢。當然,這取決於兩個前提條件:一是深度學習主流框架在今後幾年不發生重大變化,比如深度學習變得不再高度依賴矩陣運算,否則一顆寫死的ASIC將失去幾乎一切價值。二是Google能構築出足夠好用的生態,讓眾多AI研究/開發者從CUDA+GPU轉向Google,打破業界對NVIDIA的路徑依賴,而這點才是真正艱難的道路。

Inference On Cloud層晶元生態

當一項深度學習應用,如基於深度神經網路的機器翻譯服務,經過數周甚至長達數月的GPU集群並行訓練後獲得了足夠性能,接下來將投入面向終端用戶的消費級服務應用中。由於一般而言訓練出來的深度神經網路模型往往非常複雜,其Inference(推斷)仍然是計算密集型和存儲密集型的,這使得它難以被部署到資源有限的終端用戶設備(如智能手機)上。正如Google不期望用戶會安裝一個大小超過300M的機器翻譯APP應用到手機上,並且每次翻譯推斷(應用訓練好的神經網路模型計算出翻譯的結果)的手機本地計算時間長達數分鐘甚至耗盡手機電量仍然未完成計算。這時候,雲端推斷(Inference On Cloud)在人工智慧應用部署架構上變得非常必要。

雖然單次推斷的計算量遠遠無法和訓練相比,但如果假設有1000萬人同時使用這項機器翻譯服務,其推斷的計算量總和足以對雲伺服器帶來巨大壓力,而隨著人工智慧應用的普及,這點無疑會變成常態以及業界的另一個痛點。由於海量的推斷請求仍然是計算密集型任務,CPU在推斷環節再次成為瓶頸。但在雲端推斷環節,GPU不再是最優的選擇,取而代之的是,目前3A(阿里雲、Amazon、微軟Azure)都紛紛探索雲伺服器+FPGA晶元模式替代傳統CPU以支撐推斷環節在雲端的技術密集型任務。

亞馬遜 AWS 在去年推出了基於 FPGA 的雲伺服器 EC2 F1;微軟早在2015年就通過Catapult 項目在數據中心實驗CPU+FPGA方案;而百度則選擇與FPGA巨頭Xilinx(賽思靈)合作,在百度雲伺服器中部署KintexFPGA,用於深度學習推斷,而阿里雲、騰訊雲均有類似圍繞FPGA的布局,具體如下表所示。當然值得一提的是,FPGA晶元廠商也出現了一家中國企業的身影——清華系背景、定位於深度學習FPGA方案的深鑒科技,目前深鑒已經獲得了Xilinx的戰略性投資。

雲計算巨頭紛紛布局雲計算+FPGA晶元,首先因為FPGA作為一種可編程晶元,非常適合部署於提供虛擬化服務的雲計算平台之中。FPGA的靈活性,可賦予雲服務商根據市場需求調整FPGA加速服務供給的能力。比如一批深度學習加速的FPGA實例,可根據市場需求導向,通過改變晶元內容變更為如加解密實例等其他應用,以確保數據中心中FPGA的巨大投資不會因為市場風向變化而陷入風險之中。另外,由於FPGA的體系結構特點,非常適合用於低延遲的流式計算密集型任務處理,意味著FPGA晶元做面向與海量用戶高並發的雲端推斷,相比GPU具備更低計算延遲的優勢,能夠提供更佳的消費者體驗。

在雲端推斷的晶元生態中,不得不提的最重要力量是PC時代的王者英特爾。面對摩爾定律失效的CPU產品線,英特爾痛定思痛,將PC時代積累的現金流,通過多樁大手筆的併購迅速補充人工智慧時代的核心資源能力。首先以 167 億美元的代價收購 FPGA界排名第二的Altera,整合Altera多年FPGA技術以及英特爾自身的生產線,推出CPU + FPGA 異構計算產品主攻深度學習的雲端推斷市場。另外,去年通過收購擁有為深度學習優化的硬體和軟體堆棧的Nervana,補全了深度學習領域的軟體服務能力。當然,不得不提的是英特爾還收購了領先的ADAS服務商Mobileye以及計算機視覺處理晶元廠商Movidius,將人工智慧晶元的觸角延伸到了設備端市場,這點將在本文餘下部分講述。

相比Training市場中NVIDIA一家獨大,雲端推斷晶元領域目前可謂風起雲湧,一方面英特爾希望通過深耕CPU+FPGA解決方案,成為雲端推斷領域的NVIDIA,打一次漂亮的翻身仗。另外由於雲端推斷市場當前的需求並未進入真正的高速爆發期,多數人工智慧應用當前仍處於試驗性階段,尚未在消費級市場形成巨大需求,各雲計算服務商似乎有意憑藉自身雲服務優勢,在這個爆發點來臨之前布局自己的雲端FPGA應用生態,做到肥水不流外人(英特爾)田,另外一個不可忽視的因素,是Google的TPU生態對雲端推斷的市場份額同樣有巨大的野心,也許這將會是一場徹頭徹尾的大混戰。

Inference On Device層晶元生態

隨著人工智慧應用生態的爆發,將會出現越來越多不能單純依賴雲端推斷的設備。例如,自動駕駛汽車的推斷,不能交由雲端完成,否則如果出現網路延時則是災難性後果;或者大型城市動輒百萬級數量的高清攝像頭,其人臉識別推斷如果全交由雲端完成,高清錄像的網路傳輸帶寬將讓整個城市的移動網路不堪重負。未來在相當一部分人工智慧應用場景中,要求終端設備本身需要具備足夠的推斷計算能力,而顯然當前ARM等架構晶元的計算能力,並不能滿足這些終端設備的本地深度神經網路推斷,業界需要全新的低功耗異構晶元,賦予設備足夠的算力去應對未來越發增多的人工智慧應用場景。

有哪些設備需要具備Inference On Device能力?主流場景包括智能手機、ADAS、CV設備、VR設備、語音交互設備以及機器人

智能手機——智能手機中嵌入深度神經網路加速晶元,或許將成為業界的一個新趨勢,當然這個趨勢要等到有足夠基於深度學習的殺手級APP出現才能得以確認。傳聞中華為即將在Mate 10的麒麟970中搭載寒武紀IP,為Mate 10帶來較強的深度學習本地端推斷能力,讓各類基於深度神經網路的攝影/圖像處理應用能夠為用戶提供更加的體驗。另外,高通同樣有意在日後的晶元中加入驍龍神經處理引擎,用於本地端推斷,同時ARM也推出了針對深度學習優化的DynamIQ技術。對於高通等SoC廠商,在其成熟的晶元方案中加入深度學習加速器IP並不是什麼難事,智能手機未來人工智慧晶元的生態基本可以斷定仍會掌握在傳統SoC商手中。

ADAS(高級輔助駕駛系統)——ADAS作為最吸引大眾眼球的人工智慧應用之一,需要處理海量由激光雷達、毫米波雷達、攝像頭等感測器採集的海量實時數據。作為ADAS的中樞大腦,ADAS晶元市場的主要玩家包括今年被英特爾收購的Mobileye、去年被高通以470億美元驚人價格收購的NXP,以及汽車電子的領軍企業英飛凌。隨著NVIDIA推出自家基於 GPU的ADAS解決方案Drive PX2,NVIDIA也加入到戰團之中。

CV(計算機視覺,Computer Vision)設備——計算機視覺領域全球領先的晶元提供商是Movidius,目前已被英特爾收購,大疆無人機、海康威視和大華股份的智能監控攝像頭均使用了Movidius的Myriad系列晶元。需要深度使用計算機視覺技術的設備,如上述提及的智能攝像頭、無人機,以及行車記錄儀、人臉識別迎賓機器人、智能手寫板等設備,往往都具有本地端推斷的剛需,如剛才提及的這些設備如果僅能在聯網下工作,無疑將帶來糟糕的體驗。。而計算機視覺技術目前看來將會成為人工智慧應用的沃土之一,計算機視覺晶元將擁有廣闊的市場前景。目前國內做計算機視覺技術的公司以初創公司為主,如商湯科技、阿里系曠視、騰訊優圖,以及雲從、依圖等公司。在這些公司中,未來有可能隨著其自身計算機視覺技術的積累漸深,部分公司將會自然而然轉入CV晶元的研發中,正如Movidius也正是從計算機視覺技術到晶元商一路走來的路徑。

VR設備、語音交互設備以及機器人——由於篇幅關係,這幾個領域放在一起介紹。VR設備晶元的代表為微軟為自身VR設備Hololens而研發的HPU晶元,這顆由台積電代工的晶元能同時處理來自5個攝像頭、一個深度感測器以及運動感測器的數據,並具備計算機視覺的矩陣運算和CNN運算的加速功能。語音交互設備晶元方面,國內有啟英泰倫以及雲知聲兩家公司,其提供的晶元方案均內置了為語音識別而優化的深度神經網路加速方案,實現設備的語音離線識別。機器人方面,無論是家居機器人還是商用服務機器人均需要專用軟體+晶元的人工智慧解決方案,這方面典型公司有由前百度深度學習實驗室負責人余凱創辦的地平線機器人,當然地平線機器人除此之外,還提供ADAS、智能家居等其他嵌入式人工智慧解決方案。

在Inference On Device領域,我們看到的是一個繽紛的生態。因為無論是ADAS還是各類CV、VR等設備領域,人工智慧應用仍遠未成熟,各人工智慧技術服務商在深耕各自領域的同時,逐漸由人工智慧軟體演進到軟體+晶元解決方案是自然而然的路徑,因此形成了豐富的晶元產品方案。但我們同時觀察到的是,NVIDIA、英特爾等巨頭逐漸也將觸手延伸到了Inference On Device領域,意圖形成端到端的綜合人工智慧解決方案體系,實現各層次資源的聯動。


謝邀。

關於第一個和最後一個問題,可以參考這篇。零基礎看懂全球AI晶元:詳解「xPU」

中間的問題,可以歸結於一個端和雲的問題。

能不能實時處理,除了和晶元計算力有關,還和場景任務有關。所以,不負責的回答是,能實時處理。負責人的回答是,要看場景任務是什麼。

比如,指紋識別,人臉識別,這些任務,不用深度學習晶元也可以實時,把深度學習演算法跑在AP就可以。隨著演算法的發展,計算量越來越小,AP上跑已經不是問題。例如MobileNet,suffleNet等,都是給移動端優化的演算法。如果再用專用晶元做加速,效果能快。現在華為和蘋果新手機里都帶了AI加速器,就是為了端上做實時處理。當然,針對部分場景。

語音識別,還得分是識別命令詞還是做語義分析。命令詞識別,完全可以離線實時處理,我司的晶元處理這個完全沒問題(還沒發布,不要擴散)。又如啟英泰凌的語音識別晶元。如果做語義分析加對話,目前還智能傳回雲端,因為計算量和模型都太大了。這裡的坑,要演算法上解決計算量,計算力上加強,計算能力上支持CNN、RNN等不同結構,同時控制住功耗。

ADAS場景,這部分有些任務必須端上解決,傳回雲端是不能接受的。這方面,mobileye可以,Nvidia也可以。

無人機場景,避障、跟蹤等任務,都是端上就搞定了,大疆用的movidius晶元。


以後的深度學習晶元,肯定是往兩個方向發展的。一個是訓練端,不斷提高計算能力,不斷優化學習框架和晶元之間的連接。一個是推斷端,邊緣計算,需要針對特定的領域,優化特定的模型,滿足速度和精度的要求。

前一種晶元,通用的就是GPU,特定的如TPU,都已經形成一定的生態。

後一種晶元,目前基本空白。在深度學習應用領域最廣的CV和NLP都還沒有專用晶元。


感覺今年的深度學習晶元跟前兩年的計算機視覺概念似的,突然被炒起來了。其實統一起來基本可以叫做xPU了。

主要做深度學習的有,寒武紀,地平線,英特爾收購了一家,還有深鑒科技等等,其實有很多的。

深度學習的大部分計算量其實是在訓練部分,訓練部分基本是在伺服器上實現的,土豪公司每人可以配價值幾十萬的核彈廠顯卡搭建的計算中心,而真正應用的其實其實計算並不是太高的,並沒有想像的那麼恐怖,就算沒有這些專門優化的晶元,感覺也還是能做到實時的,但是功耗應該會很高。

不同廠家會做不同的應用,會因為不同的成本,使用等原因選擇不同的方案,比如雲服務,其實很多家都有使用FPGA加速計算的


推薦閱讀:

有沒有介紹神經網路、蟻群、遺傳、退火、魚群等等演算法的書籍?
怎樣看待地平線機器人以深度強化學習演算法為切入點?
同價位的專業卡與遊戲卡誰更適合跑深度學習相關程序?
學數學用中文還是英文?
為什麼說雲計算、大數據、機器學習、深度學習被並稱為當今計算機界四大俗?

TAG:機器學習 | 晶元集成電路 | 深度學習DeepLearning |