傳統IP Vendor的AI加速器一覽

02-08

Cadence Vision C5

也被稱為是Tensilica C5，是Cadence的IP，架構延續自其VP6 DSP架構，擴展了MAC計算單元和Way的數量

C5 Block Diagram

VP6 Block Diagram

其特點為：

1T 8bitMAC 1mm2，推測此時工藝為16nm工藝
提供1204 8bit MAC 或 512 16bit MAC
使用DSP的VLIW SIMD指令集，支持128 way 8bit SIMD/64way 16bit SIMD
支持多核並發，以支持更強的計算能力
使用DMA/AXI進行數據訪問
兼容VP6的軟體工具集

其架構與Cadence 的圖像處理DSPVP6極為類似

注意看：C5的MAC分拆方式與VP6不同，這裡是否意味著其對原來VP6的MAC分拆方式有些不同看法呢？

https://ip.cadence.com/ipportfolio/tensilica-ip/image-vision-processing-1/vision-c5ip.cadence.com

CEVA家的最新加速器是NeuPro

官方介紹材料比較簡單：

專為矩陣操作/全連接/激活/池化層優化的引擎
允許用戶自定義擴展
支持8/16bit量化
最大支持4K 8×8MAC，512/1024/2048/4096 MAC可配置

CEVA XM+NeuPro

注意看：VPU和和加速器直接沒有共享內存

PS:這個架構感覺沒有什麼特別讓人眼前一亮的東西

https://www.ceva-dsp.com/product/ceva-neupro/www.ceva-dsp.com

Verisilicon Vivante VIP8000

這是一個GPU架構的加速器

Verisilicon VIP8000

Vivante作為傳統的GPU廠家雖然沒落了，但是其GPU架構還是有延續下來，官方信息顯示其加速器引擎有如下特性：

最大3TMAC/s，能效比1.5TMAC/W at 16nm
高度並發的多線程並行處理單元（看起來很像GPU的架構）
支持多個NN Core，每個Core有384 8bit MAC/64 FP16 MAC
支持常見的AlexNet/GoogleNet/ResNet/VGG/Faster-RCNN/Yolo/SSD/FCN/SegNet/RNN/LTSM網路
支持多種層（Conv/Deconv/Dilaiton /FC/poolling/unpooling/normalization/activation/reshape etc.）
支持 8bit &FP16計算（注意，能支持FP1持的IP不多）
號稱2個NN Core可以實現800×600的實時Faster-RCNN，這個能力不多見
使用OpenCL和VopenVX作為編程介面。
工具鏈使用Khronos定義的NNEF作為中間層

存疑的是：

一般認為GPU架構的MAC利用率會比DSP和ASIC專用架構低一些，不太清楚Versilicon是否能夠解決這個問題。
另外在擴展自定義層時，OpenCL和OpenVX介面與Intrinsic C相比可能還是略微麻煩一些。

VeriSilicon』s Vivante VIP8000 Neural Network Processor IP Delivers Over 3 Tera MACs Per Secondwww.verisilicon.comhttps://www.khronos.org/assets/uploads/developers/library/2017-embedded-vision-summit/13_VeriSilicon-Vision-Processor-Highlight_May17.pdfwww.khronos.org

Synopsys EV6X+CNN3.0 Engine

EV6X+CNN3.0

這是一個專為CNN網路設計的加速器，宣稱支持4.5T MAC/s

產品目標為ADAS，安防監控，AR和其他應用
支持常見的AlexNet, VGG16, GoogLeNet, Yolo, Faster R-CNN, SqueezeNet and ResNet網路
比較奇特的是支持12bit MAC，可能和他的設計哲學有關。有工具直接將浮點網路映射為12bit網路。同樣支持8bit網路，以節省帶寬。
能效比高達2T MAC/w at 16nm
對於不支持的網路層或其他用戶自定義層，可以通過Vision CPU（EV6X）輔助完成
軟體介面包括OpenCL，OpenVX，OpenCV，Intrinsic C
曾經有傳言，該加速器的上一版本不支持Faster-RCNN等16年以後的網路。從官網資料看CNN3.0已經改進了類似缺陷。

Synopsys Embedded Vision Processor IP Quadruples Neural Network Performance for Machine Learning Applicationswww.synopsys.com

Imagination NNA

官方沒有放出架構圖，借用AnandTech上的一張圖片來介紹，

從這個架構圖看，Imagination使用的不是GPU架構，而是專用ASIC架構，這點與Verisilicon不同
IP加速器MAC數量可配，從128 8bit /64Bit 16bit ～048 8bit/1024 16bit MAC可配置。
支持4/5/6/7/8/10/12/16 bit weight（但考慮到實際支持8/16bit MAC，所以4/5/6/7/10bit時並不會有額外的算力提升，估計只是節省了帶寬）
中間計算結果的累加器保持FP32精度
支持NNEF格式，支持Caffe/Tensorflow Model離線/retrain轉換工具

Imagination Joins the AI Party, Announces PowerVR Series 2NX Neural Network Acceleratorwww.anandtech.comPowerVR Series2NX Neural Network Accelerator (NNA) - Imagination Technologieswww.imgtec.com

接下來的這兩家其實不能算傳統IP Vendor，只是談端側AI IP又怎能繞開這兩家呢？

Cambricon 1A

業界傳言華為海思Kirin970使用的是Cambricon-1A的加速器。Cambricon的公開信息並不多，涉及商業秘密，此處只能用一些公開數據進行解釋了。

廣泛應用於計算機視覺、語音識別、自然語言處理等智能處理關鍵領域（既支持int，又支持float操作，可以參考其1H8產品的介紹）
另外從其shidiannao，pudiannao的論文先後順序來看，沒有使用脈動陣列的架構
其與其他加速器相比，可以支持多種機器學習方法（不局限在NN及其衍生模型）

上圖：PuDianNao 下圖：ShiDianNao

另外，有興趣的同學可以去看一下魯大師的AI評測得分，和高通835對比一下，大概可以推算一下Kirin970的實際MAC數量。

深度學習處理器_產品中心_寒武紀www.cambricon.com

知乎上有兩篇文章對寒武紀的IP分析的很不錯，也列在這列一併參考。

中科院說的深度學習指令集diannaoyu到底是什麼?www.zhihu.com

如何看待中科院計算所的Cambricon-X稀疏深度學習處理器？www.zhihu.com

Qualcomm Hexagon682

高通的材料非常有限，這裡僅是我根據網上找到的資料給出的推測值：256 MAC /cycle。

下面這個鏈接中有這樣一段話：

http://www.zdnet.com/article/vision-is-techs-next-big-challenge/

But Rick Maule, a senior director of product management at Qualcomm, said that over the past couple of years the company has learned that customers need more processor cycles and faster memory access. Qualcomms solution is to double the number of compute elements, boost the frequency 50 percent, and embed low-latency memory in those compute elements. These "proposed changes" would increase performance from 99 billion MACs per second on the Snapdragon 820 to 288 billion MACs per second, resulting in a 3X speed-up on the Inception V3 image-recognition model.

考慮到驍龍820的工藝是14nm，一個比較合理的推測是驍龍820的Hexagon680的MAC數量是128，頻率是770MHz。而10nm的驍龍835是256MAC，頻率1.1GHz。

而845宣傳的是相比835再增加3X，很可能採用的策略是類似的，再double MAC數量，同時提頻。由於845和835都是10nm工藝，還算同一節點的產品，靠提頻可能無法完全達到1.5X性能提升，在685中可能引入了其他諸如winograd之類的微架構改動。