管窺AI晶元國內外現狀(之二)
來自專欄芯青年6 人贊了文章
前一篇文章:
芯青年:管窺AI晶元國內外現狀(之一)介紹了AI晶元國外的現狀,這篇介紹一下國內的情況。
國內:百家爭鳴,各自為政
可以說,國內各個單位在人工智慧處理器領域的發展和應用與國外相比依然存在很大的差距。由於我國特殊的環境和市場,國內人工智慧處理器的發展呈現出百花齊放、百家爭鳴的態勢,這些單位的應用領域遍布股票交易、金融、商品推薦、安防、早教機器人以及無人駕駛等眾多領域,催生了大量的人工智慧晶元創業公司,如地平線、深鑒科技、中科寒武紀等。儘管如此,國內起步較早的中科寒武紀卻並未如國外大廠一樣形成市場規模,與其他廠商一樣,存在著各自為政的散裂發展現狀。
除了新興創業公司,國內研究機構如北京大學、清華大學、中國科學院等在人工智慧處理器領域都有深入研究;而其他公司如百度和比特大陸等,2017年也有一些成果發布。
註:上述表格中所給為截止到2017年各研製單位公開可查的最新數據。
全球AI晶元界首個獨角獸——寒武紀
2017年8月,國內AI晶元初創公司寒武紀宣布已經完成1億美元A輪融資,戰略投資方可謂陣容豪華,阿里巴巴、聯想、科大訊飛等企業均參與投資。而其公司也成為全球AI晶元界首個獨角獸,受到國內外市場廣泛關注。
寒武紀科技主要負責研發生產AI晶元,公司最主要的產品為2016年發布的寒武紀1A處理器(Cambricon-1A),是一款可以深度學習的神經網路專用處理器,面向智能手機、無人機、安防監控、可穿戴設備以及智能駕駛等各類終端設備,在運行主流智能演算法時性能功耗比全面超越傳統處理器。目前已經研發出1A、1H等多種型號。與此同時,寒武紀也推出了面向開發者的寒武紀人工智慧軟體平台 Cambricon NeuWare,包含開發、調試和調優三大部分。
軟硬體協同發展的典範——深鑒科技
深鑒科技的聯合創始人韓松在不同場合曾多次提及軟硬體協同設計對人工智慧處理器的重要性,而其在FPGA領域頂級會議FPGA2017最佳論文ESE硬體架構就是最好的證明。該項工作聚焦於使用 LSTM 進行語音識別的場景,結合深度壓縮(Deep Compression)、專用編譯器以及 ESE 專用處理器架構,在中端的 FPGA 上即可取得比 Pascal Titan X GPU 高 3 倍的性能,並將功耗降低 3.5 倍。
在2017年10月的時候,深鑒科技推出了六款AI產品,分別是人臉檢測識別模組、人臉分析解決方案、視頻結構化解決方案、ARISTOTLE架構平台,深度學習SDK DNNDK、雙目深度視覺套件。而在人工智慧晶元方面,公布了最新的晶元計劃,由深鑒科技自主研發的晶元「聽濤」、「觀海」將於2018年第三季度面市,該晶元採用台積電28nm工藝,亞里士多德架構,峰值性能 3.7 TOPS/W。
對標谷歌TPU——比特大陸算豐
作為比特幣獨角獸的比特大陸,在2015年開始涉足人工智慧領域,其在2017年發布的面向AI應用的張量處理器算豐Sophon BM1680,是繼谷歌TPU之後,全球又一款專門用於張量計算加速的專用晶元(ASIC),適用於CNN / RNN / DNN的訓練和推理。
BM1680單晶元能夠提供2TFlops單精度加速計算能力,晶元由64 NPU構成,特殊設計的NPU調度引擎(Scheduling Engine)可以提供強大的數據吞吐能力,將數據輸入到神經元核心(Neuron Processor Cores)。BM1680採用改進型脈動陣列結構。2018年比特大陸將發布第2代算豐AI晶元BM1682,計算力將有大幅提升。
百家爭鳴——百度、地平線及其他
在2017年的HotChips大會上,百度發布了XPU,這是一款256核、基於FPGA的雲計算加速晶元,用於百度的人工智慧、數據分析、雲計算以及無人駕駛業務。在會上,百度研究員歐陽劍表示,百度設計的晶元架構突出多樣性,著重於計算密集型、基於規則的任務,同時確保效率、性能和靈活性的最大化。
歐陽劍表示:「FPGA是高效的,可以專註於特定計算任務,但缺乏可編程能力。傳統CPU擅長通用計算任務,尤其是基於規則的計算任務,同時非常靈活。GPU瞄準了並行計算,因此有很強大的性能。XPU則關注計算密集型、基於規則的多樣化計算任務,希望提高效率和性能,並帶來類似CPU的靈活性。
在2018年百度披露更多關於XPU的相關信息。
2017年12月底,人工智慧初創企業地平線發布了中國首款全球領先的嵌入式人工智慧晶元——面向智能駕駛的征程(Journey)1.0處理器和面向智能攝像頭的旭日(Sunrise)1.0處理器,還有針對智能駕駛、智能城市和智能商業三大應用場景的人工智慧解決方案。「旭日 1.0」和「征程 1.0」是完全由地平線自主研發的人工智慧晶元,具有全球領先的性能。
為了解決應用場景中的問題,地平線將演算法與晶元做了強耦合,用演算法來定義晶元,提升晶元的效率,在高性能的情況下可以保證它的低功耗、低成本。具體晶元參數尚無公開數據。
除了百度和地平線,國內研究機構如中國科學院、北京大學和清華大學也有人工智慧處理器相關的成果發布。
北京大學聯合商湯科技等提出一種基於 FPGA 的快速 Winograd 演算法,可以大幅降低演算法複雜度,改善 FPGA 上的 CNN 性能。論文中的實驗使用當前最優的多種 CNN 架構(如 AlexNet 和 VGG16),從而實現了 FPGA 加速之下的最優性能和能耗。在 Xilinx ZCU102 平台上達到了卷積層平均處理速度 1006.4 GOP/s,整體 AlexNet 處理速度 854.6 GOP/s,卷積層平均處理速度 3044.7 GOP/s,整體 VGG16 的處理速度 2940.7 GOP/s。
中國科學院計算機體系結構國家重點實驗室在頂級會議HPCA2017上提出了一種基於數據流的神經網路處理器架構,以便適應特徵圖、神經元和突觸等不同層級的並行計算,為了實現這一目標,該團隊對單個處理單元PE進行重新設計,使得操作數可以直接通過橫向或縱向的匯流排從片上存儲器獲取,而非傳統PE只能從上至下或從左至右由相鄰單元獲取。該晶元採用了TMSC 65nm工藝,峰值性能為490.7 GOPs/W。
清華大學微納電子系魏少軍等2017年的VLSI國際研討會上提出了基於可重構多模態混合的神經計算晶元Thinker。Thinker晶元基於該團隊長期積累的可重構計算晶元技術,採用可重構架構和電路技術,突破了神經網路計算和訪存的瓶頸,實現了高能效多模態混合神經網路計算。Thinker晶元具有高能效的突出優點,其能量效率相比目前在深度學習中廣泛使用的GPU提升了三個數量級。Thinker晶元支持電路級編程和重構,是一個通用的神經網路計算平台,可廣泛應用於機器人、無人機、智能汽車、智慧家居、安防監控和消費電子等領域。該晶元採用了TSMC 65nm工藝,片上存儲為348KB,峰值性能為5.09TOPS/W。
新架構新技術——憶阻器
2017年清華大學微電子所錢鶴、吳華強課題組在《自然通訊》(Nature Communications)在線發表了題為 「運用電子突觸進行人臉分類」(「Face Classification using Electronic Synapses」)的研究成果,將氧化物憶阻器的集成規模提高了一個數量級,首次實現了基於1024個氧化物憶阻器陣列的類腦計算。該成果在最基本的單個憶阻器上實現了存儲和計算的融合,採用完全不同於傳統「馮·諾依曼架構」的體系,可以使晶元功耗降低到原千分之一以下。憶阻器被認為是最具潛力的電子突觸器件,通過在器件兩端施加電壓,可以靈活地改變其阻值狀態,從而實現突觸的可塑性。此外,憶阻器還具有尺寸小、操作功耗低、可大規模集成等優勢。因此,基於憶阻器所搭建的類腦計算硬體系統具有功耗低和速度快的優勢,成為國際研究熱點。
在神經形態處理器方面,最為著名的就是IBM在2014年推出的TrueNorth晶元,該晶元包括4096個核心和540萬個晶體管,功耗70mW,模擬了一百萬個神經元和2.56億個突觸。而在2017年,英特爾也推出一款能模擬大腦工作的自主學習晶元Loihi,Loihi由128個計算核心構成,每個核心集成了1024個人工神經元,整個晶元擁有超過個13萬個神經元與1.3億個突觸連接,與人腦超過800億個神經元相比,簡直是小巫見大巫,Loihi的運算規模僅比蝦腦複雜一點點而已。英特爾認為該晶元適用於無人機與汽車自動駕駛,紅綠燈自適應路面交通狀況,用攝像頭尋找失蹤人口等任務。
而在神經形態晶元研究領域,清華大學類腦計算研究中心施路平等在2015年就推出了首款類腦晶元—「天機芯」,該晶元世界首次將人工神經網路(Artificial Neural Networks, ANNs)和脈衝神經網路(Spiking Neural Networks,SNNs)進行異構融合,同時兼顧技術成熟並被廣泛應用的深度學習模型與未來具有巨大前景的計算神經科學模型,可用於諸如圖像處理、語音識別、目標跟蹤等多種應用開發。在類腦「自行」車演示平台上,集成32個天機一號晶元,實現了面向視覺目標探測、感知、目標追蹤、自適應姿態控制等任務的跨模態類腦信息處理實驗。據悉,基於TSMC 28nm工藝的第二代天機晶元也即將推出,性能將會得到極大提升。
(未完待續。。。。。)
推薦閱讀:
※011智能倉儲物流自動化行業的「中國芯」
※商湯科技跟高通走到了一起 演算法+晶元撬動AI生態新支點
※觀點 | 微軟全球執行副總裁沈向洋:致AI時代的我們 —— 請不要忽視寫作的魅力
※掃地機器人的真偽智能如何分辨真假?
※tensoflow實現自編碼器