AI晶元的幾種選擇，你更看好哪個？|半導體行業觀察

01-29

n n 來源：原文作者Ed Sperling，由半導體行業觀察翻譯，謝謝。n n

n n 編者按：隨著AI市場的升溫，我們對於如何構建AI系統也存在困惑。從目前情況看，AI不是一件單一的事，因此沒有單一的系統在任何地方都能完美地工作。但AI系統有一些通用要求，如何因應這些需求尋找一個解決方案就成為行業關注的熱點。n n

n 根據行業的參考標準，AI將是下一件大事，或將在下一件大事中發揮重要作用。這也就解釋了過去18個月里人工智慧領域活動的瘋狂。大公司支付數十億美元收購創業公司，甚至投入更多的資金用於研發。此外，各國政府正在向大學和研究機構投入數十億美元。全球競賽正在進行，目的是創建的最佳的架構和系統來處理AI工作所必需的海量數據。n

n 市場預測也相應上升。根據Tractica研究所的數據，到2025年，AI年收入預計將達到368億美元。Tractica表示，迄今為止已經確定了AI的27種不同的細分行業以及191個使用案例。n

n 圖1 AI收入增長預測。n n 來源：Tractican n

n 但隨著我們深入挖掘，很快就可以明顯地看到，並不存在一個的最好的方式來解決AI問題。甚至對於AI是什麼，或需要分析的數據類型，我們尚沒有一致的定義。n

n OneSpin Solutions總裁兼首席執行官Raik Brinkmann說，n n n 「在人工智慧晶元中，你有三個問題需要解決。首先，你需要處理大量的數據。其次，構建用於並行處理的互連。第三是功率，這是你移動數據量的直接結果。所以你亟須從馮諾依曼架構轉變到數據流架構。但它究竟是什麼樣子？」n n

n 目前的答案很少，這就是為什麼AI市場的第一顆晶元包括現成的CPU，GPU，FPGA和DSP的各種組合。雖然新設計正在由諸如英特爾、谷歌、英偉達、高通，以及IBM等公司開發，但目前還不清楚哪家的方法會勝出。似乎至少需要一個CPU來控制這些系統，但是當流數據並行化時，就會需要各種類型的協處理器。n

n AI的許多數據處理涉及矩陣乘法和加法。大量並行工作的GPU提供了一種廉價的方法，但缺點是更高的功率。具有內置DSP模塊和本地存儲器的FPGA更節能，但它們通常更昂貴。這也是軟體和硬體真正需要共同開發的領域，但許多軟體遠遠落後於硬體。n

n Mentor Graphics董事長兼首席執行官Wally Rhines表示：「目前，研究和教育機構有大量的活動。有一場新的處理器開發競賽。也有標準的GPU用於深度學習，同時還有很多人在從事CPU的工作。目標是使神經網路的行為更像人腦，這將刺激一次全新的設計浪潮。」n

n 當視覺處理開始涉及到AI時，便受到了極大的關注，主要是因為特斯拉在預計推出自動駕駛汽車的15年前就已經提出了自動駕駛概念。這為視覺處理技術，以及為處理由圖像感測器、雷達和激光雷達收集的數據所需的晶元和整體系統架構開闢了巨大的市場。但許多經濟學家和諮詢公司正尋求超越這個市場，探討AI將如何影響整體生產力。Accenture最近的報道預測，AI將使一些國家的GDP翻番（見下圖2）。雖然這將導致就業機會大幅減少，但整體收入的提高不容忽視。n

n n Fig. 2: AI』s projected impact.圖2：AI的預期影響n n

n Synopsys董事長兼聯合首席執行官Aart de Geus指出了電子學的三個浪潮——計算和網路、移動、數字智能。在後一種類型中，焦點從技術本身轉移到它可以為人們做什麼。n

n 「You』ll see processors with neural networking IP for facial recognition and vision processing in automobiles,」 said de Geus. 「Machine learning is the other side of this. There is a massive push for more capabilities, and the state of the art is doing this faster. This will drive development to 7nm and 5nm and beyond.」n

n de Geus說：「你將看到具有面部識別和汽車視覺處理的神經網路IP。機器學習是其另一面。它對於更多的能力會產生一種巨大的推動，目前的技術水平可以快速完成這些。這將推動晶元發展到7nm、5nm，甚至更高的水平。」n

n 目前的方法n

n 自動駕駛中的視覺處理在AI當前研究中佔主導地位，但該技術在無人機和機器人中的作用也越來越大。n

n Achronix公司總裁兼首席執行官Robert Blake說：「對於圖像處理的AI應用，計算複雜度很高。對於無線技術，數學很好理解。對於圖像處理，數學就像西部拓荒，工作負載複雜多變。大概花費5~10年時間才能解決市場問題，但是它對於可編程邏輯肯定會有很大的作用，因為我們需要能夠以高度並行的方式完成的變精度數學。」n

n FPGA非常適合矩陣乘法。最重要的是，它的可編程性增加了一些必要的靈活性和面向未來的設計，因為在這一點上，不清楚所謂的智能將存在於一個設計的哪部分。用於做決策的數據一些將在本地處理，一些將在數據中心中處理。但在每個實現中，其百分比可能會改變。n

n 這對AI晶元和軟體設計有很大的影響。雖然AI的大局並沒有太大的變化（大部分所謂的AI更接近於機器學習，而非真正的AI），但是對於如何構建這些系統的理解卻發生了重大的變化。n

n Arteris營銷副總裁Kurt Shuler說：「對於自動駕駛汽車，人們正在做的就是把現有的東西放在一起。為了使一個真正高效的嵌入式系統能夠學習，它需要一個高效的硬體系統。我們採用了幾種不同的方法。如果你關注視覺處理，你要做的是試圖弄清楚器件看到的是什麼，以及你如何推斷。這包括來自視覺感測器、激光雷達和雷達的數據，然後應用專門的演算法。這裡的很多事情都是試圖模仿大腦中的事情，方法是利用深度卷積神經網路。」n

n 它與真正的AI的不同之處是，現有技術水平能夠檢測和避開物體，而真正的AI能夠擁有推理能力，例如如何通過一群人正在橫穿的街道，或判斷玩皮球的小孩子是否會跑到街道上。對於前者，判斷是基於各種感測器的輸入，而感測器的輸入是基於海量數據處理和預編程的行為。對於後者，機器能夠作出價值判斷，例如判斷轉彎避開孩子可能會造成的很多結果，並做出最佳選擇。n

n Shuler說：「感測器融合是20世紀90年代出現的一種理念。你要把它變成機器可以處理的通用的數據格式。如果你在軍隊里，你擔心有人向你開槍。對於自動駕駛汽車而言，這就像面前有人推嬰兒車。所有這些系統都需要非常高的帶寬，並且都必須在其中內置安全措施。最重要的是，你必須保護數據，因為安全正在成為越來越大的問題。因此，你需要的是計算效率和編程效率。」n

n 這是今天的許多設計中所缺少的，因為太多的開發是由現成的零件搭建的。n

n Cadence高級架構師以及深度學習小組總監Samer Hijazi說：「如果你優化網路、優化問題、最小化位數，並使用為卷積神經網路定製的硬體，那麼你可以實現功率降低2~3倍的改進。效率來自軟體演算法和硬體IP。」n

n 谷歌正嘗試改變這個公式。谷歌開發了Tensor處理單元（TPU），這是專門為機器學習而創建的ASIC。為了加快AI的發展，谷歌在2015年開源了TensorFlow軟體。n

n 圖3：谷歌TPU開發板來源：谷歌n

n 其他公司擁有自己的平台。但這些都不是最終產品。這是進化的過程，沒有人能確定未來十年AI將如何發展。部分是因為AI技術的使用案例正在逐漸被發現。在某個領域裡有效的AI技術（如視覺處理）不一定適用於另一個領域（例如確定某種氣味是危險的還是安全的，抑或是二者的組合）。n

n NetSpeed Systems營銷和業務開發副總裁Anush Mohandass說：「我們在黑暗中摸索，我們知道如何做機器學習和人工智慧，但卻不知道它們真正的工作方式。目前的方法是使用大量擁有不同計算能力和不同種類的計算引擎——用於神經網路應用的CPU、DSP，你需要確定它是有效的。但這只是第一代AI。重點是計算能力和異構性。」n

n 然而，隨著問題的解決變得更有針對性，這有望改變。就像早期版本的物聯網器件一樣，沒有人知道各類市場如何演變，因此系統公司投入了一切，並使用現有的晶元技術將產品推向市場。在智能手錶的案例中，結果是電池充電後只能續航幾個小時。隨著針對這些特定應用的新晶元的開發，功耗和性能會實現平衡，方法是更有針對性的功能、本地處理與雲處理之間更智能的分布、以及對於設計中的瓶頸的更深入的理解這三者的結合。n

n ARM模型技術總監Bill Neifert說：「我們的挑戰是找到未知的瓶頸和限制。但根據於工作負載，處理器與軟體的交互方式不同，軟體本質上是並行應用程序。因此，如果你正在考慮工作負載，如金融建模或天氣圖，它們強調基礎系統的方式是不同的。你只能通過深入探索來理解。」n

n Neifert指出，軟體方面需要解決的問題需要從更高層次的抽象來看，因為這使得它們更容易約束和修復。這是拼圖的一個關鍵部分。隨著AI進軍更多市場，所有這些技術都需要發展，以達到一般技術行業，特別是半導體行業的同等效率。n

n Mohandass說：「現在我們發現，如果他們只處理好一種類型的計算，那麼架構就會很困難。但異構性的缺點是，將整體分而治之的方法變得土崩瓦解。因此，該解決方案通常涉及到超量供應或供應不足。」n

n 新方法n

n 隨著AI的應用案例超越了自動駕駛汽車領域，其應用將會擴展。n

n 這就是為什麼英特爾去年八月收購了Nervana。Nervana開發了2.5D深度學習晶元，該晶元利用高性能處理器內核，將數據通過中介層移動到高帶寬內存。 Nervana聲稱的目標是，與基於GPU的解決方案相比，該晶元訓練深度學習模型的時間將縮短100倍。n

n 圖4：Nervana的AI晶元來源：Nervanan

n eSilicon營銷副總裁Mike Gianfagna說：「這些看起來很像高性能計算晶元，本質上是使用硅中介層的2.5D晶元。你將需要大量的吞吐量和超高帶寬內存。我們已經看到一些公司在關注它，但尚不足幾十家。它還為時尚早，實現機器學習和自適應演算法，以及如何將這些與感測器和信息流整合，是非常複雜的。例如自動駕駛汽車，它從多個不同的來源串流數據並添加自適應演算法，以避免碰撞。」n

n Gianfagna表示，實現這些器件有兩個挑戰。其一是可靠性和認證。其二是安全。n

n 對於AI，可靠性需要在系統級考慮，其中包括硬體和軟體。ARM在12月收購Allinea提供了一個參照。另一個參照來自斯坦福大學，研究人員試圖量化來自軟體的裁剪計算的影響。他們發現，大規模切割或修剪不會對最終產品產生顯著影響。加州大學伯克利分校已經開發了一個類似的方法，基於的計算接近100%的準確率。n

n 正在研究節能深度學習的斯坦福大學博士研究生韓松說「與精粒修剪相比，粗粒修剪不會降低精度。」他表示，斯坦福開發的稀疏矩陣要求計算減少10倍，內存佔用減少8倍，比DRAM的能耗減少120倍。它應用於斯坦福所謂的高效語音識別引擎，壓縮導致了推理過程的加快。（Cadence最近的嵌入式神經網路峰會上提出了這些發現。）n

n 量子計算為AI系統增加了另一個選擇。 Leti首席執行官Marie Semeria表示，量子計算是她的團隊未來的方向之一，特別是AI應用。IBM Research的科學與解決方案團隊副總裁Dario Gil解釋說，使用經典計算，如果四張卡片三藍一紅，那麼有四分之一的機會猜中那張紅色的卡片。使用量子計算機和量子比特的疊加和糾纏，通過扭轉糾纏，系統每次都會給出正確答案。n

n 圖5：量子處理器來源：IBMn

n 結論n

n AI不是一件事，因此沒有單一的系統在任何地方都能完美地工作。但AI系統有一些通用要求，如下圖所示。n

n 圖6：AI的基礎來源：OneSpinn

n AI在許多市場都有應用，所有這些都需要廣泛的改進、昂貴的工具，以及支持它們的生態系統。經過多年來依靠萎縮器件來提高功率、性能和成本，如今整個市場部門都在重新思考如何進入新市場。這對於架構師來說是一個巨大的勝利，這為設計團隊增加了巨大的創造性選擇，也將刺激從工具和IP供應商一直到包裝和流程開發的巨大發展。這就像為技術行業按下了重啟按鈕，可以證明，這對於未來整個生態系統的業務都是有益的。n

n 推薦閱讀（點擊文章標題，直接閱讀）n

n n n n n n n 半導體產業鏈最全梳理，建議收藏n

n n n n n n 內憂外患的MTK將迎來生存大挑戰n n

n n n n n n SEMI中國區總裁居龍：合作共贏，助力中國半導體邁入2.0時代 | 摩爾領袖志n n

aHR0cDovL3dlaXhpbi5xcS5jb20vci9ja01RQ01uRWlKVDNyWTFyOXhaZw== (二維碼自動識別)

n 【關於轉載】：轉載僅限全文轉載並完整保留文章標題及內容，不得刪改、添加內容繞開原創保護，且文章開頭必須註明：轉自「半導體行業觀察icbank」微信公眾號。謝謝合作！n n

aHR0cDovL3dlaXhpbi5xcS5jb20vci80RG5hd2hiRVlFc2ZyVktoOTJ6eQ== (二維碼自動識別)

n 【關於徵稿】：歡迎半導體精英投稿（包括翻譯、整理），一經錄用將署名刊登，紅包重謝！簽約成為專欄專家更有千元稿費！來稿郵件請在標題標明「投稿」，並在稿件中註明姓名、電話、單位和職務。歡迎添加我的個人微信號 MooreRen001或發郵件到 jyzhang@moore.renn n

aHR0cDovL3dlaXhpbi5xcS5jb20vcS8wMng5NFZVTDhqYjAtMTAwMDB3MDNv (二維碼自動識別)