Groq把AI晶元的性能推向新高

AI晶元公司Groq由前Google員工創建,核心成員包括Google TPU的主要設計者之一Jonathan Ross。成立以來他們一直比較低調,剛剛才公開了官網。目前官網只有一張照片,但這張照片給出的信息:單晶元,400TOP/s的性能指標,8TOPs/W的能效指標,可以說是簡單粗暴。從這個團隊成員和Google TPU的淵源來看,我們不妨拿Google TPU來作為參考分析一下。


峰值性能

Google TPU共有64K個MAC(65536,256x256的脈動陣列)運行在700MHz。因此理論上每秒可以做65,536 × 700,000,000 = 46T個乘加運算(MAC),也就是92TOP/s(這個數據是指8比特整數的操作,如果是16比特整數,則要少一半)。(可以參考脈動陣列 - 因Google TPU獲得新生)

Groq的晶元能達到400TOP/s,則是TPU的4倍多。假設他們採用和TPU類似的脈動陣列架構,則可能通過提高時鐘頻率和增加MAC數量來實現這個性能,比如時鐘和MAC數量都翻倍。Google TPU採用28nm工藝,面積是300mm左右。如果Groq到2018年的晶元採用16nm甚至更新的工藝,做到時鐘和MAC數量翻倍應該難度不大。不過,如果還是類似脈動陣列的架構,MAC數量太大的話(假設達到128K)會非常難以調度,利用率是個大問題;如果為了提高利用率,使用較大的Batch size則會造成更大的延時。我們看到Google的TPU2採用了兩個較小的MAC陣列(下圖),是否Groq也會採用多個比較小的MAC陣列來做更粗粒度的並行呢?

當峰值性能達到400TOP/s的時候,對訪存(片上memory的數量,片外memory的訪問帶寬)也會有新的要求,否則這種峰值性能根本也用不上。不過,如果Groq使用的是類似TPU的脈動陣列架構,這個問題到不是太大,因為它本身對片外memory的訪問帶寬的要求不高(TPU只需要30GB/s)。當然,片上memory可能還需要增加(TPU是28MB)。

另外,我們知道Google TPU的峰值性能92TOP/s是指的8比特INT型的數據處理,如果是按INT16計算的話,峰值就是一半,46TOP/s。而到了TPU2,由於增加對training的支持,基本的操縱是FP16的乘法和FP32的加法,這個硬體代價要大很多,所以TPU2的單晶元峰值性能就只能到45 TFLOPS了。因此,如果Groq的晶元的目標應用也是Inference,400TOP/s的性能是指INT8,還是比較容易想像的;如果它還支持training需要的FP16運算,那麼能達到400TOP/s性能,就不知道是用上什麼大招了。


能耗效率

根據Google Blog文章 「An in-depth look at Google』s first Tensor Processing Unit (TPU)」,Google TPU的能耗是40W左右(「 The TPU ASIC is built on a 28nm process, runs at 700MHz and consumes 40W when running」)。不排除這個能耗是平均能耗,峰值能耗要更高一些。算來它的能耗效率是92TOP/s/40W,即大約2.3TOP/s/W。因此Groq的8TOP/s/W的指標也是TPU的不到4倍,而這個指標在我們目前看到的AI晶元中(包括年初看到的ISSCC2017中專門針對嵌入應用的晶元,參考「梳理一下我的文章」中ISSCC2017系列文章),也算是非常不錯的了。

不過,考慮到Google TPU的設計並沒有在低功耗上花太大功夫,Groq如果用更好的工藝加上比較細緻的低功耗設計,實現這個能耗效率應該也是合理的。


專利問題

寫到這裡突然想到專利的問題,我之前分析過Google TPU的專利(Google的神經網路處理器專利)。從Groq成立到發布產品的時間來看,感覺他們拋開Google TPU的經驗另外搞一個全新的東西似乎不大可能,那麼專利問題怎麼解決呢?

當然,晶元架構的專利侵權實際也是很難界定的,之前就有朋友問有沒有可能搞反向工程來判斷某款晶元是不是侵犯了他們的專利。這就是另一個話題了。


以上的討論其實都是臆測而已,大家也不用當真。不過groq「簡單粗暴」網站還是挺意思的。對於AI晶元的startup來說,2018年就算不是畢業大考,也至少到了學期末考試了,再多PR也代替不了實際產品的指標啊。

T.S.

歡迎關注我的微信公眾號:StarryHeavensAbove

題圖來自網路,版權歸原作者所有

推薦閱讀:

晶圓代工廠將面臨多項挑戰 | 半導體行業觀察
AI 會讓IC 工程師失業嗎
大數據時代來臨,可重構計算復興
如何選擇合適的電磁場模擬演算法

TAG:人工智能 | 芯片集成电路 | 机器学习 |