如何看待 Google TPU?寒武紀晶元較之有哪些優勢與不足?

google blog:https://cloudplatform.googleblog.com/2017/04/quantifying-the-performance-of-the-TPU-our-first-machine-learning-chip.html?m=1

ISCA Paper preprint: https://drive.google.com/file/d/0Bx4hafXDDq2EMzRNcy1vSUxtcEk/view

論文中和媒體主要講tpu與cpu、gpu進行對比,目前沒有看到有人拿tpu和寒武紀ipu相比,另外,學術機構或者公司還有哪些比較成熟的專用晶元?


深度學習加速晶元主要有四種,按靈活易用排CPU&>GPU&>FPGA&>ASIC,效率則是相反的(還有DSP,不過個人不太了解)。谷歌這次的TPU屬於ASIC,針對特定演算法優化可以達到很高的效率,缺點是靈活性較差,只支持8bit預測,無法訓練。而且應用面太窄量做不上去成本就降不下來。晶元在產量趨於無窮大的時候成本會趨於沙子價,但產量小的時候固定成本會很高。

實際上TPU是幾年前的技術,很早就看到過介紹TPU的新聞稿。但當時幾乎沒有細節,唯一能得到信息就是谷歌做了個晶元……

那麼谷歌在這個時間點上放出這篇論文並大力宣傳是什麼用意呢,我猜大概有三個可能:

1 內部已經有更好的技術,過時的技術放出來做宣傳。

幾年過去了谷歌幾乎肯定有更好的技術,TPU公開也不會給競爭者學走什麼東西。這時候論文發出來既可以抬股價又可以吸引人才。

2 和nvidia殺價

nvidia盈利大漲,股票一年翻了4倍。這個錢很大一部分來自各大公司的硬體採購。nvidia現在壟斷了伺服器GPU市場如日中天,定價底氣很足。谷歌搞TPU不一定比GPU經濟(因為量小固定成本高),但是放出來可以打壓一下nvidia,增加議價能力。

nv的老闆黃仁勛第二天就發了一篇回擊的文,表示根核彈比起來TPU就是渣。但是仔細一看兩邊的文章都有點論據不足,偷換概念。只能說全是套路。

3 戰略性忽悠

這麼多年下來很多人都發現了,谷歌發論文經常是有戰略目的的,有的時候會故意放一些煙幕彈來誤導別人的研究方向。有可能是谷歌發現TPU這個路線做不下去了所以忽悠別人跳坑。


最大的優勢不在於chip,在於與TensorFlow 的深度集成,在於軟體的full stack,性能對於g來說夠用最好,非要全方位超越gpu超越各種nn處理器沒有必要。

TPU本質上還是ASIC,還是面向某種計算框架的協處理器,雖然有幾條指令。寒武紀擴展性通用型(Nn領域內)都要強很多,指標上也好看很多。但是與現有主流nn計算框架的兼容性或者支持程度目前還沒有相關信息,寒武紀定位應該是更偏向一款IP,而不是面向某個框架專門定製的協處理器。

兩者定位不同。


  1. Google機器多,伺服器多,訓練從來都不是Google擔心的問題。我知道對每個個體研究者來說,GPU都是筆大開銷和主要預算方向,但是對Google不是問題。
  2. Google隨著Tensorflow不斷地在發布他們訓練好的,在某個領域領先的模型,為啥?因為從Google的角度,要提供的不是AI訓練雲,而是AI服務雲。服務你們這些幾十萬個研究者重要呢?還是服務潛在的所有的都可能需要AI服務的公司重要呢?這不是一個很難的選擇。
  3. 所以,Google操心的不是訓練,Google的用戶一般不需要訓練,頂了天是Finetune一次兩次,主要需求是服務,這就是為啥TPU對Google是個大戰略的原因啊。
  4. 科研者有了更好的模型,沒關係,Google可以參考,可以自行實現,可以購買吧,然後再租給自己的AI服務雲的用戶即可。

來自:Google為什麼發展TPU而不是自己造超級GPU


這幾天在微信公眾號看到了一篇專訪(「科工力量」公眾號原創內容),轉載過來。

寒武紀創始人陳天石:如何評價Google最新AI計算高性能專用硬體TPU

據媒體報道,谷歌為了滿足自身運算量的需求,並沒有去建立更多的運算中心,而是開發了適用於AI計算的高性能專用硬體—TPU。谷歌在一篇博文中提到,其自主研發的TPU在性能上一點不輸英特爾,甚至在某些性能上還有所超越。

近年來與人工智慧相關的產品如雨後春筍般冒出來,從谷歌、百度這樣的大公司,到像寒武紀這樣的初創公司,都在積極開發與人工智慧相關的產品,那麼,目前各家人工智慧的產品究竟怎麼樣?

對此,科工力量日前專訪了寒武紀科技創始人、首席執行官陳天石教授。

科工力量:谷歌需要使用上萬個中央處理器運行7天來訓練一個識別貓臉的深度學習神經網路。科大訊飛曾經採用大量CPU來支持大規模數據預處理,運行GMM-HMM等經典模型的訓練,在千小時的數據量下,效果也不理想。這種結果的原因是什麼?

答:面對特定應用領域時,CPU等通用處理器往往性能不夠好,效能比不夠高。我常把通用處理器比作瑞士軍刀,用途廣泛但不夠專註。當某個特定應用領域足夠重要,市場容量足夠大時,人們會有動機去設計製造更專用的處理器晶元。最新的例子就是深度學習處理器,可以說是為人工智慧領域打造了一把專用的菜刀。

科工力量:據媒體報道,谷歌為了滿足自身運算量的需求,開發了適用於AI計算的高性能專用硬體TPU。谷歌在一篇論文中提到,其自主研發的TPU在性能上一點不輸英特爾,甚至在某些性能上還有所超越。谷歌表示,相比類似的伺服器級Intel Haswell CPU和NVIDIA K80 GPU,TPU在AI運算測試中的平均速度要快15-30倍。更重要的是,TPU的每瓦性能要比普通的GPU高出25-80倍。

此外,谷歌工程師還為TPU開發了名為CNN1的軟體, 其可以讓TPU的運行速度比普通CPU高出70多倍。我還了解到現在Google 的Olivier Temam曾經和您合作研究過寒武紀Diannao系列晶元,對於谷歌這款TPU,您怎麼評價?

答:Google這次在ISCA 2017上發表的TPU仍然沿用傳統脈動陣列機的結構,從google的數據看,對某些特定workload效率還不夠好。事實上,這類結構我們早在ISCA2015上發表的ShiDianNao就已經討論過了(Google的同行也非常了解我們這個工作),同時MIT於2016年前後發表的Eyeriss也是類似的架構。

脈動陣列機在深度學習上優缺點現在已經逐漸被學術界和工業界所熟知,那就是做卷積時效果不錯(可能在退化情形的卷積上也會遇到困難),但是做其他類型的神經網路運算,可能效率不是那麼高,通用性不是那麼的好。寒武紀沒有走脈動陣列機的技術路線,而是邁出了具有寒武紀特色的一條通用智能處理器之路。當然Google未來一定會持續更新TPU的架構,我們十分期待未來繼續與國際工業界和學術界同行同台競技。

值得一提的是,Google發布的TPU論文,全文共引用了寒武紀團隊成員前期發表的6篇論文(世界範圍內可能沒有另外一系列工作受到Google同行如此程度的關注),並有專門的段落回顧我們這一系列工作,並且在提到DaDianNao/PuDianNao/ShiDianNao時還專門用英文注釋這幾個名字的含義(Big computer, general computer, vision computer),對我們前期工作顯示了相當的尊重。非常值得驕傲的是,我們早期與Olivier Temam教授共同開展的這一系列開拓性學術工作,已經成為智能晶元領域引用次數最多的學術論文,成為世界範圍內研發智能晶元必讀的文獻。

如您所提到的,與我們共同開展DianNao系列學術研究的Olivier Temam教授,他本人在幾年前就已經加入了Google。相信他會把DianNao系列的學術思想融入TPU後續的版本,把TPU的事業繼續推向新高度。我堅信,未來不論是寒武紀或是Google TPU的成功,都會讓DianNao系列架構在處理器發展史上留下濃墨重彩的一筆。

據傳Google發布的TPU論文獲得了ISCA2017(國際處理器架構年會)的同行評議第一名。而去年的ISCA2016的同行評議得分最高論文正是由寒武紀團隊七名核心成員與UCSB的謝源教授共同發表的關於Cambricon指令集的學術論文。而Cambricon正是寒武紀公司的英文商標,這次也隨同對這篇論文的引用進入了Google TPU的論文。

科工力量:在人工智慧晶元方面,Intel推出了針對深度學習市場的眾核CPU Knights Mill,英偉達推出了GPGPU,而且還有了DGX-1這樣的產品。那寒武紀晶元相對於Intel和英偉達的眾核晶元和GPGPU有什麼優勢?

答:寒武紀商用處理器的架構,是專門為深度學習乃至機器學習重新設計的一套全新的架構,而並非用傳統的CPU向量擴展、GPU架構或脈動陣列機架構舊瓶裝新酒,去處理深度學習應用。與這類架構相比,寒武紀處理器的運算效率更高,性能功耗比更高,在智能領域的通用性更好。寒武紀商用處理器很快會在終端和雲端先後投入商用。

科工力量:阿爾特拉展示的一款可以用於深度學習和科學計算的FPGA其雙精浮點性能為1.5TFlops。雖然性能稍弱一些,但是性能功耗比卻非常驚艷,以達到50GFlops/W,是Intel眾核晶元的四倍有餘,如果將FPGA用於機器學習,那麼整個系統對於基於標準CPU和GPU的伺服器有明顯的性能功耗比優勢,在大規模部署後可以大幅節省電費開銷。那麼對於FPGA在人工智慧領域的前景您怎麼看?FPGA相對於寒武紀有什麼優勢和劣勢?

答:傳統來說,FPGA主要大規模應用於處理器晶元研發過程中的驗證階段,用於在流片前檢驗處理器設計的正確性。近年來,FPGA常被應用於新興的應用領域,取得了一定的效果。我個人的觀點是,FPGA迭代速度快,能夠快速切入剛剛興起的領域。但當這個領域的重要性不斷凸顯,FPGA最終會被專用晶元所替代,因其運算速度和性能功耗比與專用晶元相比仍有較大差距。

科工力量:除了眾核晶元、GPGPU、FPGA來做人工智慧晶元,還有的廠商選擇DSP,那麼選擇DSP又有何優劣呢?

答:現在的許多DSP方案所採用的的架構其實類似於Google所使用的脈動陣列架構,其優缺點與之類似。

科工力量:目前,國內從事人工智慧研發的公司或單位中,好像從事軟體開發的公司偏多,比如百度深度學習研究室、訊飛超腦、出門問問、雲知聲、智齒科技、格靈深瞳、圖普科技等,但從事人工智慧專用晶元開發的就寥寥無幾了。您是怎麼看待這個現象的?

答:智能晶元是一個需要極深技術積累和極高資本投入的領域,對於普通商業公司來說門檻太高,因此大家不敢輕易去嘗試也是值得理解的。寒武紀公司源自中國科學院計算技術研究所,這個有著60年歷史的國立研究所在晶元和超級計算機研發方面一直有深厚積累。創辦一年以來,寒武紀公司可以說是站在巨人的肩膀上,集萬千寵愛於一身,承載了政府、中科院和投資人的殷切期望,我們也深感重擔在肩。未來寒武紀團隊會堅定地走下去,爭取在下一個十年為人工智慧領域的國內外同行做好墊腳石。

科工力量:您和陳雲霽老師的學術研究成果在2014年—2016年橫掃體系結構學術圈,在頂級學術會議上教老外說中文的Diannao系列: Diannao(電腦)是ASPLOS"14最佳論文(亞洲第一次)DaDiannao(大電腦)是MICRO"14最佳論文(美國以外國家的第一次)PuDiannao(普電腦)、ShiDiannao(視電腦)、還有指令集Cambricon等後繼工作都連中ASPLOS、ISCA。

目前,國內還沒有其他研究小組能在ASPLOS ISCA MICRO幾大旗艦級學術會議中最佳論文、最佳論文候選、評分最高論文輪著拿。請問您和您的團隊是怎樣做到的?

答:我和陳雲霽在學術上獲得的一系列成果,並沒有太神奇的地方。主要要感謝我們團隊長期辛苦工作的同事和同學(許多人年紀輕輕,在處理器架構領域的造詣卻是世界級的),要感謝中國科學院和計算所的長期支持,要感謝與我們一道開拓深度學習硬體加速這個全新學術領域的Google的Olivier Temam教授,以及南大周志華教授、USCB謝源教授等長期學術合作者。我要感謝我和陳雲霽的博士導師陳國良院士(中國科技大學)、姚新教授(南方科技大學計算機系主任)和胡偉武研究員(中科院計算所總工程師、龍芯中科總裁),正是在恩師們的教導下,我們才有機會同時了解處理器架構和人工智慧這兩個艱深的領域,才有機會從事交叉領域的研究。

目前我國的處理器架構領域學術和工程水平不斷提高,在許多領域的研究和工程水平已經和國際同行難分伯仲。我堅信國內同行的共同努力最終一定會帶動我國整個處理器行業的跨越式發展。我們作為青年學術研究者和創業者,必須向各位前輩同行多多學習,緊密合作,共同為我國處理器事業的發展盡綿薄之力。

科工力量:寒武紀研發自定義的指令集Cambricon,支持常用的Caffe和TensorFlow編程框架,這兩者有何特殊意義?

答:支持Caffe和TensorFlow是主動融入主流的智能生態。而處理器的生態,更有賴於底層的指令集。我們希望以自有指令集為抓手,不僅主動融入主流智能生態,更要圍繞寒武紀建立一套自主的智能生態,力爭為中國的智能產業添磚加瓦。

科工力量:據小道消息,A輪融資後寒武紀的估值已擠進中國所有AI創業公司前5。而且寒武紀的客戶包含了一串大家耳熟能詳的國內頂尖SoC Vendor和頂尖互聯網企業,創立一年就已經盈利。能說說將來我們在哪些產品上可以看到寒武紀的身影?

答:這些都是江湖謠言,我不能證實。


兩款晶元目前都沒有上市,也只能聽他們自說自話了。等著什麼時候真的被用上了,做出事來了,再評價吧。


TPU跟寒武紀都是專門做inference的. Train模型還是要靠GPU.

寒武紀的功耗比GPU低很多,大概1000倍? TPU功耗比GPU低一些,30-80倍?性能高很多,15-30倍.

而且寒武紀暫時沒量產. Google通過會通過雲計算平台來賣TPU的資源吧?據說微軟研究院MSR Redmond也在研發類似的產品.


坐等,一年後回來編輯…


回答下題主後半個問題,業界有哪些加速神經網路的專用晶元。

synopsys的EV,cadence( tensilica), vivante, CEVA都有類似產品,都是針對嵌入式視覺處理市場,只做inference不做training。

要說成熟,我感覺沒有成熟的。這個市場才剛起來不久,終端產品還基本上沒有。晶元廠商很需要終端市場的反饋才知道應該如何改進,所以雖然產品都發布了,但是遠遠談不上成熟。


表示用TPU跟寒武紀或者是GPU比都是套路。

1. TPU追求的是快快快!因為它的目的是給用戶提供推斷的,在這個用戶是爸爸的時代,文中也提到了,如果推斷太慢(Response time >7ms

)會直接導致用戶流失(人家華爾街的CEO們才不管你演算法多NB)。所以TPU用了大內存和大MMU來降低response time。

2. 寒武紀或者k80他們追求的是高精度高性能,為了研究某DNA對人類疾病的影響train一個星期都不在話下,TOP越大越好,cache越大越好(當然速度越快當然也越好)┗ ( ˙-˙ )┛

3. 總的來說寒武紀和k80還得有點兼容性吧,谷歌財大氣粗的專門給NN開發了個晶元,以後可能給每個常用演算法都搞個晶元,研究者不能說每個演算法都買個晶元吧……那老闆估計就要集體賣腎了……??゛扎心了老鐵

手機打字太細的就不說了,歡迎留言回復交流,就醬~?(′ー`?) 搞事情


四個字總結: 財大氣粗。

不信你瞧瞧tpu上的buffer


自問自答下,這裡有說到陳天石對於TPU的一些評價http://mp.weixin.qq.com/s/lWGloAtkXPI36glUmSoJEg


懶得翻牆看。

然而,我們現在還都在用顯卡啊。寒武紀得定製,TPU根本不賣啊... _(:з)∠)_ 還是說Google準備賣TPU了?


推薦閱讀:

如何評價「代碼直出工具」pix2code?
如何評價雲丁科技推出的鹿客智能門鎖Loock touch?
是否需要接受一家人工智慧offer?
人工智慧未來在交易領域會徹底取締、碾壓傳統手工交易者嗎?
自動化專業與人工智慧是什麼關係?

TAG:人工智慧 | GPU通用計算 | 晶元集成電路 | 深度學習DeepLearning | 寒武紀神經網路處理器 |