如何評價英偉達發布的 Tesla V100 計算卡?

5120顆CUDA!Nvidia正式發布Tesla V100計算卡

815mm^2!簡直就是驚了!


原文:新一代 Volta 架構解析 - 知乎專欄

老黃在 GTC 2017 上發布了 Nvidia 新一代的 GPU 架構 Volta,以及一塊巨無霸(815 mm2)晶元 GV100。

與以往不同的是,這一代架構設計把更多的精力放在了提高深度學習的性能上,幾乎所有的新特性都與之有關。

Tensor Core

作為 Volta 最主要的新特性,Tensor Core 的加入使兩個 4 x 4 大小的矩陣乘法運算可以在一個周期內完成,相當於 4 x 4 x 4 = 64 個乘加運算,也就是說單個 SM 達到了 1024 FLOPS 的理論性能。

這樣設計背後的邏輯是更多的提高數據在 datapath 中的復用。設想若按照順序依次計算這兩個 4 x 4 矩陣中的每一個元素,則一共需要 64 x 2 = 128 次寄存器讀寫。但若將其設計成一條指令,則只需要 4 x 4 = 16 次寄存器讀寫(假設兩個 FP16 被打包在一個 FP32 寄存器中)。

首先受益於 Tensor Core 的用戶,是各位正在苦逼 「煉丹」 的人工智慧科學家們,既然可以大幅減少深度學習的訓練時間,等於人生的有效時間又多了幾年。

可配置的 L1 Cache 和 Shared Memory

早期的 Kepler 架構中一個頗為好用的特性就是 CUDA 程序員可以根據應用特點,自行配製 L1 Cache 和 Shared Memory 的大小。在 Volta 架構中,我們又重新引入這個特性,並且將兩者的總大小做到了 128 KB。相信這對於有 Transpose,Histogram 需求的應用,或者嚴重依賴 L1 cache 命中率的應用都會帶來不小的提高。

獨立的線程調度

SIMT(Single instruction, multiple threads)模型中一個被經常詬病的問題是,若一個 Warp 內的線程發生了 」分道揚鑣「 (control flow diverge)的情況,往往會產生意想不到的死鎖,且線程之間也一直無法細粒度的同步(synchronization)或搶佔(preemption)。

作為 Volta 的 Soul 之一,Thread-Is-A-Thread 的特性讓每一個線程都有了自己的 PC 和 Call Stack,從編程模型上變得更加接近 MIMD(Multiple Instruction, Multiple Data)。

一個典型的應用場景是 32 個線程並發的往一個鏈表中插入節點,得益於 Thread-Is-A-Thread,未來我們可以在 GPU 上執行如下的代碼,且不用擔心各種未知的死鎖。

__device__ void insert_after(Node *a, Node *b)
{
Node *c;
lock(a); lock(a-&>next);
c = a-&>next;

a-&>next = b;
b-&>prev = a;

b-&>next = c;
c-&>prev = b;

unlock(c); unlock(a);
}

寫在最後

Volta 架構的推出意味著 Nvidia 越來越重視其 GPU 上通用計算(深度學習)的性能,以期打開人工智慧計算市場。從股價上的反饋來看,投資者們也很看好這一路線。

Nvidia 上海 Compute Arch 組作為這一領域的重要的團隊之一,參與了這一次 Volta 架構的整個設計及驗證環節,歡迎更多有志於深度學習以及體系結構設計的同學加入我們。詳情請參考:[上海] NVIDIA Computing Architecture 組招聘


晶體管多就是粗暴,大力出奇蹟啊!

應用多用什麼,我們就在硬體上實現什麼,這妥妥地是做DSP的思路啊!


所以朝鮮說要核實驗了。。。

終於Volta來了。5120單元,1455MHz,16GB HBM2。希望遊戲卡早點上。緩存大很多,應該渲染也能有很大提升。


基本上幹掉了絕大多數AI晶元startup… tensor core的絕對性能處理矩陣運算,通用gpu部分處理其它運算,還有大內存大帶寬加持,各方面都沒有太多短板。google的tpu和它比更像個半成品…


還記得去年nvidia發布P100的時候,大家紛紛表示,卧槽驚了。

V100增大核心面積也是相當兇殘,直接加到5120sp。

在專業領域...超算或者深度學習什麼的...這是個好東西。

可作為普通消費者,V100更多的是對volta架構的展望,意義大於用途。

GP100沒有出現在消費級,不像上一代的GM200,GV100可能也不會出現在消費級,他可能只是取消Rops的專業計算核心。

不過按照這代來看,GP102的核心規格也不比GP100遜色太多,只是閹割了精度和顯存。volta也有可能是這樣...

不過由於AMD實在不給力,逼得nvidia也只能擠牙膏,下一代應該還是pascal。畢竟nvidia已經領先AMD基本整整一代了。

看到volta這麼強,AMD翻身?

tan90°


我只想知道一個問題,這麼大的die size,怎麼塞進光刻版里的


GV100核心,16GB HBM2,5120個CUDA(據說設計的時候屏蔽了一組還是兩組)

我買,我買還不行嗎


當然大部分人對於Tesla V100還是沒啥想法的,畢竟用不到。不過我們可以窺見未來Volta遊戲顯卡的性能。

如果按照Tesla V100比P100提升1倍以上的性能的話,那麼明年或者今年下半年的Volta遊戲顯卡的性能大概就是這個樣子的:

Titan Xv=信仰!

GTX 2080 Ti=GTX 1080 Ti SLI

GTX 2080=GTX 1080 SLI

GTX 2070=GTX 1080 Ti

GTX 2060=GTX 1080

GTX 2050Ti=GTX 1060


GPU發展越來越喪心病狂了!!!NVIDIA CEO黃仁勛在GTC 2017大會上發布了基於Volta架構的旗艦計算卡 Tesla V100,擁有超越上一代的5120個cuda單元,並且增加能提高深度計算性能的Tensor單元,因此晶體管數目足足有210億之多,核心頻率為1455MHz,16GB HBM2顯存,浮點性能更是達到單精度浮點15 TFLOPS,雙精度浮點7.5 TFLOPS。

按照完整5376cuda來算,2080ti估計會有5120cuda

2080=3840cuda

2070=3200cuda

相比於上一代性能剛好越級!真是一點牙膏都不擠!

815平方毫米的核心!就意味著titan V將擁有600mm以上的面積。

沒想到一上來就發布了pcie插槽的TESLA,居然一改原來的亮綠色變成了土豪金!

tesla V100實體和150w的單槽卡,估計是降頻版本。


這還不是完整版的volta(5376個流處理器),估計還有更大的核彈等著我們


老黃:我們是造高性能計算晶元的,你看我們的晶元多麼屌多麼屌,甚至可以用來跑圖形計算!我們特意開發了Windows圖形驅動程序,這樣你們玩機器學習從入門到放棄之後就可以立即玩遊戲啦!


瘋狂的守護首發優勢!

黃仁勛 聰明人!


看完發布之後唯一後悔的就是沒有買NV的股票。以後神經網路處理晶元基本就是NV、Arm、FPGA三分天下了


AMD要倒閉了

另外好像看到vega的3dmark跑分三項都漏出來了,1.2G核心+700MHz HBM2,基本上就是個1070的水平,憋這麼久憋出來個1070,看來農企是無力懟老黃了


應該說 CPU 已經發展到 進入了瓶頸期。AMD的ryzen 在單核性能上 達到了intel的93%。 但是在多核性能上比intel更好。 所以和 intel 有的一戰。

但是 GPU 這幾年的功能增加很快。張量單元專門處理矩陣,半精度。包括AMD推出的 mantle 和非同步。 可以說GPU 還在火速發展期。所以投入的資金和人力要求更多。 可以看出AMD 追不上 NVIDIA。 至少落後2代。 在 專業繪圖,3D製作,通用計算和AI上 差距更是明顯。所以說 AMD 更可能把精力放在遊戲上。 V100的出現可以表明 nvidia 至少 吊打 AMD , 3年以上。


VEGA:我要發功了!!!

VOLTA:哦。就這破東西,我乾脆嚇嚇這二貨。

VEGA:mmp。


從構架上,GV100是個全力向DL優化的GPU,舉個例子,其DL的能耗比甚至超過了GOOGLE的TPU,可以說是介於DL ASIC和傳統GPU的過度,當然如果計算側重於半精度GEMM那麼你的應用也能從TC中受益。

GV100在效率上也較NV以前的GPU有所提高。


重新定義什麼是計算密集型應用。


有卵用,產能不足一切都是浮雲


一張圖說明【圖侵刪】


推薦閱讀:

片上網路NoC為何還沒有得到實際應用?
集成電路的工作原理是什麼?
人類歷史上第一個集成電路使用什麼儀器製作的?
集成電路晶元電極如何引出來?
碳納米管能否拯救摩爾定律?

TAG:半導體 | NVIDIA英偉達 | 顯卡 | 晶元集成電路 |