如何評價英偉達發布的 Tesla V100 計算卡？

01-03

5120顆CUDA！Nvidia正式發布Tesla V100計算卡
815mm^2！簡直就是驚了！

原文：新一代 Volta 架構解析 - 知乎專欄

老黃在 GTC 2017 上發布了 Nvidia 新一代的 GPU 架構 Volta，以及一塊巨無霸（815 mm2）晶元 GV100。

與以往不同的是，這一代架構設計把更多的精力放在了提高深度學習的性能上，幾乎所有的新特性都與之有關。

Tensor Core

作為 Volta 最主要的新特性，Tensor Core 的加入使兩個 4 x 4 大小的矩陣乘法運算可以在一個周期內完成，相當於 4 x 4 x 4 = 64 個乘加運算，也就是說單個 SM 達到了 1024 FLOPS 的理論性能。

這樣設計背後的邏輯是更多的提高數據在 datapath 中的復用。設想若按照順序依次計算這兩個 4 x 4 矩陣中的每一個元素，則一共需要 64 x 2 = 128 次寄存器讀寫。但若將其設計成一條指令，則只需要 4 x 4 = 16 次寄存器讀寫（假設兩個 FP16 被打包在一個 FP32 寄存器中）。

首先受益於 Tensor Core 的用戶，是各位正在苦逼「煉丹」的人工智慧科學家們，既然可以大幅減少深度學習的訓練時間，等於人生的有效時間又多了幾年。

可配置的 L1 Cache 和 Shared Memory

早期的 Kepler 架構中一個頗為好用的特性就是 CUDA 程序員可以根據應用特點，自行配製 L1 Cache 和 Shared Memory 的大小。在 Volta 架構中，我們又重新引入這個特性，並且將兩者的總大小做到了 128 KB。相信這對於有 Transpose，Histogram 需求的應用，或者嚴重依賴 L1 cache 命中率的應用都會帶來不小的提高。

獨立的線程調度

SIMT（Single instruction, multiple threads）模型中一個被經常詬病的問題是，若一個 Warp 內的線程發生了」分道揚鑣「（control flow diverge）的情況，往往會產生意想不到的死鎖，且線程之間也一直無法細粒度的同步（synchronization）或搶佔（preemption）。

作為 Volta 的 Soul 之一，Thread-Is-A-Thread 的特性讓每一個線程都有了自己的 PC 和 Call Stack，從編程模型上變得更加接近 MIMD（Multiple Instruction, Multiple Data）。

一個典型的應用場景是 32 個線程並發的往一個鏈表中插入節點，得益於 Thread-Is-A-Thread，未來我們可以在 GPU 上執行如下的代碼，且不用擔心各種未知的死鎖。

__device__ void insert_after(Node *a, Node *b) { Node *c; lock(a); lock(a-&>next); c = a-&>next;


    a-&>next = b;

    b-&>prev = a;
    b-&>next = c;

    c-&>prev = b;

unlock(c); unlock(a); }

寫在最後

Volta 架構的推出意味著 Nvidia 越來越重視其 GPU 上通用計算（深度學習）的性能，以期打開人工智慧計算市場。從股價上的反饋來看，投資者們也很看好這一路線。

Nvidia 上海 Compute Arch 組作為這一領域的重要的團隊之一，參與了這一次 Volta 架構的整個設計及驗證環節，歡迎更多有志於深度學習以及體系結構設計的同學加入我們。詳情請參考：[上海] NVIDIA Computing Architecture 組招聘

晶體管多就是粗暴，大力出奇蹟啊！

應用多用什麼，我們就在硬體上實現什麼，這妥妥地是做DSP的思路啊！

所以朝鮮說要核實驗了。。。

終於Volta來了。5120單元，1455MHz，16GB HBM2。希望遊戲卡早點上。緩存大很多，應該渲染也能有很大提升。

基本上幹掉了絕大多數AI晶元startup… tensor core的絕對性能處理矩陣運算，通用gpu部分處理其它運算，還有大內存大帶寬加持，各方面都沒有太多短板。google的tpu和它比更像個半成品…

還記得去年nvidia發布P100的時候，大家紛紛表示，卧槽驚了。

V100增大核心面積也是相當兇殘，直接加到5120sp。

在專業領域...超算或者深度學習什麼的...這是個好東西。

可作為普通消費者，V100更多的是對volta架構的展望，意義大於用途。

GP100沒有出現在消費級，不像上一代的GM200，GV100可能也不會出現在消費級，他可能只是取消Rops的專業計算核心。

不過按照這代來看，GP102的核心規格也不比GP100遜色太多，只是閹割了精度和顯存。volta也有可能是這樣...

不過由於AMD實在不給力，逼得nvidia也只能擠牙膏，下一代應該還是pascal。畢竟nvidia已經領先AMD基本整整一代了。

看到volta這麼強，AMD翻身？

tan90°

我只想知道一個問題，這麼大的die size，怎麼塞進光刻版里的

GV100核心，16GB HBM2，5120個CUDA（據說設計的時候屏蔽了一組還是兩組）

我買，我買還不行嗎

當然大部分人對於Tesla V100還是沒啥想法的，畢竟用不到。不過我們可以窺見未來Volta遊戲顯卡的性能。

如果按照Tesla V100比P100提升1倍以上的性能的話，那麼明年或者今年下半年的Volta遊戲顯卡的性能大概就是這個樣子的：

Titan Xv=信仰！

GTX 2080 Ti=GTX 1080 Ti SLI

GTX 2080=GTX 1080 SLI

GTX 2070=GTX 1080 Ti

GTX 2060=GTX 1080

GTX 2050Ti=GTX 1060

GPU發展越來越喪心病狂了！！！NVIDIA CEO黃仁勛在GTC 2017大會上發布了基於Volta架構的旗艦計算卡 Tesla V100，擁有超越上一代的5120個cuda單元，並且增加能提高深度計算性能的Tensor單元，因此晶體管數目足足有210億之多，核心頻率為1455MHz，16GB HBM2顯存，浮點性能更是達到單精度浮點15 TFLOPS，雙精度浮點7.5 TFLOPS。

按照完整5376cuda來算，2080ti估計會有5120cuda

2080=3840cuda

2070=3200cuda

相比於上一代性能剛好越級！真是一點牙膏都不擠！

815平方毫米的核心！就意味著titan V將擁有600mm以上的面積。

沒想到一上來就發布了pcie插槽的TESLA，居然一改原來的亮綠色變成了土豪金！

tesla V100實體和150w的單槽卡，估計是降頻版本。

這還不是完整版的volta（5376個流處理器），估計還有更大的核彈等著我們

老黃：我們是造高性能計算晶元的，你看我們的晶元多麼屌多麼屌，甚至可以用來跑圖形計算！我們特意開發了Windows圖形驅動程序，這樣你們玩機器學習從入門到放棄之後就可以立即玩遊戲啦！

瘋狂的守護首發優勢！

黃仁勛聰明人！

看完發布之後唯一後悔的就是沒有買NV的股票。以後神經網路處理晶元基本就是NV、Arm、FPGA三分天下了

AMD要倒閉了

另外好像看到vega的3dmark跑分三項都漏出來了，1.2G核心+700MHz HBM2，基本上就是個1070的水平，憋這麼久憋出來個1070，看來農企是無力懟老黃了

應該說 CPU 已經發展到進入了瓶頸期。AMD的ryzen 在單核性能上達到了intel的93%。但是在多核性能上比intel更好。所以和 intel 有的一戰。

但是 GPU 這幾年的功能增加很快。張量單元專門處理矩陣，半精度。包括AMD推出的 mantle 和非同步。可以說GPU 還在火速發展期。所以投入的資金和人力要求更多。可以看出AMD 追不上 NVIDIA。至少落後2代。在專業繪圖，3D製作，通用計算和AI上差距更是明顯。所以說 AMD 更可能把精力放在遊戲上。 V100的出現可以表明 nvidia 至少吊打 AMD ， 3年以上。

VEGA：我要發功了！！！

VOLTA：哦。就這破東西，我乾脆嚇嚇這二貨。

VEGA：mmp。

從構架上，GV100是個全力向DL優化的GPU，舉個例子，其DL的能耗比甚至超過了GOOGLE的TPU，可以說是介於DL ASIC和傳統GPU的過度，當然如果計算側重於半精度GEMM那麼你的應用也能從TC中受益。

GV100在效率上也較NV以前的GPU有所提高。

重新定義什麼是計算密集型應用。

有卵用，產能不足一切都是浮雲

一張圖說明【圖侵刪】