標籤:

GPU 、APU、CUDA、TPU、FPGA介紹

GPU 、APU、CUDA、TPU、FPGA介紹

GPU 、APU、CUDA、TPU、FPGA介紹

購買顯卡主要關註:顯存、帶寬和浮點運算數量

GPU :圖形處理器(英語:Graphics Processing Unit,縮寫:GPU),又稱顯示核心、視覺處理器、顯示晶元,是一種專門在個人電腦、工作站、遊戲機和一些移動設備(如平板電腦、智能手機等)上圖像運算工作的微處理器。

用途是將計算機系統所需要的顯示信息進行轉換驅動,並向顯示器提供行掃描信號,控制顯示器的正確顯示,是連接顯示器和個人電腦主板的重要元件,也是「人機對話」的重要設備之一。顯卡作為電腦主機里的一個重要組成部分,承擔輸出顯示圖形的任務,對於從事專業圖形設計的人來說顯卡非常重要。

APU:(Accelerated Processing Unit)中文名字叫加速處理器,是AMD「融聚未來」理念的產品,它第一次將中央處理器和獨顯核心做在一個晶片上,它同時具有高性能處理器和最新獨立顯卡的處理性能,支持DX11遊戲和最新應用的「加速運算」,大幅提升了電腦運行效率。

CUDA:(Compute Unified Device Architecture),是顯卡廠商NVIDIA推出的運算平台。 CUDA?是一種由NVIDIA推出的通用並行計算架構,該架構使GPU能夠解決複雜的計算問題。 它包含了CUDA指令集架構(ISA)以及GPU內部的並行計算引擎。 開發人員現在可以使用C語言來為CUDA?架構編寫程序,C語言是應用最廣泛的一種高級編程語言。所編寫出的程序於是就可以在支持CUDA?的處理器上以超高性能運行。CUDA3.0已經開始支持C++和FORTRAN。

TPU:(Tensor Processing Unit)即張量處理單元[1] ,是Google設計一款為機器學習而定製的晶元,經過了專門深度機器學習方面的訓練,它有更高效能(每瓦計算能力)。

因為它能加速其第二代人工智慧系統TensorFlow的運行,而且效率也大大超過GPU――Google的深層神經網路就是由TensorFlow引擎驅動的。TPU是專為機器學習量身定做的,執行每個操作所需的晶體管數量更少,自然效率更高。[3]

TPU每瓦能為機器學習提供比所有商用GPU和FPGA更高的量級指令,這基本相當於7年後的科技水平。TPU是為機器學習應用特別開發,以使晶元在計算精度降低的情況下更耐用,這意味每一個操作只需要更少的晶體管,用更多精密且大功率的機器學習模型,並快速應用這些模型,因此用戶便能得到更正確的結果

FPGA(Field-Programmable Gate Array),即現場可編程門陣列,它是在PAL、GAL、CPLD等可編程器件的基礎上進一步發展的產物。它是作為專用集成電路(ASIC)領域中的一種半定製電路而出現的,既解決了定製電路的不足,又克服了原有可編程器件門電路數有限的缺點。

英偉達(Nvidia)的圖形處理器(GPU)怎樣分類的,分別面向什麼市場?

zhihu.com/question/6016 介紹比較詳細

developer.nvidia.com/cu 英偉達官網介紹

wemedia.ifeng.com/26436

從GPU、TPU到FPGA及其它:一文讀懂神經網路硬體平台戰局

2017年8月17 英偉達的 GPU

這一家是很難被戰勝的。來自大型視頻處理市場的收益驅動著巨大的規模經濟。新款英偉達 V100 帶有一種新的 Tensor Core 架構,速度可達 15 TFlops(單精度/SP)或 120 TFlops(浮點精度,其中帶有 FP16 的乘法和 FP32 的累加或加法,非常適合機器學習)。英偉達在它們的 DGX-1 中裝入了 8 塊計算卡,速度可達 960 Tensor TFlops.

AMD 的 GPU

在機器學習領域,AMD 一直是英偉達的追趕者。即將發布的 AMD Radeon Instinct MI25 有希望達到 12.3 TFlops(SP)或 24.6 TFlops(FP16)。如果你把英偉達的 Tensor Core 也算進來,則 AMD 完全無力競爭。英偉達設備的帶寬 900GB/s 也是 AMD 484GB/s 的兩倍。

谷歌的 TPU

谷歌原來的 TPU 相比於 GPU 有很大的領先,並幫助 DeepMind 的 AlphaGo 贏得了與李世石的圍棋大戰。據描述,原來的 700 MHz TPU 有 95 TFlops 的 8 位計算能力或 23 TFlops 的 16 位計算能力,同時功耗僅有 40W。這可比當時的 GPU 快得多,但現在落後於英偉達的 V100;但在單位功耗的計算能力上,TPU 並沒落後。據稱新的 TPU2 是一款帶有 4 塊晶元的 TPU 設備,速度可達到 180 TFlops 左右。每塊晶元的性能都翻倍了,達到了 45 TFlops 的 16 位計算能力。你可以看到與英偉達 V100 的差距正在變小。你沒法買到 TPU 或 TPU2。谷歌正在通過它們的雲提供這些 TPU 服務,包含 64 台設備的 TPU pod 速度高達 11.5 PetaFlops。TPU2 上巨大的散熱片說明了一些原因,但市場正在發生變化——從單獨的設備轉向了設備的組合以及將這些組合以雲的形式提供。

sohu.com/a/191889285_74 2017-09-14 08:14

CUDA助力英偉達成為AI產業目前最大受益者,FPGA、ASIC等「AI晶元」架構逐漸起步

CUDA是英偉達基於其生產的GPUs的一個並行計算平台和編程模型,便於更多的技術人員參與開發

CUDA,Compute Unified Device Architecture的簡稱,是由NVIDIA公司創立的基於他們公司生產的圖形處理器GPUs的一個並行計算平台和編程模型。開發人員可以通過C/C++、Fortran等高級語言來調用CUDA的API,來進行並行編程,達到高性能計算目的。CUDA平台的推出,讓很多開發人員在沒有完全精通GPU的硬體架構和運算邏輯的情況下,參與到並行計算的開發中來。

CUDA幫助英偉達成為AI產業目前最大受益者,GPU生態效應使得英偉達處於領先地位

自從2013年開始英偉達發現的GPU硬體架構特別適合深度學習演算法,越來越多的AI開發開始應用在英偉達GPU平台之上,同時CUDA良好的用戶體驗也從另一方面促進了英偉達GPU平台在深度學習市場的佔有率,英偉達的股價從13年8月份的12美元漲到目前的170美元左右。CUDA開發平台以及GPU架構上的積累的開發者生態,使得英偉達在AI晶元領域處於領先地位。

CUDA之於GPU,相當於C/C++之於CPU,VHDL/Verilog之於FPGA,CUDA是目前最友好的AI開發平台

GPU、FPGA、ASIC是目前主流的三種AI計算架構,GPU目前使用最廣,代表廠商有英偉達;FPGA主要用於雲端的AI加速,主要廠商有Xilinx、Altera(被因特爾收購);ASIC主要用在終端等低功耗場景,代表廠商有谷歌TPU、寒武紀(華為NPU)。各種不同的硬體機構對應著不同的編程環境,經典的因特爾CPU架構,對應的是C/C++;GPU是目前AI應用的主流架構,而且CUDA的編程相對友好(可以使用C/C++,Fortran,Java等),優勢相對明顯;FPGA需要使用硬體語言VHDL/Verilog,硬體語言需要硬體架構、時序等底層知識,對開發人員的要求較高;ASIC一般會有自己指令集,例如寒武紀的晶元使用的是diannaoyu(將之前深度學習演算法指令從CICS指令集轉化成RSIC指令集),對開發人員的要求更高。

FPGA、ASIC等AI晶元架構逐漸起步,「AI晶元+」產業鏈公司投資機遇大

在FPGA方面,Xilinx、Altera等已經有云端伺服器的AI加速產品上線,另外百度等公司在伺服器優化等方面也使用大量的FPGA,整體來說國內FPGA實力較弱;ASIC架構方面,寒武紀、深鑒科技等中國企業在AI晶元方面在全球處於第一梯隊,與其合作的公司有望獲益。例如,中科曙光與寒武紀同為中科院系背景公司,在雲端AI晶元方面開展合作(Digitimes報道),未來有望持續受益。


推薦閱讀:

《2001太空漫遊》50周年:一部電影和一整個時代
亞馬遜正在秘密開發Vesta 家用機器人,計劃2019年推出
Intel將來是否仍然是一家處理數據的公司?
[探科技]進擊的人工智慧
人工智慧神助攻:亞馬遜進軍AI實體店超爽用戶體驗!

TAG:人工智慧 |