人機大戰柯潔勝算不到一成,AlphaGo 身後的 TPU 殺傷力究竟有多強大?
今天,升級版「AlphaGo 2.0」將再次對戰人類頂級棋手,這次是排名世界第一的柯潔。在去年的「人機大戰」中 AlphaGo 曾以 4:1 戰勝李世石,今年年初又偽裝成神秘棋手「Master」橫掃圍棋界,獲得 60 勝 0 負 1 和(網路掉線)的記錄,包括打敗柯潔。
圍棋被認為是人類智慧最後的堡壘,而柯潔是目前世界上排名第一的頂尖棋手。經過前幾次的對弈,人類與 AlphaGo 的實力懸殊之大已經讓很多人不抱人類能獲勝的希望。中國棋壇另一位重要人物,世界大賽「8 冠王」古力甚至直言,柯潔勝一局的希望不足 10% 。
在去年的 Google I/O 大會上,谷歌就曾宣稱 AlphaGo 之所以能這般所向披靡,是因為有一款「秘密武器」,那就是 TPU(Tensor Processing Unit),一款專為谷歌深度學習系統 TensorFlow 定製的 AI 晶元。下面,深圳灣就帶您一起解開有關 TPU 的秘密。
早在 2006 年,谷歌就在考慮為神經網路構建一個專用集成電路(ASIC)。 2013 年隨著數據量的急速膨脹,提高計算能力的需求開始變得更加迫切。
2015年 11 月,谷歌開源了其王牌機器學習系統 TensorFlow,次年 3 月,應用了 TensorFlow 深度學習系統的 AlphaGo 在「人機大戰」中一戰成名,也使得也使得這款 AI 學習系統及其硬體基礎 TPU 聲名遠播。
作為一個雲計算硬體和軟體系統,TPU 是專門為機器學習而設計的晶元,其出現的使命在於加速谷歌人工智慧落地的速度。其第一代 TPU 被 AlphaGo 人工智慧系統用作其預測和決策的基礎,可提供高達每秒 180 萬億次浮點運算的性能,大大加速了對單個大型機器學習模型的培訓。
不久前在備受矚目的 Google I/O 2017 開發者大會上,谷歌又推出了第二代 TPU 升級版本,它比以往任何的 TPU 運行得都要快,而且可以加速訓練和運行 ML 模型。
而上個月,谷歌還專門發布了一篇論文,公布了 TPU 一些相關的技術細節,並直接將矛頭對準了 AI 晶元巨頭英偉達,稱:「TPU 處理速度比當前 GPU 和 CPU 要快 15 到 30 倍」。
TPU 內部架構
我們先來看看這篇論文談到的一些有關 TPU 的要點,需要提及的是,下列數據是基於谷歌自己公司的標準測試得出的:
· TPU 是一種 ASIC,需要先用 GPU 訓練神經網路,再用 TPU做推斷。
· TPU 沒有與 CPU 密切整合,而是設計成了一個 PCIeI/O 匯流排上的協處理器,可以像 GPU 一樣插到現有的伺服器上。
·在推斷任務中,TPU 平均比英偉達的 Tesla K 80 GPU或英特爾E5-2699 v3 CPU速度快 15 至 30 倍左右。
·一個 TPU 的 MAC 是 Tesla K 80 的 25 倍,片上內存容量達到 K80 的 3.5 倍,而且體積更小。
· TPU 的功耗效率(performance/Watt,每耗電 1 瓦的性能)比 GPU 和 CPU 高出 30 至 80 倍。
·如果對 TPU 進行優化,給它和 K80 一樣大的內存,他的速度能比 GPU 和 CPU 高 30 - 50 倍,公好效率高 70 - 200 倍。
——『In-Datacenter Performance Analysis of a Tensor Processing Unit』
這篇論文將在今年 6 月正式發表於多倫多舉辦的計算機體系結構國際研討會(International Symposium on Computer Architecture, ISCA)上。傳言谷歌也曾考慮像微軟一樣用 FPGA,因為開發起來更加靈活。但是經過測試之後發現速度提升不夠。
黃仁勛在 GTC 大會上展示新品
谷歌 VS 英偉達,一場看似硝煙瀰漫的戰爭,實則各有未來
在谷歌的影響下,其他科技公司也陸續看到了 AI 定製化晶元未來的發展潛力,至今已有數十種類似的定製化 AI 晶元陸續問世。不僅如此,英特爾、微軟、三星也紛紛入局,這讓近年來在深度學習領域享有支配性地位的晶元供應商 Nvidia 倍感壓力。
為了做出反擊,Nvidia 也開始加強其新推的 GPU 晶元的定製化和專業性。在不久前英偉達 GTC 大會上,Nvidia 發布了基於新一代圖形架構 Volta 的 Tesla V100 。特斯拉 V100 配備了 640 個 Tensor 內核,能提供提供了高達 120 teraflops 的、驚人的深度學習能力,它們是專為運行深入學習網路中使用的數學運算而設計的。
作為晶元製造商的大客戶,谷歌揭幕 TPU 對 CPU 巨頭英特爾和 GPU 巨頭英偉達來說都是不小的商業壓力。除了英偉達,英特爾也在去年推出了適用於深度學習的處理器架構和晶元,意欲擴張當下的市場份額,抵擋谷歌帶來的衝擊。但是目前看來,「定製晶元」的需求可能比他們預計還要更深。
但是,也許谷歌根本並無意參與這場競爭。GPU 巨頭英偉達 CEO 黃仁勛就曾告訴『華爾街日報』,兩年前谷歌就意識到 GPU 更適合訓練,而不善於做訓練後的分析決策。谷歌打造 TPU 的動機只是想要一款更適合做分析決策的晶元。這一點在谷歌的官方聲明裡也得到了印證:TPU 只在特定機器學習應用中作輔助使用,公司將繼續使用其他廠商製造的 CPU 和 GPU。
事實上,訓練神經網路模型,還是離不開 GPU 和 CPU。而對於 CPU 製造商而言,真正的挑戰是提供在考慮到能耗和效率的前提下,具有極高推理性能的晶元。TPU 是一款推理晶元,其出現並不是為了取代 CPU 或者GPU,而是作為一種補充。
儘管如此,由於谷歌 TPU 論文引起的反響太大,迫使感受到威脅的英偉達很快做出的回應。英偉達回應說,GPU 在機器學習的推理(inferencing)方面相對於 TPU 有一些優勢,還能用於機器學習中神經網路的訓練。英偉達的 GPU 更通用一些,谷歌的 TPU 則比較專註於一個點,應用場景十分單一。
英偉達對谷歌在論文中進行的對比細節有些意見,黃仁勛表示,GPU 的通用性高一些,先是肯定 TPU 在深度學習的張量處理領域有一些重合,隨後通過一些細節來論證 GPU 相對於 TPU 的優勢,這也算是不大不小的撕逼吧。
此次 AlphaGo 再次對戰柯潔,也是對谷歌 TPU 過去一年改進的一次檢驗。無論這場比賽結果如何,對於 TPU、對於 TensorFlow,乃至對於人工智慧都不會是一個終點,而是一個嶄新的起點。
正如 DeepMind 創始人 Demis Hassabis 曾經說過的:「AlphaGo 的成功暗示了將 AI 應用於廣泛任務和領域的可能性,也許我們在可以很多領域找到人類專家無法考慮到的的解決方案。」希望 AlphaGo 背後的技術,能夠真正造福人類。
撰稿:談喆@深圳灣
原文:人機大戰柯潔勝算不到一成,AlphaGo 身後的 TPU 殺傷力究竟有多強大?
深圳灣長期挖掘物聯網、人工智慧、機器人、無人機、智能駕駛、智能家居等領域的新銳產品和初創團隊,歡迎聯繫我們。微信私人客服:小炫(ID:warexx)。
本文系深圳灣編輯創作發布,轉載、約稿、投稿、團隊報道請聯繫微信公眾號:shenzhenware(回復關鍵字)。推薦閱讀:
※AlphaGo無懸念勝出柯潔,人類更應該關注人工智慧的應用
※AlphaGo Zero 有開源版了,但這不代表你可以訓練出 AlphaGo Zero
※二十年前,世界最強的圍棋AI出自中國