標籤:

2018年,AI晶元之戰將打響

本文由 【AI前線】原創,原文鏈接: dwz.cn/77k9DJ

作者|Chris Wiltz

譯者|Debra

編輯|Emily

AI 前線導讀:"CPU、GPU、TPU、FPGA,我們很難判斷是哪家公司打響了 AI 晶元之間的戰爭,誰將會勝出現在來說也還為時過早。但是 2018 年,將是晶元製造商之間長期戰鬥將拉開帷幕,以爭奪在 AI 硬體領域的地位。"

2017 年,當 Intel 在洛杉磯舉行的 Automobility LA 貿易展上發布了最新的 AI 硬體,但它並不是什麼里程碑式的產品,而只是若干科技巨頭接連發布的一系列最新技術之中的其中一個——所有這些產品都是為了在 AI 硬體領域的地位奠定基礎。因為拿下人工智慧領域的一方,將會成為製造業、汽車、物聯網、醫療,甚至娛樂業在內的眾多行業中的主導力量之一。

在硬體方面,人工智慧領域正在進行一場「權力的遊戲」,不同公司都在不遺餘力地爭奪霸主地位,並希望自己的產品可以成為人工智慧技術(特別是深度學習和神經網路)晶元架構的標準。

Research and Markets 和 TechNavio 的分析師預測,全球 AI 晶元市場在 2017 年至 2021 年,將以年均 54%的速度增長。

Technavio 嵌入式系統研究首席分析師 Raghu Raj Singh 表示,市場對於能夠滿足深度學習需求的高功率硬體的需求,是推動這一發展的關鍵因素。「硬體市場的高增長率,反映出市場對高計算能力的硬體平台的需求不斷增長,這有助於深度學習演算法的進步。創業公司和老牌公司之間日益激烈的競爭正在引領新的 AI 產品發展的潮流,無論是硬體還是軟體平台,都開始採用深度學習計劃和演算法。「

火藥味越來越濃烈,AI 晶元製造商之間的戰爭一觸即發。人工智慧將成為計算機硬體的下一個前沿領域,並且可能是自移動計算和互聯網出現以來,人工智慧可能是計算機硬體最重要的戰場。

那麼,我們是如何到達這裡的,誰是大玩家呢?

CPU

當那些不需要人力操作的五級自動駕駛汽車上路後,我們會發現它們將是有史以來最聰明、最複雜的機器之一。當然,自動駕駛車輛已經成為人工智慧的主要目標之一,而晶元製造商 Intel 想要在這一領域牢牢鞏固自己的地位。

然而,Intel 並沒有把全部的精力放在內部研發上,而是通過收購來構建自身的 AI 能力。2016 年 8 月,Intel 收購了神經網路處理器製造商 Nervana Systems。

神經網路能夠非常有效地執行各種各樣的任務,但為了完成這些任務,首先必須訓練網路如何執行任務。一個神經網路執行任務前需要進行訓練,例如在執行一個識別狗的圖像的任務之前,需要先訓練神經網路認全所有物種的狗。這可能意味著網路需要處理成千上萬,甚至數百萬張的狗的圖像,如果沒有足夠強大的處理能力,這個任務會非常耗時。

2016 年 11 月,在收購 Nervana 幾個月後,Intel 宣布推出一系列處理器——Nervana,一個直接針對人工智慧相關應用,如訓練神經網路的平台。Intel 數據中心事業部執行副總裁兼總經理 Diane Bryant 說道:「我們期望 Intel 的 Nervana 平台再性能上能夠有所突破,並大大縮短訓練複雜神經網路所需的時間。預計十年之內,Intel 的性能將提高 100 倍,加速新興的深度學習領域創新的步伐。「

2017 年 3 月,Intel 又高調地收購深度學習 ADAS 開發商 Mobileye,收購總額約為 150 億美元。Intel 的併購戰略幾乎立即產生重大意義。這家晶元製造商希望在自動駕駛車輛領域佔有一席之地,而且這一戰略也讓其一躍成為機器學習硬體的關鍵供應商。

去年 11 月在洛杉磯舉行的 Automobility LA 貿易展覽會上,Intel CEO Brian Krzanich 稱,自動駕駛已成為如今最大的 game changer,並宣稱 Intel 在收購 Mobileye 公司後推出的新產品 SoC 和 EyeQ5,比其最大的競爭對手——Nvidias Xavier 的深度學習平台性能提高兩倍。

每秒萬億次運算(TOPS)是高性能 SoC 的通用性能指標,TOPS 效能功耗比(TOPS per watt)可用以擴展該指標來描述性能效率。TOPS 效能功耗比越高,晶元的質量和效率越高。深度學習 TOPS(DL)是指進行深度學習相關操作的效率。根據 Intel 的模擬測試,EyeQ5 的 TOPS 效能功耗比為 2.4 DL,比 Nvidia Xavier 的效率提高了一倍以上,Xavier 的 TOPS 效能功耗比為 1 DL。

Intel 自動駕駛集團(ADG)高級副總裁兼總經理 Doug Davis 表示,Intel 選擇專註於 DL TOPS,因為 Intel 希望把重點放在處理器的效率,而不是其他指標上。 「DL TOPS 是衡量電源消耗的一個很好的指標,但這也是一個重量、成本和散熱的問題,所以我們認為效率是關注的重點。」Davis 說道。 「

Davis 補充道:「我們已經就絕對性能進行過大量的討論,但是當我們考慮這個問題時,希望可以從更實際的角度出發,考慮到不同類型的工作量。深度學習能夠儘可能快速有效地識別對象,並做出決策。「

然而,Nvidia 公司對 Intel 的數據提出了異議,認為 EyeQ5 的測試結果是基於模擬實驗,尤其是 SoC 在未來兩年之內都不會實際應用。Nvidia 公司汽車高級總監 Danny Shapiro 在一份聲明中表示:「我們無法評判一種不存在的產品,尤其是這種直到 2020 年才會面世的產品。但現在,我們了解的是我們去年推出,並將於 2018 年面世的 Xavier,它的性能達到 30 TOPS,比 EyeQ5 經過模擬測試得出的 24 TOPS 性能更高。「

GPU 是否為 AI 而設計?

偶然地,GPU 製造商發現他們掌握著可能處於 AI 革命最前沿的技術。當 GPUs 被當做 CPU 的補充時(許多 CPU 將 GPU 集成到 GPU 中進行圖形處理),GPU 已經擴展到以圖形和視頻為中心的領域之外,進入深度學習領域,GPU 製造商紛紛表示他們的產品性能遠優於 CPU。

Nvidia 表示,其 Titan V GPU 是有史以來最強大的 PC 深度學習 GPU。 圖片來源:Nvidia

雖然市場上有不少 GPU 公司,但沒有哪家公司比 Nvidia 作為這個技術的代名詞更貼切。根據 Jon Peddie 研究公司的報告,Nvidia 在 2017 年第三季度的 GPU 出貨量增長了 29.53%,主要競爭對手 AMD 和 Intel 在這方面均敗下陣來。AMD 的出貨量增加了 7.63%,而 Intel 的出貨量增加了 5.01%。當然,這主要是由於視頻遊戲市場的推動,但 Jon Peddie Research 的分析師認為,與加密貨幣挖掘有關的應用程序對高端性能的需求,也對出貨量增長做出貢獻。

對於高性能任務處理器(如加密貨幣挖掘和 AI 應用程序)的需求,將 GPU 推向了 AI 硬體的最前沿。GPU 包含數百個可同時執行數千個軟體線程的內核,而且比 CPU 更節能。CPU 比較泛化,且更具有跳躍性,可以執行很多任務,並擅長對大批量數據進行重複操作。GPU 之所以被稱為 GPU,就是因為這一關鍵區別,它更擅長處理圖形——因為圖形處理涉及一次性處理數以千計的小計算。同時,這樣的性能也使得 GPU 成為理解上述神經網路訓練等任務時的理想選擇。

就在今年 12 月,Nvidia 宣布推出了一款專為深度學習而設計的 PC GPU——Titan V。這款 GPU 基於 Nvidia 的 Volta 架構,使用了 Nvidia 稱之為 Tensor Cores 的新型核心技術。在數學術語中,張量(tensor)的定義為「與矢量相似,但更泛化的數學對象,用一組空間坐標函數表示。」Nvidia 所做的,是針對處理深度學習和神經網路計算的需求,開發具有複雜架構的內核。

Titan V 包含 210 億個晶體管,具有 110 浮點運算的深度學習能力,專為從事 AI 和深入學習的開發人員設計。公司創始人兼 CEO Jensen Huang 在新聞發布會上表示,Titan V 是有史以來為個人電腦開發的最強大的 GPU。 「我們對 Volta 的願景是其能打破高性能計算和人工智慧的外部極限,用新的處理器架構、指令、數字格式、內存架構和處理器鏈接打開了新的局面。通過 Titan V,我們把 Volta 交給了世界各地的研究人員和科學家手中。「

一個張量的世界

也許沒有哪家公司比 Google 對張量概念的研究更加深入。2016 年,這家搜索巨頭髮布了非常流行的深度學習開源框架 TensorFlow。如 Google 所說,「TensorFlow 是一個使用數據流圖進行數值計算的開源軟體庫。圖中的節點表示數學運算,而圖像邊緣表示在它們之間通信的多維數組(張量)。它靈活的體系結構讓用戶可以使用單個 API 將計算部署到桌面、伺服器或移動設備中的一個或多個 CPU 或 GPU。「

Google 的張量處理單元(TPU)運營公司所有基於雲的深度學習應用程序,是 AlphaGo AI 的核心。(圖片來源:Google)

TensorFlow 的機器學習應用程序庫包括面部識別、計算機視覺,當然還有已經被證明非常流行的搜索和其他應用程序,以至於 2016 年 Intel 致力於優化其處理器來運行 TensorFlow。2017 年,谷歌還發布了針對移動和 Android 開發者的精簡版 TensorFlow。

但 Google 關於 AI 的目標不會止於軟體。2016 年,該公司發布了第一代被稱為張量處理單元(TPU)的新處理器。Google 的 TPU 是專為機器學習和 TensorFlow 而量身定製的 ASIC。2017 年 5 月,Google 發布第二代 TPU,並稱其性能高達 180 teraflops。

2017 年 6 月,在加拿大多倫多舉行的第 44 屆計算機體系結構國際研討會(ISCA)上,Google 發布了一項研究報告,將其部署在數據中心的 TPU 與 Intel Haswell CPU,以及部署在同一數據中心的 Nvidia K80 GPU 進行了比較,結果發現,TPU 比 GPU 和 CPU 運行速度平均快 15 到 30 倍。TPU 的 TOPS per watt 也比後兩者高約 30 到 80 倍。Google 表示,現在,TPU 已經用於該公司所有在線服務,如搜索、街景、Google 相冊和 Google 翻譯服務中。

在一份詳細介紹谷歌 TPU 的論文中,Google 的工程師們說,早在六年前,當 Google 發現其將深度學習融入越來越多的產品時,市場對於 TPU 的需求就出現了。 「如果人們每天只使用三分鐘 Google 語音搜索,使用我們現在用來處理語音識別系統的深度神經網路處理器,那麼我們必須將 Google 的數據中心擴大兩倍!「Google 工程師寫道。

Google 的工程師在設計 TPU 時表示,他們採用了所謂的「收縮性設計」。「這種設計之所以被稱為「收縮性」,是因為數據通過晶元時的波浪形流動,讓人想起心臟泵血的方式。MXU [matrix multiplier unit] 中特殊的收縮陣列對執行矩陣乘法時的功率和面積效率進行了優化,但並不適用於一般計算。它做了一個工程上的折衷:以寄存器、控制和操作的靈活性,換取更高的效率和操作密度。「

在一些非常高端的 AI 應用中,TPU 也已經證明了其價值。TPU 是谷歌著名的 AlphaGo AI 背後的「大腦」,AlphaGo AI 去年擊敗了圍棋世界冠軍,而最近,AlphaGo 通過證明其能夠在相對較短的時間內,通過自學成為圍棋大師,從而實現了人工智慧領域的巨大的飛躍。經過短短几個月的訓練,AlphaGo 的最新版本 AlphaGo Zero 的能力就遠遠超過人類專家。而戰勝國際象棋(一個複雜的遊戲,但是比 Go 計算量小得多)專家,也就是幾個小時的事情。

FPGA——AI 競賽中的一匹黑馬

如此看來,TPU 就是 AI 的未來,是這樣嗎?事實上可能沒那麼快。雖然 Nvidia、Google 以及 Intel 在某種程度上都專註於為 AI 服務,但其晶元提供的服務處理過程均發生在設備上,而不是雲端。微軟聲稱,其 FPGAs 雲端人工智慧服務的性能與 Nvidia、Google 以及 Intel 相當,甚至更優。微軟認為,這款代號為 Project Brainwave,基於 FPGA 的雲端解決方案,在可擴展性和靈活性方面將優於 CPU、GPU 和 TPU。

微軟的 Project Brainwave 在使用 Intel Stratix 10 FPGA 運行時,運行速度達 39.5 teraflops,延遲不足 1 毫秒。 (圖片來源:微軟 / 英特爾)

一般來說,基於處理器的解決方案在某種程度上會受到設計上的限制,僅能完成特定的任務。但是,由於 FPGA 具有靈活性和可重編程性,讓升級更容易,處理器的性能更高。根據微軟的說法,在 Intel Stratix 10 FPGA 上運行時,微軟的 Project Brainwave 的運行速度達到 39.5 teraflops,延時不足 1 毫秒。

FPGA 是否能為人工智慧提供最佳解決方案,與其他議題一樣是值得商榷的事情。微軟認為,創造 AI 專用 ASIC 的生產成本太高,而另一些人則認為,FPGA 永遠無法完全實現專為 AI 設計的晶元性能。

3 月份舉行的 International Symposium on Field Programmable Gate Arrays (ISFPGA) 上,一些 Intel 加速器架構實驗室的研究人員發表了一篇論文,稱其對處理深度神經網路演算法的兩代 Intel FPGA(Arria10 和 Stratix 10)和 Nvidia Titan X Pascal (Titan V 處理器)進行了比較。據 Intel 研究人員稱:「研究結果顯示,在 pruned、Int6 和二值化 DNNs 矩陣乘法運算方面,Stratix 10 FPGA 的性能(TOP / 秒)比 Titan X Pascal 圖形處理器的性能分別高 10%、50% 、5.4 倍。在 Ternary-ResNet 方面上,Stratix 10 FPGA 比 Titan X Pascal GPU 的性能高 60%,而且性能功耗比高 2.3 倍。這表明,FPGA 可能成為加速下一代 DNN 的首選平台。「

誰戴上皇冠?

在這個特定的時間點,就整體性能而言,很難不爭論 GPU 在 AI 晶元上的表現。但是,這並不意味著像 Nvidia 和 AMD 這樣的公司應該放下桂冠,相信他們擁有最好的解決方案。像微軟這樣的競爭對手有維持自身現狀的既得利益(微軟的數據中心都是基於 FPGA 的),並將 AI 消費者轉向他們的觀點。

更重要的是,出現在最頂級的公司可能不是那些硬體最好的硬體,而是最好的硬體。雖然自動駕駛汽車正在成為將 AI 分解為更廣泛的公眾意識的殺手級應用程序,但現在確定還為時過早。這可能是機器人,製造業,甚至娛樂領域的進步,真正推動 AI 的發展。而這並不是為了貶低甚至還沒有被報道或開發的新興應用。

當煙霧清除時,它可能不是一家公司,甚至是一家主宰 AI 景觀的處理器。我們可以看到一個未來從 AI 硬體的一刀切式的方法轉向,並且看到硬體因應用程序而異的更加分裂的市場。時間會告訴我們,但是一旦我們到達那裡,我們所有的設備將會變得更加聰明。

關注我們的微信號"AI前線",後台回復「AI」可獲得《AI前線》系列PDF電子書


推薦閱讀:

《artificial intelligence》Lecture 3 Applications of AI
不再依賴平台廠商的伺服器,Snips 讓你給自己定製一個全新的語音助手
知乎Live總結:機器人與傳媒業的未來
13萬人都在看的東京機器人展,你覺得能打幾分?
人工智慧「人臉識別」系統成功逮25名網上逃犯

TAG:人工智能 |

標籤:

2018年,AI晶元之戰將打響

本文由 【AI前線】原創,原文鏈接: dwz.cn/77k9DJ

作者|Chris Wiltz

譯者|Debra

編輯|Emily

AI 前線導讀:"CPU、GPU、TPU、FPGA,我們很難判斷是哪家公司打響了 AI 晶元之間的戰爭,誰將會勝出現在來說也還為時過早。但是 2018 年,將是晶元製造商之間長期戰鬥將拉開帷幕,以爭奪在 AI 硬體領域的地位。"

2017 年,當 Intel 在洛杉磯舉行的 Automobility LA 貿易展上發布了最新的 AI 硬體,但它並不是什麼里程碑式的產品,而只是若干科技巨頭接連發布的一系列最新技術之中的其中一個——所有這些產品都是為了在 AI 硬體領域的地位奠定基礎。因為拿下人工智慧領域的一方,將會成為製造業、汽車、物聯網、醫療,甚至娛樂業在內的眾多行業中的主導力量之一。

在硬體方面,人工智慧領域正在進行一場「權力的遊戲」,不同公司都在不遺餘力地爭奪霸主地位,並希望自己的產品可以成為人工智慧技術(特別是深度學習和神經網路)晶元架構的標準。

Research and Markets 和 TechNavio 的分析師預測,全球 AI 晶元市場在 2017 年至 2021 年,將以年均 54%的速度增長。

Technavio 嵌入式系統研究首席分析師 Raghu Raj Singh 表示,市場對於能夠滿足深度學習需求的高功率硬體的需求,是推動這一發展的關鍵因素。「硬體市場的高增長率,反映出市場對高計算能力的硬體平台的需求不斷增長,這有助於深度學習演算法的進步。創業公司和老牌公司之間日益激烈的競爭正在引領新的 AI 產品發展的潮流,無論是硬體還是軟體平台,都開始採用深度學習計劃和演算法。「

火藥味越來越濃烈,AI 晶元製造商之間的戰爭一觸即發。人工智慧將成為計算機硬體的下一個前沿領域,並且可能是自移動計算和互聯網出現以來,人工智慧可能是計算機硬體最重要的戰場。

那麼,我們是如何到達這裡的,誰是大玩家呢?

CPU

當那些不需要人力操作的五級自動駕駛汽車上路後,我們會發現它們將是有史以來最聰明、最複雜的機器之一。當然,自動駕駛車輛已經成為人工智慧的主要目標之一,而晶元製造商 Intel 想要在這一領域牢牢鞏固自己的地位。

然而,Intel 並沒有把全部的精力放在內部研發上,而是通過收購來構建自身的 AI 能力。2016 年 8 月,Intel 收購了神經網路處理器製造商 Nervana Systems。

神經網路能夠非常有效地執行各種各樣的任務,但為了完成這些任務,首先必須訓練網路如何執行任務。一個神經網路執行任務前需要進行訓練,例如在執行一個識別狗的圖像的任務之前,需要先訓練神經網路認全所有物種的狗。這可能意味著網路需要處理成千上萬,甚至數百萬張的狗的圖像,如果沒有足夠強大的處理能力,這個任務會非常耗時。

2016 年 11 月,在收購 Nervana 幾個月後,Intel 宣布推出一系列處理器——Nervana,一個直接針對人工智慧相關應用,如訓練神經網路的平台。Intel 數據中心事業部執行副總裁兼總經理 Diane Bryant 說道:「我們期望 Intel 的 Nervana 平台再性能上能夠有所突破,並大大縮短訓練複雜神經網路所需的時間。預計十年之內,Intel 的性能將提高 100 倍,加速新興的深度學習領域創新的步伐。「

2017 年 3 月,Intel 又高調地收購深度學習 ADAS 開發商 Mobileye,收購總額約為 150 億美元。Intel 的併購戰略幾乎立即產生重大意義。這家晶元製造商希望在自動駕駛車輛領域佔有一席之地,而且這一戰略也讓其一躍成為機器學習硬體的關鍵供應商。

去年 11 月在洛杉磯舉行的 Automobility LA 貿易展覽會上,Intel CEO Brian Krzanich 稱,自動駕駛已成為如今最大的 game changer,並宣稱 Intel 在收購 Mobileye 公司後推出的新產品 SoC 和 EyeQ5,比其最大的競爭對手——Nvidias Xavier 的深度學習平台性能提高兩倍。

每秒萬億次運算(TOPS)是高性能 SoC 的通用性能指標,TOPS 效能功耗比(TOPS per watt)可用以擴展該指標來描述性能效率。TOPS 效能功耗比越高,晶元的質量和效率越高。深度學習 TOPS(DL)是指進行深度學習相關操作的效率。根據 Intel 的模擬測試,EyeQ5 的 TOPS 效能功耗比為 2.4 DL,比 Nvidia Xavier 的效率提高了一倍以上,Xavier 的 TOPS 效能功耗比為 1 DL。

Intel 自動駕駛集團(ADG)高級副總裁兼總經理 Doug Davis 表示,Intel 選擇專註於 DL TOPS,因為 Intel 希望把重點放在處理器的效率,而不是其他指標上。 「DL TOPS 是衡量電源消耗的一個很好的指標,但這也是一個重量、成本和散熱的問題,所以我們認為效率是關注的重點。」Davis 說道。 「

Davis 補充道:「我們已經就絕對性能進行過大量的討論,但是當我們考慮這個問題時,希望可以從更實際的角度出發,考慮到不同類型的工作量。深度學習能夠儘可能快速有效地識別對象,並做出決策。「

然而,Nvidia 公司對 Intel 的數據提出了異議,認為 EyeQ5 的測試結果是基於模擬實驗,尤其是 SoC 在未來兩年之內都不會實際應用。Nvidia 公司汽車高級總監 Danny Shapiro 在一份聲明中表示:「我們無法評判一種不存在的產品,尤其是這種直到 2020 年才會面世的產品。但現在,我們了解的是我們去年推出,並將於 2018 年面世的 Xavier,它的性能達到 30 TOPS,比 EyeQ5 經過模擬測試得出的 24 TOPS 性能更高。「

GPU 是否為 AI 而設計?

偶然地,GPU 製造商發現他們掌握著可能處於 AI 革命最前沿的技術。當 GPUs 被當做 CPU 的補充時(許多 CPU 將 GPU 集成到 GPU 中進行圖形處理),GPU 已經擴展到以圖形和視頻為中心的領域之外,進入深度學習領域,GPU 製造商紛紛表示他們的產品性能遠優於 CPU。

Nvidia 表示,其 Titan V GPU 是有史以來最強大的 PC 深度學習 GPU。 圖片來源:Nvidia

雖然市場上有不少 GPU 公司,但沒有哪家公司比 Nvidia 作為這個技術的代名詞更貼切。根據 Jon Peddie 研究公司的報告,Nvidia 在 2017 年第三季度的 GPU 出貨量增長了 29.53%,主要競爭對手 AMD 和 Intel 在這方面均敗下陣來。AMD 的出貨量增加了 7.63%,而 Intel 的出貨量增加了 5.01%。當然,這主要是由於視頻遊戲市場的推動,但 Jon Peddie Research 的分析師認為,與加密貨幣挖掘有關的應用程序對高端性能的需求,也對出貨量增長做出貢獻。

對於高性能任務處理器(如加密貨幣挖掘和 AI 應用程序)的需求,將 GPU 推向了 AI 硬體的最前沿。GPU 包含數百個可同時執行數千個軟體線程的內核,而且比 CPU 更節能。CPU 比較泛化,且更具有跳躍性,可以執行很多任務,並擅長對大批量數據進行重複操作。GPU 之所以被稱為 GPU,就是因為這一關鍵區別,它更擅長處理圖形——因為圖形處理涉及一次性處理數以千計的小計算。同時,這樣的性能也使得 GPU 成為理解上述神經網路訓練等任務時的理想選擇。

就在今年 12 月,Nvidia 宣布推出了一款專為深度學習而設計的 PC GPU——Titan V。這款 GPU 基於 Nvidia 的 Volta 架構,使用了 Nvidia 稱之為 Tensor Cores 的新型核心技術。在數學術語中,張量(tensor)的定義為「與矢量相似,但更泛化的數學對象,用一組空間坐標函數表示。」Nvidia 所做的,是針對處理深度學習和神經網路計算的需求,開發具有複雜架構的內核。

Titan V 包含 210 億個晶體管,具有 110 浮點運算的深度學習能力,專為從事 AI 和深入學習的開發人員設計。公司創始人兼 CEO Jensen Huang 在新聞發布會上表示,Titan V 是有史以來為個人電腦開發的最強大的 GPU。 「我們對 Volta 的願景是其能打破高性能計算和人工智慧的外部極限,用新的處理器架構、指令、數字格式、內存架構和處理器鏈接打開了新的局面。通過 Titan V,我們把 Volta 交給了世界各地的研究人員和科學家手中。「

一個張量的世界

也許沒有哪家公司比 Google 對張量概念的研究更加深入。2016 年,這家搜索巨頭髮布了非常流行的深度學習開源框架 TensorFlow。如 Google 所說,「TensorFlow 是一個使用數據流圖進行數值計算的開源軟體庫。圖中的節點表示數學運算,而圖像邊緣表示在它們之間通信的多維數組(張量)。它靈活的體系結構讓用戶可以使用單個 API 將計算部署到桌面、伺服器或移動設備中的一個或多個 CPU 或 GPU。「

Google 的張量處理單元(TPU)運營公司所有基於雲的深度學習應用程序,是 AlphaGo AI 的核心。(圖片來源:Google)

TensorFlow 的機器學習應用程序庫包括面部識別、計算機視覺,當然還有已經被證明非常流行的搜索和其他應用程序,以至於 2016 年 Intel 致力於優化其處理器來運行 TensorFlow。2017 年,谷歌還發布了針對移動和 Android 開發者的精簡版 TensorFlow。

但 Google 關於 AI 的目標不會止於軟體。2016 年,該公司發布了第一代被稱為張量處理單元(TPU)的新處理器。Google 的 TPU 是專為機器學習和 TensorFlow 而量身定製的 ASIC。2017 年 5 月,Google 發布第二代 TPU,並稱其性能高達 180 teraflops。

2017 年 6 月,在加拿大多倫多舉行的第 44 屆計算機體系結構國際研討會(ISCA)上,Google 發布了一項研究報告,將其部署在數據中心的 TPU 與 Intel Haswell CPU,以及部署在同一數據中心的 Nvidia K80 GPU 進行了比較,結果發現,TPU 比 GPU 和 CPU 運行速度平均快 15 到 30 倍。TPU 的 TOPS per watt 也比後兩者高約 30 到 80 倍。Google 表示,現在,TPU 已經用於該公司所有在線服務,如搜索、街景、Google 相冊和 Google 翻譯服務中。

在一份詳細介紹谷歌 TPU 的論文中,Google 的工程師們說,早在六年前,當 Google 發現其將深度學習融入越來越多的產品時,市場對於 TPU 的需求就出現了。 「如果人們每天只使用三分鐘 Google 語音搜索,使用我們現在用來處理語音識別系統的深度神經網路處理器,那麼我們必須將 Google 的數據中心擴大兩倍!「Google 工程師寫道。

Google 的工程師在設計 TPU 時表示,他們採用了所謂的「收縮性設計」。「這種設計之所以被稱為「收縮性」,是因為數據通過晶元時的波浪形流動,讓人想起心臟泵血的方式。MXU [matrix multiplier unit] 中特殊的收縮陣列對執行矩陣乘法時的功率和面積效率進行了優化,但並不適用於一般計算。它做了一個工程上的折衷:以寄存器、控制和操作的靈活性,換取更高的效率和操作密度。「

在一些非常高端的 AI 應用中,TPU 也已經證明了其價值。TPU 是谷歌著名的 AlphaGo AI 背後的「大腦」,AlphaGo AI 去年擊敗了圍棋世界冠軍,而最近,AlphaGo 通過證明其能夠在相對較短的時間內,通過自學成為圍棋大師,從而實現了人工智慧領域的巨大的飛躍。經過短短几個月的訓練,AlphaGo 的最新版本 AlphaGo Zero 的能力就遠遠超過人類專家。而戰勝國際象棋(一個複雜的遊戲,但是比 Go 計算量小得多)專家,也就是幾個小時的事情。

FPGA——AI 競賽中的一匹黑馬

如此看來,TPU 就是 AI 的未來,是這樣嗎?事實上可能沒那麼快。雖然 Nvidia、Google 以及 Intel 在某種程度上都專註於為 AI 服務,但其晶元提供的服務處理過程均發生在設備上,而不是雲端。微軟聲稱,其 FPGAs 雲端人工智慧服務的性能與 Nvidia、Google 以及 Intel 相當,甚至更優。微軟認為,這款代號為 Project Brainwave,基於 FPGA 的雲端解決方案,在可擴展性和靈活性方面將優於 CPU、GPU 和 TPU。

微軟的 Project Brainwave 在使用 Intel Stratix 10 FPGA 運行時,運行速度達 39.5 teraflops,延遲不足 1 毫秒。 (圖片來源:微軟 / 英特爾)

一般來說,基於處理器的解決方案在某種程度上會受到設計上的限制,僅能完成特定的任務。但是,由於 FPGA 具有靈活性和可重編程性,讓升級更容易,處理器的性能更高。根據微軟的說法,在 Intel Stratix 10 FPGA 上運行時,微軟的 Project Brainwave 的運行速度達到 39.5 teraflops,延時不足 1 毫秒。

FPGA 是否能為人工智慧提供最佳解決方案,與其他議題一樣是值得商榷的事情。微軟認為,創造 AI 專用 ASIC 的生產成本太高,而另一些人則認為,FPGA 永遠無法完全實現專為 AI 設計的晶元性能。

3 月份舉行的 International Symposium on Field Programmable Gate Arrays (ISFPGA) 上,一些 Intel 加速器架構實驗室的研究人員發表了一篇論文,稱其對處理深度神經網路演算法的兩代 Intel FPGA(Arria10 和 Stratix 10)和 Nvidia Titan X Pascal (Titan V 處理器)進行了比較。據 Intel 研究人員稱:「研究結果顯示,在 pruned、Int6 和二值化 DNNs 矩陣乘法運算方面,Stratix 10 FPGA 的性能(TOP / 秒)比 Titan X Pascal 圖形處理器的性能分別高 10%、50% 、5.4 倍。在 Ternary-ResNet 方面上,Stratix 10 FPGA 比 Titan X Pascal GPU 的性能高 60%,而且性能功耗比高 2.3 倍。這表明,FPGA 可能成為加速下一代 DNN 的首選平台。「

誰戴上皇冠?

在這個特定的時間點,就整體性能而言,很難不爭論 GPU 在 AI 晶元上的表現。但是,這並不意味著像 Nvidia 和 AMD 這樣的公司應該放下桂冠,相信他們擁有最好的解決方案。像微軟這樣的競爭對手有維持自身現狀的既得利益(微軟的數據中心都是基於 FPGA 的),並將 AI 消費者轉向他們的觀點。

更重要的是,出現在最頂級的公司可能不是那些硬體最好的硬體,而是最好的硬體。雖然自動駕駛汽車正在成為將 AI 分解為更廣泛的公眾意識的殺手級應用程序,但現在確定還為時過早。這可能是機器人,製造業,甚至娛樂領域的進步,真正推動 AI 的發展。而這並不是為了貶低甚至還沒有被報道或開發的新興應用。

當煙霧清除時,它可能不是一家公司,甚至是一家主宰 AI 景觀的處理器。我們可以看到一個未來從 AI 硬體的一刀切式的方法轉向,並且看到硬體因應用程序而異的更加分裂的市場。時間會告訴我們,但是一旦我們到達那裡,我們所有的設備將會變得更加聰明。

關注我們的微信號"AI前線",後台回復「AI」可獲得《AI前線》系列PDF電子書


推薦閱讀:

《artificial intelligence》Lecture 3 Applications of AI
不再依賴平台廠商的伺服器,Snips 讓你給自己定製一個全新的語音助手
知乎Live總結:機器人與傳媒業的未來
13萬人都在看的東京機器人展,你覺得能打幾分?
人工智慧「人臉識別」系統成功逮25名網上逃犯

TAG:人工智能 |