功率密度成深度學習設計難題,數據中心市場展現新機遇
這個星球上很少有人比Rob Ober 更了解如何製造服務於人工智慧的計算機。作為Nvidia 加速計算團隊的頂尖技術執行官,他是Tesla 的首席平台架構師,Tesla 是機器學習市場上功能最強大的GPU。
GPU ,即Graphics Processing Unit ,其名稱源於其初始的設計目的,但今日其應用之廣泛早已超越圖形處理。
超級計算機設計人員發現 GPU 是從他們所構建系統的 CPU 中卸載龐大的工作負載塊的理想工具;GPU 也被證明是深度學習這一機器學習方法中的超高效處理器。這正是Google 定位廣告,亞馬遜Alexa 即時應答語音查詢那一類的 AI 。
通過觀察和迭代創建計算機學習的演算法無疑是複雜的; 同樣極端複雜的是設計計算機系統來執行這些指令,以及構建數據中心基礎設施來為這些系統供電和冷卻。 Ober 已經敏銳地捕捉到這個需求,開始協助Nvidia 的超級客戶在他們龐大的數據中心系統上開展深度學習。
他在接受 Data Center Knowledge 採訪時說:「我們一直在處理超大規模數據中心中的大量超大規模問題,真正是所有的超大規模數據問題。」 「構建一個用於深度學習訓練的GPU 系統是非常難的工程問題。真的非常非常難。即使像Facebook 和微軟這樣的大傢伙也在努力。「
訓練AI耗能巨大
訓練是深度學習中涉及的一種計算工作(更像是一類計算工作,因為這個領域在不斷進化,而且訓練方法也不止一種)。它的目的是教一個深層神經網路——一個包含計算節點的網路,旨在模擬神經元在人類大腦中相互作用的方式——基於已有數據的新的能力。例如,神經網路可以通過重複地「查看」其中標記為「狗」的各種狗的圖像來學習識別照片中的狗。
另一類工作是推理,即神經網路將其知識應用於新數據(例如,識別出之前未見過的圖像中的狗)。
Nvidia 為這兩類工作製造GPU ,但是訓練是數據中心中特別困難的一部分,因為用於訓練的硬體需要非常密集的GPU 群集,或互連伺服器,每個伺服器需要高達八個 GPU 。一個這樣的機櫃需要至少30千瓦的功率,而超級計算機領域之外的大多數數據中心都無法支持這樣的功率密度。即便以最低功率要求計算,20個這樣的機櫃的功率相當於盡管這是範圍的低端,20個這樣的機櫃的功率約等同於達拉斯牛仔隊 AT & T 球場的超大屏幕,該屏幕為世界上最大的1080p 視頻顯示器,包含3000萬個燈泡。
Ober 談到Nvidia 的GPU 時表示:「我們極其重視數據中心的基礎設施」。 「深度學習的訓練需要極其密集的計算機集群,功率因此也會變得極其密集,這是一個真正的挑戰。」另一個問題是控制這些集群中的電壓。GPU 計算本身特質會導致大量的電力瞬變(電壓突然上升)的產生。Ober 表示:「這些都是難以應付的。」
互連節點是另一大難題。 「不同來源的數據會對數據中心網路帶來難以置信的工作壓力。」 Ober 表示,「可能會製造一個超高熱點。」在Ober 看來,功率密度和互聯可能是數據中心系統中深度學習的兩大設計挑戰。
冷卻人工大腦
Ober說,超大規模數據中心的運營者——比如Facebook和微軟——大多數都是通過在許多機架上擴展深度學習集群來解決功率密度的難題,儘管有些使用了一點液體冷卻或液體輔助冷卻。液體冷卻是指冷卻水直接傳送到主板的晶元上(這是冷卻超級計算機的常見方法);液體輔助冷卻是指冷卻水被帶到連接到IT機櫃的熱交換器上,以冷卻空氣後送至伺服器。
不是每個需要支持高密度深度學習硬體的人都能擁有數十萬平方英尺的數據中心空間,而那些沒有這種條件的,例如專註於高密度數據的為數不多的數據中心供應商,已經選擇了液體輔助冷卻的方式。最近,這些供應商在服務需求上有所上升,這在很大程度上是機器學習日益增長的興趣所致。
初創公司和大型公司都在尋求被廣泛預測為下一輪創新浪潮推動力的技術,但大多數公司沒有必要的基礎設施支持這項開發工作。高密度數據中心供應商ScaleMatrix 的聯合創始人Chris Orlando 在接受採訪時表示:「目前,以GPU 為核心的工作量顯著增長,這絕對來自於企業業務。企業數據中心沒有這樣的設備。」
直線增長
直線增長是最近才出現的。Orland 說,他的公司業務去年年中出現了直線式增長。驅動增長的其他應用一直是生命科學和基因組學方面的計算(ScaleMatrix位於聖地亞哥外的旗艦數據中心是這類研究的中心。其最大的客戶之一,是基因組學的重鎮J. Craig Venter Institute),另外還有地緣研究和大數據分析。其第二個數據中心位於休斯頓,大部分需求來自石油和天然氣行業,其勘探工作需要一些高辛烷值的計算能力。聖地亞哥另一個主要的ScaleMatrix 客戶是Cirrascale,一家專註於深度學習基礎設施的硬體製造商和雲提供商。
通過用中央設備的冷卻水冷卻完全封閉的機櫃中的空氣,每個ScaleMatrix 機櫃可以支持52kW的功率。定製系統的冷水循環位於機櫃的頂部,其中從伺服器排出的熱空氣上升、冷卻並推回到主板上。隨著企業對高密度計算的需求不斷增長,該公司最近開始向有興趣在室內部署的公司銷售這項技術。
矽谷的數據中心供應商 Colovore 也專註於高密度託管業務。其正在使用更典型的後門熱交換器,在當前第一階段實現每機架20kW的功率,在即將到來的第二階段達到35kW。至少有一家客戶有興趣超過35kW,因此該公司正在探索將冷卻水直接送入主板的超級計算機系統的可能性。
今天,Colovore 數據中心的一大部分算力在支持 GPU 集群進行機器學習,該公司的聯合創始人兼總裁 Sean Holzknecht 在接受採訪時表示,和 ScaleMatrix 一樣,Colovore 現在狀況不錯。矽谷是機器學習、無人駕駛汽車和生物信息學公司的溫床,優秀的高密度數據中心空間供應商不愁沒有客戶。
應對AI硬體的猛增
對於Colovore 和ScaleMatrix 提供基礎設施的需求可能會持續增長。機器學習還處在早期階段,而大型雲平台(Google、Facebook、微軟和阿里巴巴等)之外,沒有幾家公司在生產過程中使用該技術。目前該領域的大部分活動是研發,但這項工作仍然需要大量的GPU功率。
Nvidia表示,對於AI硬體的需求正在激增,其中很多都是由像AmazonWeb Services,Google Cloud Platform 和MicrosoftAzure 這樣的企業雲巨頭所驅動,他們提供機器學習增強的雲服務和用於出租的原始的 GPU 功率。市場對可用的最強大的雲GPU 實例有強烈需求。「目前擁有GPU 實例的雲供應商看到了令人難以置信的消費和牽引力。」Nvidia的Ober 說,「人們確實正在轉而尋找能夠找到的最大實例。」
-----文章來源:功率密度成深度學習設計難題,數據中心市場展現新機遇
大家可以加小編微信:xtechday (備註:知乎),一起到 知乎人工智慧愛好者交流群 探討交流。推薦閱讀:
※在科學的危機下踏浪前行
※Alpha Go 的影響
※財報季忙到吐血?AI助力大摩分析師(GT)
※譯文 | 在使用過採樣或欠採樣處理類別不均衡數據後,如何正確做交叉驗證?
TAG:深度学习DeepLearning | 人工智能 | 大数据 |