AWS 首席科學家:AWS 如何讓大規模的機器學習更易實現?

前言

2018 年,《麻省理工科技評論》將 EmTech 全球新興科技峰會帶到了中國。在大會現場,來自亞馬遜、高通、英偉達、IBM、麻省理工學院、騰訊、阿里巴巴等等眾多產業界和學術界的專家匯聚一堂,帶來了他們對 AI 的看法,以及他們在 AI 方面取得的進展。今天,我們將與您分享 AWS 首席科學家 Animashree Anandkumar 在大會上的演講 。

這位三歲開始練習印度傳統舞蹈,長大後轉為投身科技界的科學家,在1月28日盛大舉行的 EmTech China 全球新興科技峰會上發表了演講,揭秘了亞馬遜最賺錢的部門——AWS 背後的技術與商業邏輯。以下為整理的演講內容:


多域技術已成為前沿科技的一大領軍技術力量,我非常榮幸在我的博士學位和博士後學位中研究這個話題。今天我會和大家談一談機器學習,怎麼研究和量化機器學習。

深度學習需要經過多層甚至數百層的處理過程,這樣的機器學習也會在不同的 GPU,進行跨機器、跨設備處理,這就需要網路技術。多域模型能夠幫助我們同時處理科學、工程,各種領域方面的應用。我們一直致力於尋求機器學習多域模型的解決方案,以及多領域的應用如何能夠在雲上進行計算。

深度學習跨越了許多的領域。首先我們做的是圖像理解,基礎任務是識別不同的物品。對於人類來說在一張圖片中識別物品很簡單,但是對於機器來說卻是極度困難的。但我們的體系有了很大的改善,也比以往的更有優勢。

之後我們也在語音識別方面取得了突破。針對不同語言的自然語言處理也有了深度學習參與。不同的語言有不同的結構,怎麼才能自動的處理這些不同的語種並理解他們?人類利用語言在不同的背景下進行交流,比如聽說讀寫。在這些過程中,語種的表現方式是不一樣的。機器如何來處理不同的語言呢?這就是深度學習面臨的挑戰。

另一個領域就是關於無人駕駛。怎麼提高其的性能,怎麼識別障礙物,怎麼能夠有很好的視覺,怎樣立即做出決策,這些都是無人駕駛技術需要解決的一些問題,也是深度學習可以發揮作用的地方。

和大家分享一下怎麼運作當前的深度學習模式。深度學習有很廣泛的運用領域,我們有一些專門的項目,也在將它應用到更多不同的硬體基礎設施中。MXNet就是其中的一個深度學習引擎,這個項目首先由大學裡的研究員開發,現在我們正在 AWS 開發這個引擎。

這個引擎的優點是顯而易見的。它建立了一個網路,編程過程、表述、特徵描述、風格都非常靈活、方便,提高了程序員的效率。同時也提供了很好的語言支持,且前後端自動對接,提高了編程的效率。這個網路有一些固定的數據,相互連接的層級會在輸入和輸出之間進行連接。雖然一些專門的項目編程過程比較容易書寫,語流更長,書寫起來象徵物也更多。在計算順序方面,他們有一定的序列關係,我們制定了圖表來自動進行平行的對比。它還實現了記憶進行自動化,這樣在代碼運算時也提高了效率。

我們也用多 GPU 的訓練提升效率。一個機器上面會有多個 GPU 進行數據並行化,可以同時獲得大量的數據。中央數據是來自於不同 CPU 等級上面的網路,數據不斷地向下劃分,進入各個 GPU。

GPU 需要進行處理時發現了相似的內容就會進行整合,也增加了我們的效率。GPU 可以在 MXNet 上面整合運算結果,這樣成本也比較低。同時我們也提升了 MXNet 的性能。增加了 GPU 以後,整個輸入輸出效率也會翻翻。這是在 AWS 基建上運行的,包括 B2X 和 B22X。

所有的服務裡面, MXNet 的效率最高,有91%,包括 ResNet 和 Inception v3 和 AlexNet。這是有多個 GPU 的單一基體。在多基體上每一個機器都有16個 GPU,組合到一起後,所有的數據經過網路就會影響效率。但我們的效率並沒有降低很多,因為 MXNet 它的打造非常緊密,可以提升效率。所以我們可以進行這種分散式的多機器的訓練。這些現在也可以應用於一些情景的運行以及我們多 GPU 和 CPU 的框架之中。我們也希望可以提供這樣的技術給我們的消費者,讓他們知道我們分散式的訓練有非常好的技術包裹,可以幫助我們進行網路壓縮以及網路解壓,提供好的技術服務。

所有的這些框架,都可以應用於我們的機器學習平台 CHMaker。這是多機器學習的一個平台,所有的分散式深度學習框架都可以在這個平台上進行運行,比如說TensorFlow、 MXNet。我們的平台除 MXNet 之外可以支持所有的框架,我們希望可以給我們的用戶更多靈活的選擇。

除此之外,DeepLens 也是我們最近發布的第一款深度學習的攝像頭,可以提供很多的服務,比如語言、語句、計算機視覺等。使用者不需要培訓自己的學習模型,完全可以使用我們的服務。我們整個系統都具有很多的解決方案。感謝 Deep Tech 的邀請!


推薦閱讀:

AWS在中國正式擁有合法身份(詳見題注),這可能對當前國內雲計算格局造成怎樣的影響?
小米雲服務現在是不是不能每月領取免費會員了?
雲端分散式訓練:雲上的機器學習引擎
海康威視在做AI雲+邊計算,5G時代也會到來,5G的高速傳輸會淡化邊緣計算的作用嗎?

TAG:AmazonWebServicesAWS | 机器学习 | 云计算 |