Jeff Dean執筆谷歌團隊2017年終總結,乾貨滿滿

本文由 「AI前線」原創,原文鏈接:Jeff Dean執筆谷歌團隊2017年終總結,乾貨滿滿

作者|谷歌高級研究員 Jeff Dean 代表谷歌大腦團隊

譯者|Debra

編輯|Emily

AI 前線導讀:」谷歌大腦一年一度的的年終總結來了!今年也不例外,這篇由谷歌高級研究員,兼谷歌大腦負責人的 Jeff Dean 執筆的文章乾貨滿滿,鏈接貼得小編手都酸了~ 話不多說,記得收藏~」

總結部分內容:

作為整個 Google 人工智慧工作的一部分,Google Brain 團隊致力於通過研究和系統工程提升人工智慧的技術水平。去年,我們在 2016 年分享了工作總結。從那時起,我們在製造智能機器的長期研究上不斷取得進展,並與谷歌和 Alphabet 的許多團隊合作,希望這些成果可以改善人們的生活。這篇文章將重點介紹我們在 2017 年的一些工作,包括基礎研究工作,以及開源軟體、數據集和機器學習新硬體方面的更新。

核心研究

我們團隊的重點研究目標是提高我們在機器學習領域的理解力,以及解決新問題的能力。以下是去年我們研究的幾個主要課題。

自動化機器學習

自動化機器學習的目標,是開發計算機自動解決新的機器學習問題的技術,而不需要人類機器學習專家逐一干預,這是真正的智能系統所需的基本功能。我們開發了使用強化學習和進化演算法設計神經網路結構的新方法,將這項工作擴展到了 ImageNet 最新分類和檢測結果中,並展示了如何自動學習新的優化演算法和有效的激活函數。我們正在積極與 Cloud AI 團隊合作,將此技術帶給 Google 客戶,並繼續向多個方向推進這項研究。

神經結構搜索發現的卷積網路

使用 AutoML 發現的網路進行物體檢測

語言理解與生成

我們的另一個研究課題是開發一種提高計算機系統理解和產生人類言語能力的新技術,包括與谷歌語音團隊合作改進端到端語音識別的方法,將 Google 語音識別生成系統的單詞錯誤率降低了 16%。這項工作的一個好處是,它需要將許多獨立的研究線索整合到一起(可以在 Arxiv 上找到:1,2,3,4,5,6,7,8,9)。

Listen-Attend-Spell 端到端語音識別模型組成部分

我們還與 Google 的 Machine Perception(機器感知)團隊合作開發了一種文本生成語音的新方法(Tacotron 2),大大提高了生成語音的質量。這個模型的平均分數達 4.53 分(MOS),相比之下,有聲讀物中的人類專業播音員的 MOS 評分平均分為 4.58,而之前計算機生成語音的最佳成績為 4.34。你也可以測試一下自己能得多少分。

Tacotron 2 的模型架構

新的機器學習演算法和方法

我們繼續開發新的機器學習演算法和方法,包括膠囊(在執行視覺任務時明確將尋找激活特徵中的一致性作為評估不同雜訊假設的依據),sparsely-gated mixtures of experts(能夠實現仍具有計算效率的大型模型),超網路(hypernetworks,使用一個模型的權重來生成另一個模型的權重),新型的多模式模型(在同一個模型中進行音頻、視覺和文本輸入多任務學習),基於注意的機制(代替卷積和循環模型),符號和非符號學習優化方法(通過離散變數向反向傳播的技術),以及一些新的強化學習演算法改進。

計算機系統的機器學習

我們對機器學習在計算機系統中取代傳統的啟發式方法也非常感興趣。我們已經展示了如何使用強化學習來進行放置決策,以便將計算圖映射到一組計算設備上,效果優於人類專家。我們與 Google Research 的其他同事一起,在「學習索引結構的案例」中展示了神經網路比傳統數據結構(如 B 樹,哈希表和布盧姆過濾器)更快、更小。正如 NIPS 研討會上的《機器學習系統和系統的機器學習》一文所述,我們相信,我們在核心計算機系統中使用機器學習方面的研究只是冰山一角。

學習模型索引結構

隱私和安全

機器學習和安全和隱私的交互仍然是我們的研究重點。我們在論文中展示了機器學習技術提供不同的隱私保護,該論文獲得了 ICLR 2017 最佳論文獎。我們還繼續研究了對抗性示例的性特性其中包括現實世界中的對抗性示例,以及如何在訓練過程中大規模利用對抗性示例,使模型更加強大。

了解機器學習系統

雖然我們在深度學習方面獲得了令人印象深刻的成果,但理解它的原理也同樣重要。在 ICLR 2017 的另一篇最佳論文中,我們發現目前的機器學習理論框架無法解釋這些深度學習的方法。論文還表明,最優化方法找到的最小值的「平坦度」與良好泛化方法之間的聯繫並沒有預設中緊密。為了更好地理解深層架構下的訓練是如何進行的,我們發表了一系列分析隨機矩陣的論文,因為大多數訓練方法都始於隨機矩陣。了解深度學習的另一個重要途徑是更好地衡量其性能。我們最近的一項研究顯示了良好的實驗設計和嚴謹的統計對於實驗的重要性,對眾多 GAN 方法進行比較,發現很多流行的生成模型實際上並無法提高性能。我們希望這項研究能夠為其他研究人員樹立一個可靠的實驗研究範例。

我們正在探索能夠更好地解釋機器學習系統的方法,並於 3 月份與 OpenAI、DeepMind、YC Research 等合作,宣布推出一本致力於促進人類對機器學習理解的在線開放性科學期刊——《Distill》。這本期刊因為清晰地解釋機器學習概念,以及文章中出色的互動式可視化工具贏得了聲譽。2017 年,《Distill》發表了許多啟發式的文章,旨在了解各種機器學習技術的原理,預計 2018 年會有更多優秀的文章刊出。

特徵可視化

如何有效地使用 t-SNE

機器學習研究的開放數據集

MNIST、CIFAR-10、ImageNet、SVHN 和 WMT 這樣的開放數據集,極大地推動了機器學習領域的發展。作為一個整體,我們的團隊和 Google Research 在過去一年左右一直積極地為開放式機器學習研究開放有趣的新數據集,提供更多的大型標記數據集,包括:

  • YouTube-8M:分別用 4716 個不同類別注釋的 700 萬條 YouTube 視頻
  • YouTube 綁定框:210,000 個 YouTube 視頻的 500 萬個綁定框
  • 語音指令數據集:數千條發言者的簡短命令語
  • AudioSet:200 萬個 10 秒的 YouTube 剪輯,標有 527 個不同的聲音事件
  • 自動視覺行動(AVA):57,000 個視頻片段中的 21 萬個動作標籤
  • Open Image:9M,標有 6000 個類別的創意共享授權圖片
  • Open Images with Bounding Boxes:600 個類的 1.2M 邊界框

YouTube 邊界框數據集示例:以每秒 1 幀採樣的視頻片段,邊界框成功識別感興趣的目標

YouTube 邊界框數據集示例:以每秒 1 幀採樣的視頻片段,邊界框成功識別感興趣的目標

TensorFlow 和開源軟體

TensorFlow 用戶分布廣泛

縱觀歷史,我們的團隊已經構建了一些工具,幫助我們在 Google 的許多產品中進行機器學習研究並部署機器學習系統。 2015 年 11 月,我們開放了第二代機器學習框架 TensorFlow,希望機器學習社區能夠從機器學習軟體工具的投資中受益。今年二月份,我們發布了 TensorFlow 1.0,在十一月份,我們發布了 1.4 版本,包括:互動式命令式編程的及早求值,TensorFlow 程序的優化編譯器 XLA,以及適用於移動和嵌入式設備的輕量級框架 TensorFlow Lite。目前,預編譯的 TensorFlow 二進位文件目前在 180 多個國家的下載量已經超過一千萬次,GitHub 上的源代碼現在已經有超過 1200 個貢獻者。

今年 2 月,我們舉辦了第一屆 TensorFlow 開發者峰會,450 多人前來山景城現場參加活動,全球觀看人數 6500 萬,包括在 35 多個國家和地區舉辦的超過 85 場本地觀看活動。所有的會談都被記錄下來,會議主題包括新功能、使用 TensorFlow 的技巧,以及低級 TensorFlow 抽象的細節等。2018 年 3 月 30 日嗎,我們將在灣區舉辦另一個 TensorFlow 開發者峰會。

11 月,TensorFlow 紀念開放源代碼項目兩周年。TensorFlow 是 GitHub 上的第一個機器學習平台,也是 GitHub 上的五大軟體庫之一,被許多公司和組織所使用,GitHub 上與 TensorFlow 相關的軟體庫超過 24,500 個。現在,許多研究論文的研究成果都與開放源碼的 TensorFlow 實現一起出版,使得社區能夠更輕鬆地理解確切的使用方法,並重現或擴展自己的工作。

TensorFlow 也從其他 Google 研究團隊的開源相關工作中獲益,其中包括 TensorFlow 中的生成對抗模型的輕量級庫 TF-GAN,用於處理晶格模型的一組估計器 TensorFlow Lattice,以及 TensorFlow 物體識別 API。 TensorFlow 模型庫隨著越來越多的模型不斷擴大。

除了 TensorFlow,我們還在瀏覽器中發布了 deeplearn.js,一個開源的硬體加速深度學習 API 應用(無需任何下載或安裝)。deeplearn.js 主頁有許多很好的例子,其中包括可以使用網路攝像頭進行訓練的計算機視覺模型「教育機器」,以及基於神經網路的實時鋼琴演奏和演奏示例「演奏 RNN」。2018 年,我們將嘗試將 TensorFlow 模型直接部署到 deeplearn.js 環境中。

TPUs

雲端 TPU 機器學習加速達 180 teraflops

大約五年前,我們認識到深度學習會大大改變我們所需要的硬體種類。深度學習計算的計算量非常大,但它們有兩個特殊的性質:它們主要由密集的線性代數運算(矩陣倍數、向量運算等)組成,它們對精度的降低容忍度很大。因此,我們可以利用這兩個屬性來構建能夠非常有效地運行神經網路計算的專用硬體。我們為 Google 的平台團隊提供了設計輸入,由他們設計並生產了我們的第一代 Tensor Processing Unit(TPU):一種旨在加速深度學習模型推理的單晶元 ASIC(推理是使用已經過訓練的神經網路,與訓練不同)。我們的數據中心使用這款第一代 TPU 已經三年了,並且已經被用於 Google 的每個搜索查詢、Google 翻譯,Google 相冊中的圖片,AlphaGo 與李世石和柯潔的對戰,以及其他許多研究和產品。六月份,我們在 ISCA 2017 上發表了一篇論文,表明這款第一代 TPU 比現代 GPU 或 CPU 同類產品快 15 倍 - 30 倍,性能 / 功耗約提高 30 倍 - 80 倍。

雲端 TPU Pod 可以提供高達 11.5 petaflops 的機器學習加速

隨著所使用的 TPU 設備數量增加,在 ImageNet 上進行的 ResNet-50 訓練實現接近完美的加速。

推理是很重要的,但加速訓練過程是一個更重要,也更難的問題。速度越快,我們越有可能做出更多的突破。5 月份,我們在 Google I / O 上發布的第二代 TPU 是一個旨在加速訓練和推理的系統(定製 ASIC 晶元、電路板和互連),我們展示了單個器件配置和一個叫做 TPU Pod 的多深度學習超級計算機配置。我們宣布,這些第二代設備將作為雲端 TPU 在 Google 雲端平台上線。同時,我們還公布了 TensorFlow 研究雲計劃(TFRC),該計劃旨在為致力於免費訪問 1000 個雲端 TPU 的集群頂級的 ML 研究人員提供解決方案。12 月,我們可以在 22 分鐘內在 TPU Pod 上訓練一個達到高精確度的 ResNet-50 ImageNet 模型,而一個傳統的工作站完成這一任務需要幾天甚至更長時間。我們認為,以這種方式縮短研究周期將大大提高 Google 的機器學習團隊以及所有使用雲端 TPU 組織的工作效率。

原文鏈接:

research.googleblog.com

更多乾貨內容,可關注AI前線,ID:ai-front,後台回復「AI」、「TF」、「大數據」可獲得《AI前線》系列PDF迷你書和技能圖譜。


推薦閱讀:

吳恩達 DeepLearning.ai 課程提煉筆記(4-2)卷積神經網路 --- 深度卷積模型
強大的機器學習專屬R包——mlr包
Python · 神經網路(四)· 網路
Boosting

TAG:机器学习 | 人工智能 |