人工智慧 | 7,Jeff Dean:谷歌大腦2017總結
谷歌AI Senior Fellow、谷歌大腦負責人Jeff Dean,按照慣例,今天開始發布2017年度的谷歌大腦年度總結。
在這份已經發布的總結中,Jeff Dean回顧了谷歌大腦團隊過去一年的核心研究,以及在多個AI領域的研究進展。
Jeff Dean還把相關研究的論文等一併附上,堪稱良心之作,值得收藏。
以下是最新發布的總結全文,淺色文字為量子位注釋:
作為谷歌整體人工智慧計劃的一部分,谷歌大腦團隊致力於通過研究和系統工程,提升人工智慧的技術水平。我們去年分享了2016年的工作總結。從那以後,我們在提升機器智能這個長期研究項目上繼續取得進展,並與谷歌和Alphabet的多個團隊合作,使用我們的研究成果來改善人們的生活。
我們將為2017年撰寫兩篇總結文章,這是第一篇,包括我們的一些基礎研究工作,以及關於開源軟體、數據集和機器學習的新硬體的更新。第二篇文章的重點是探討我們針對機器學習能產生巨大影響的領域展開的深入研究,如醫療、機器人和一些基礎科學領域,以及我們在創造性、公平和包容等方面所作的工作,並讓你更加深入地了解我們。
核心研究
我們團隊的一個研究重點是促進我們的理解力和提高我們解決機器學習領域新問題的能力。以下是我們去年研究的幾大主題。
AutoML
自動化機器學習的目標是開發各種技術,讓計算機自動解決新的機器學習問題,而不需要人類機器學習專家逐一干預。如果我們有朝一日真的能有真正的智能系統,這就是我們所需的基本能力。
我們開發了利用強化學習和進化演算法設計神經網路體系結構的新方法。
AutoML在去年5月的2017 Google I/O開發者大會上首次正式發布。這個新方法意在讓讓神經網路去設計神經網路,谷歌希望能借AutoML來促進深度學習開發者規模的擴張,讓設計神經網路的人,從供不應求的PhD,變成成千上萬的普通工程師。
在AutoML中,一個主控的神經網路可以提出一個「子」模型架構,並用特定的任務來訓練這個子模型,評估它的性能,然後,主控收到反饋,並根據反饋來改進下一個提出的子模型。
這個過程,簡單來說就是:生成新架構-測試-提供反饋供主控網路學習。在重複上千次後,主控網路學會了哪些架構能夠在已知驗證集上得到更高的準確率。
將此項工作擴展到ImageNet最新分類和檢測結果中,並展示了如何自動學習新的優化演算法和有效的激活函數。我們正積極與我們的雲人工智慧團隊合作,將這項技術提供給谷歌客戶使用,並繼續在多方面推動該研究。
去年11月,谷歌對AutoML進行了升級。此前AutoML能設計出與人類設計的神經網路同等水平的小型神經網路,但始終被限制在CIFAR-10和Penn Treebank等小型數據集上。
為了讓這種方法應用到ImageNet中,研究人員對AutoML做了兩點調整,方便更容易地處理大型數據集。
相關論文:
- Neural Optimizer Search with Reinforcement Learning https://arxiv.org/abs/1709.07417
- Searching for Activation Functions https://arxiv.org/abs/1709.07417
語音理解和生成
另一個主題是開發新技術,提高我們的計算系統在理解和生成人類語音方面的能力,包括我們與谷歌語音團隊合作為一個端到端語音識別方法開發了一系列改進措施,把谷歌語音識別系統的相對詞錯誤率降低了16%。這項工作有一個好處,那就是需要融合很多獨立的研究線索。
相關論文:
- State-of-the-art Speech Recognition With Sequence-to-Sequence Modelshttps://arxiv.org/abs/1712.01769
- Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Modelshttps://arxiv.org/abs/1712.01818
- Multi-Dialect Speech Recognition With A Single Sequence-To-Sequence Model
https://arxiv.org/abs/1712.01541
- Multilingual Speech Recognition With A Single End-To-End Modelhttps://arxiv.org/abs/1711.01694
- Improving the Performance of Online Neural Transducer Modelehttps://arxiv.org/abs/1712.01807
- Monotonic Chunkwise Attentionhttps://arxiv.org/abs/1712.05382
- Learning Hard Alignments with Variational Inferencehttps://arxiv.org/abs/1705.05524
- No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models
https://arxiv.org/abs/1712.01864
- An analysis of incorporating an external language model into a sequence-to-sequence modelhttps://arxiv.org/abs/1712.01996
△Listen-Attend-Spell端到端語音識別模型的部件
我們還和谷歌機器感知團隊合作,開發了一種進行文字到語音生成的新方法:Tacotron 2。這種新方法極大地改進了所生成語音的效果,模型達到的平均意見分(MOS)達到4.53,而你在有聲書里聽到的那些專業人類播音員,MOS也只有4.58,以前,計算機合成語音的最佳成績是4.34。
Tacotron 2合成音頻試聽:
https://google.github.io/tacotron/publications/tacotron2/index.html△Tacotron 2模型架構
新的機器學習演算法和方法
我們繼續開發新穎的機器學習演算法和方法,包括對capsules的研究(在執行視覺任務時,明確地尋找激活功能協議,以此作為一種評估不同雜訊假設的方法)。
相關報道:Hinton的Capsule論文終於公開
相關論文:
- Dynamic Routing between Capsuleshttps://research.google.com/pubs/pub46351.html
sparsely-gated mixtures of experts (這能實現仍然具有計算效率的大型模型)。
在這個研究中,新的神經網路層只需要很小的計算能力提升,便能高效地提升模型的能力。
相關論文:
- Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layerhttps://arxiv.org/abs/1701.06538
hypernetworks(使用一個模型的權重來生成另一個模型的權重)。
相關論文:
- HYPERNETWORKShttps://openreview.net/pdf?id=rkpACe1lx
新型多模模型(使用相同模型執行音頻、視覺和文本輸入等多任務學習)。
相關報道:一個神經網路學習一切!
相關論文:
- One Model To Learn Them Allhttps://arxiv.org/abs/1706.05137
基於注意力的機制(代替卷積和循環模型)。
相關論文:
- Attention is All You Needhttps://arxiv.org/pdf/1706.03762.pdf
符號和非符號學習優化方法。
相關論文:
- Neural Optimizer Search with Reinforcement Learninghttp://proceedings.mlr.press/v70/bello17a/bello17a.pdf
- Learned Optimizers that Scale and Generalizehttps://arxiv.org/abs/1703.04813
一項通過離散變數反向傳播的技術。
相關論文:
- Categorical Reparameterization with Gumbel-Softmaxhttps://arxiv.org/abs/1611.01144
以及對強化學習演算法的一些改進。
相關論文:
- Bridging the Gap Between Value and Policy Based Reinforcement Learninghttps://arxiv.org/pdf/1702.08892.pdf
計算機系統的機器學習
在計算機系統中用機器學習取代傳統的啟發式應用也是我們非常感興趣的方向。我們已經展示了如何使用強化學習在把計算機圖像映射到一組計算設備上的時候制定位置決策,效果比人類專家還好。
相關論文:
- Bridging the Gap Between Value and Policy Based Reinforcement Learning
https://arxiv.org/pdf/1702.08892.pdf
我們與谷歌研究院的其他同事共同在「The Case for Learned Index Structures」中展示,神經網路不僅比傳統的數據結構(B-樹、哈希表和Bloom過濾器)更快,而且也小得多。我們認為,我們只是掌握了在核心計算系統中使用機器學習的皮毛。
相關報道:如何構建未來的機器學習晶元
相關論文:
- The Case for Learned Index Structureshttps://arxiv.org/abs/1712.01208
隱私和安全
機器學習及其與安全與隱私的交互仍是我們研究的重點。在ICLR 2017的一篇得獎論文中,我們展示了機器學習技術可以用於提供不同的隱私保障方式。
相關論文:
- Semi-supervised Knowledge Transfer for Deep Learning from Private Training Datahttps://arxiv.org/abs/1610.05755
我們還繼續調查了對抗樣例的特性,包括在現實世界中展示對抗樣例,以及如何在訓練過程中規模化使用對抗樣例,使模型更適用於對抗樣例。
相關論文:
- Adversarial examples in the physical world
https://research.google.com/pubs/pub45818.html
- Adversarial Machine Learning at Scalehttps://arxiv.org/abs/1611.01236
理解機器學習系統
雖然通過機器學習技術得到了漂亮的結果,但更重要的是理解機器學習在什麼時候能發揮作用,什麼時候無效。
在另一篇ICLR 2017最佳論文中,我們展示了,當前機器學習理論框架無法解釋深度學習方法取得的出色結果。
相關論文:
- Understanding deep learning requires rethinking generalizationhttps://openreview.net/forum?id=Sy8gdB9xx¬eId=Sy8gdB9xx
我們還展示了,通過優化方法發現的最小值「平坦度」並不像最初想像中與良好的泛化方法密切相關。為了更好地理解深度框架中訓練如何推進,我們發布了一系列分析隨機矩陣的論文,因為這是大多數訓練方法的出發點。
相關論文:
- Nonlinear random matrix theory for deep learninghttps://research.google.com/pubs/pub46342.html
理解深度學習的另一個重要途徑是更好地衡量性能。我們在最近一項研究中比較了多種GAN方法,展示了良好的實驗設計和統計嚴格性的重要性。許多GAN方法很熱門,被用於增強生成模型,但實際上並沒有帶來性能優化。我們希望這項研究能給其他研究員帶來範例,幫助他們展開健壯性更好的實驗性研究。
我們正在開發能對機器學習系統進行更好表達的方法。去年3月,通過與OpenAI、DeepMind和YC Research等公司和機構合作,我們推出了新的開放科學在線雜誌Distill,致力於支持人類對機器學習的理解。這份在線雜誌的文章提供了清晰的機器學習概念,以及出色的互動式可視化工具。在推出第一年中,Distill發布了多篇有啟發性的文章,旨在幫助人們了解機器學習的各種內部原理。我們期待2018年能帶來更多內容。
△特徵可視化
https://distill.pub/2017/feature-visualization/
△如何有效地使用t-SNE
用於機器學習研究的開放數據集
MNIST、CIFAR-10、ImageNet、SVHN和WMD等開放數據集快速推動了機器學習的研究進展。我們團隊和谷歌研究院一起,在過去一年裡一直積極探索開放有趣的新數據集,用於開源機器學習領域的研究。我們提供了規模更大的有標籤數據集,其中包括:
- YouTube-8M:大於700萬個YouTube視頻,被標註為4716個不同類別https://research.google.com/youtube8m/
- YouTube-Bounding Boxes:來自21萬個YouTube視頻的500萬個邊界框https://research.google.com/youtube-bb/
- Speech Commands Dataset:數千名講話者說出的簡短命令https://research.googleblog.com/2017/08/launching-speech-commands-dataset.html
- AudioSet:200萬個10秒鐘YouTube短視頻,用527個不同聲音事件去標記https://research.google.com/audioset/
- Atomic Visual Actions(AVA):5.7萬個視頻片段中的21萬個動作標籤https://research.google.com/ava/
- Open Images:900萬張獲得知識共享許可的圖片,被標記為6000個類別https://github.com/openimages/dataset
- Open Images with Bounding Boxes:600個類別的120萬邊界框
△YouTube-Bounding Boxes數據集示例
TensorFlow和開源軟體
△TensorFlow全球用戶分布
http://jrvis.com/red-dwarf/?user=tensorflow&repo=tensorflow
在團隊歷史上,我們開發了一些工具,幫助我們在谷歌的多種產品中開展機器學習研究,部署機器學習系統。
2015年11月,我們開源了第二代機器學習框架TensorFlow,希望讓機器學習界從我們的投入中受益。2月份,我們發布了TensorFlow 1.0。11月份,我們又發布了1.4版本,加入了以下重要內容:用於互動式非典型編程的Eager Execution、針對TensorFlow程序優化的編譯器XLA,以及用於移動和嵌入式設備的輕量級解決方案TensorFlow Lite。
預編譯的TensorFlow二進位文件已在180多個國家被下載了1000多萬次,GitHub上的源代碼已有超過1200名貢獻者。
2月份,我們舉辦了首屆TensorFlow開發者峰會,超過450人來到山景城現場參會,全球有6500多人觀看了在線直播,包括35個國家的超過85場本地觀看活動。所有演講記錄了下來,主題包括新特性,使用TensorFlow的新技術,以及對低級TensorFlow抽象的詳細描述。
TensorFlow開發者峰會2017演講視頻:
https://www.youtube.com/playlist?list=PLOU2XLYxmsIKGc_NBoIhTn2Qhraji53cv我們將於2018年3月30日在舊金山灣區舉行另一場TensorFlow開發者峰會。現在你可以註冊,保存日期,追蹤最新消息。
TensorFlow開發者峰會2017註冊地址:
https://services.google.com/fb/forms/tfds-2018-save-the-date/△一個用TensorFlow玩石頭剪刀布的實驗
我們很高興看見,2017年TensorFlow得到了廣泛應用,包括黃瓜分揀的自動化,在航拍照片中尋找海牛,對土豆進行分揀確保兒童食品安全,協助翻譯紐西蘭鳥類保護區的鳥叫聲,以及對坦尚尼亞最受歡迎根莖作物的病害進行識別。
11月,TensorFlow作為開源項目慶祝了兩周歲生日。我們很高興看到TensorFlow開發者和用戶社區的興起和繁榮。TensorFlow目前是GitHub上排名第一的機器學習平台,也是GitHub上的最火的五大代碼庫之一,被許多大大小小的企業和組織使用。
此外,GitHub上已有2.45萬個與TensorFlow有關的不同代碼庫。目前的許多研究論文關於開源代碼的TensorFlow實現,並提供了研究成果,幫助整個社區更容易地理解確切的研究方法,模仿或拓展相關工作。
Google Research其他團隊的相關開源工作也令TensorFlow受益,其中包括TF-GAN。這是個輕量級庫,用於TensorFlow、TensorFlow Lattice(一組用於晶格模型的估計工具),以及TensorFlow對象檢測API中的生成對抗模型。隨著模型數量的不斷增長,TensorFlow模型庫也在繼續壯大。
- TF-GANhttps://research.googleblog.com/2017/12/tfgan-lightweight-library-for.html
除TensorFlow之外,我們還發布了deeplearn.js,提供了一種在瀏覽器中配置深度學習API的開源、硬體加速的方法(無需下載或安裝任何東西)。deeplearn.js的主頁提供了許多很好的範例,包括Teachable Machine(一種計算機視覺模型,可以用自己的攝像頭去訓練)和Performance RNN(實現了基於實時神經網路的鋼琴作曲和表演)。2018年,我們將在此基礎上進一步推進,協助將TensorFlow模型直接部署至deeplearn.js環境。
相關鏈接:
- Teachable Machinehttps://teachablemachine.withgoogle.com/
- Performance RNNhttps://deeplearnjs.org/demos/performance_rnn
TPU
大約5年前,我們意識到,深度學習將極大地改變我們對硬體的需求。深度學習計算將帶來計算密集型任務,同時具備兩個特點:
一方面,它們主要由繁重的線性代數運算(矩陣乘法、向量運算等)組成;另一方面,它們對精度降低寬容度很高。
我們意識到,可以基於這兩大特點來構建專用硬體,從而更高效地運行神經網路計算。因此,我們向谷歌的平台團隊提供了設計輸入,而他們設計並開發了第一代的「張量處理單元(TPU)」。這是一種單晶元ASIC,用於加速深度學習推理(與訓練不同,推理用於已經過訓練的神經網路)。
第一代TPU在數據中心的部署已有3年時間,谷歌搜索、谷歌翻譯、谷歌照片,以及AlphaGo中的深度學習模型就使用了這種晶元,同時也給許多其他研究項目和產品提供了計算能力。去年6月,我們在ISCA 2017上發表了一篇論文,表明第一代TPU要比同時代GPU或CPU快15到30倍,而性能功耗比則提升了30倍到80倍。
△用ImageNet訓練ResNet-50的實驗表明,隨著TPU數量的增長,神經網路訓練加速
推理很重要,但訓練的加速是個更重要的問題,同時也更困難。如果研究人員可以更快地嘗試新想法,那麼我們就可以取得更多突破。
我們的第二代TPU於去年5月在谷歌I/O大會上發布,提供了完整的系統(包括訂製的ASIC晶元、電路板和連接方式),可以同時加速訓練和推理。我們展示了單個設備的配置,以及包含多個機架的深度學習超級計算機配置,即TPU艙。我們宣布將通過谷歌雲計算平台提供第二代設備,即雲TPU。我們還啟動了TensorFlow研究雲(TFRC)項目,向願意將工作成果分享給全世界的頂級機器學習研究員提供包含1000個雲TPU的計算集群。
12月,我們又展示了一項成果:用TPU艙去訓練ResNet-50 ImageNet模型,並在22分鐘內取得了高水平的精確度。而傳統工作站達到這樣的效果需要幾天甚至更長時間。我們認為,縮短研究周期將大大提高谷歌機器學習團隊,以及所有使用雲TPU的組織的效率。
如果你對雲TPU、TPU艙和TensorFlow研究雲感興趣,那麼可以在 http://g.co/tpusignup 註冊,了解更多信息。我們很高興,2018年能讓更多工程師和研究員用上TPU。
原文:
https://research.googleblog.com/2018/01/the-google-brain-team-looking-back-on.html這是Jeff Dean總結Google Brain 2017成就的上篇,他還會再寫個下篇,談一談他們對機器學習應用於醫療、機器人、各種科學研究、創造等領域的研究,也會談到Google Brain在公平性和包容性方面所做的工作。
本文轉自公眾號量子位
推薦閱讀:
※AlphaGo背後的秘密!解讀谷歌全面重磅開放的雲TPU
※據說是世界上第一門探討「強人工智慧」的公開課開課了!
※深度學習在語音生成問題上的典型應用
※不忘初心,牢記使命!
※人工智慧技術在運動康復中的應用
TAG:人工智慧 |