2017 年度 AI 和深度學習大事件回顧

01-28

簡評：剛過去的 2017 捲起了一起又一起 AI 和機器學習浪潮，一起來回顧一下有哪些大事件。

AlphaGo 強化學習，在自己的遊戲中擊敗人類

去年最大的成功很可能就是 AlphaGO （Nature 論文）了，強化學習演算法打敗了世界上最好的圍棋選手。由於需要極大的搜索空間，圍棋在過去幾年前被認為超出了機器學習的範疇。事實證明，這幾年的機器學習的發展速度令人驚嘆。

AlphaGo 的第一個版本是通過搜集人類專家的數據，形成訓練數據，進而通過自弈和蒙特卡洛樹搜索演算法來提升自己。不久之後，AlphaGo Zero（Nature 論文）採取更進一步的方法，從零開始學習圍棋，沒有搜集任何人類訓練數據，使用從用深度學習和樹搜索思考快和慢這篇論文中的技術，Zero 還輕而易舉地打敗了之前的 AlphaGo 版本。到了年末，我們見識到了 AlphaGo Zero 的新一代演算法，叫做 AlphaZero，它不僅僅精通圍棋，還有國際象棋，將棋等等，使用完全相同的技術。有趣的是，這些程序的「招式」甚至讓頂尖圍棋選手吃驚，這些選手也從 AlphaGo 中學習來調整自己的下棋風格。為了方便大家，DeepMind 發布了一個 AlphaGo Teach 工具。

但圍棋不是唯一一個取得重大突破的遊戲。卡內基梅隆大學的研究員開發的 Libratus 系統在為期 20 天的無限德州撲克賽事中擊敗了所有頂級撲克選手。更早一些，一個由查爾斯大學、捷克技術大學、阿爾伯塔大學的研究人員開發的 DeepStack 系統成為第一個打敗專業撲克選手的人工智慧。這兩個系統都是玩雙人撲克的，而多人撲克顯然更有挑戰，這很有可能在 2018 有所進展。

強化學習的下一個挑戰似乎是多人遊戲。DeepMind 正在研究星際爭霸2，發布了一個研究環境，還有 OpenAI 在 Dota2 solo 獲勝的演示視頻，下一個目標是 5v5 的競技遊戲。

https://www.zhihu.com/video/931576331088416768

進化演算法捲土重來

對於監督式學習，使用基於梯度的反向傳播演算法已經工作得非常好了，這點很可能不會改變。然而，在強化學習中，進化策略（ES）有可能捲土重來。因為數據通常不是獨立且分布均勻的（iid），錯誤的信號更加稀疏，並且由於需要探索，所以不依賴於梯度的演算法效果會好些。另外，進化演算法可以線性擴展到成千上萬的機器，從而實現及其快速的並行訓練。不需要更多昂貴的 GPU，只需要大量的（通常是成百上千個）更為廉價的 CPU。

在 17 年早期，來自於 OpenAI 的演示表明進化策略可以實現與標準的強化演算法如 Deep Q-Learning 演算法相媲美的性能。到年末，來自 Uber 的團隊發布了一篇博客和五篇研究論文，進一步證明了遺傳演算法和新穎性搜索的潛力。僅僅使用單一的遺傳演算法，沒有任何梯度信息，他們的演算法學習玩困難模式的 Atari 遊戲，這裡有一個視頻演示了遺傳演算法在 Frostbite 上得到了 10,500 分。DQN，AC3，ES 等演算法在這個遊戲上的得分都少於 1,000 分。

https://www.zhihu.com/video/931580179818573824

可能在 2018 年我們將看到進一步的成果。

深度學習框架之年

如果我要將 2017 總結成一句話，那將會是框架之年。Facebook 憑藉 PyTorch 搞了個大動靜。因為它的動態圖構建和 Chainer 提供的類似，它在自然語言處理領域受到了許多研究人員的喜愛，因為他們經常需要在靜態圖框架如 TensorFlow 中處理那些複雜的動態和循環結構。

TensorFlow 在 2017 發展迅速。 Tensorflow 1.0 穩定版及向後兼容的 API 在二月份發布了。最近，TensorFlow 的最新版是 1.4.1. 為了兼容主流的框架，TensorFlow 發布了幾個伴生庫，包括支持動態計算圖的 Tensorflow Fold，數據輸入管道的 Tensorflow Transform，以及 DeepMind 的更高級 Sonnet 庫。TensorFlow 團隊還發布了 eager execution，和 PyTorch 的動態計算圖功能類似。

除了 Google 和 Facebook，其他公司也加入了機器學習框架車隊：

Apple 發布了 CoreML 移動機器學習庫。
Uber 的團隊發布了 Pyro，深度概率編程語言。
Amazon 發布了更高級別 API Gluon, 在 MXNet 中集成了。
Uber 發布了其內部使用的 Michelangelo 機器學習基礎平台的詳細信息。

因為越來越多的框架正在誕生，Facebook 和 Microsoft 發布了 ONNX 開源格式來共享框架之間的深度學習模型。比如，你可能在其中一個框架中訓練模型，但在另一個框架中使用。

通過通用的深度學習框架，我們看到大量的強化學習框架正在發布，包括：

OpenAI Roboschool 機器人模擬的開源軟體
OpenAI Baselines 一系列高性能強化學習演算法的實現
Tensorflow Agents 包括使用 TensorFlow 訓練 RL 代理的優化基礎實現
Unity ML Agents 允許開發者使用 Unity 編輯器創建遊戲並使用強化學習來模擬使用
Nervana Coach 允許使用最先進的強化學習演算法進行試驗
Facebook』s ELF 遊戲研究平台
DeepMind Pycolab 自定義的 gridworld 遊戲引擎
Geek.ai MAgent 多代理強化學習研究平台

學習資源

隨著深度學習和強化學習變得越來越流行，越來越多的演講，訓練營和事件在網上發布。以下是我的最愛：

Deep RL Bootcamp 由 OpenAI 和 UC Berkeley 聯合主辦，精選強化學習基礎演講以及最先進的研究
2017 春季斯坦福的用於視覺識別的卷積神經網路課程。課程網址
2017 冬季斯坦福的自然語言處理與深度學習課程。課程網址
斯坦福的深度學習理論課程
全新的 Coursera 深度學習專欄
蒙特利爾深度學習和強化學習夏令營
UC Berkeley 的深度強化學習 2017 秋季課程
TensorFlow 開發者峰會關於深度學習和 TensorFlow API 的基礎演講

如果你想跟進最前沿的研究可以在 NIPS 2017，ICLR 2017 或者 EMNLP 2017 中查看。

研究者們還發布了一些新手指南和調查論文的電子版，這是我今年最喜歡的：

Deep Reinforcement Learning: An Overview
機器學習的簡短介紹
神經機器翻譯
神經機器翻譯與序列到序列模型指南

應用：AI & 醫學

2017 有許多深度學習技術解決醫療問題，打敗人類專家的案例，但其實有很多都是炒作。對於沒有醫學背景的人來說理解真正的突破是很容易的。要想全面地回顧，我推薦 Luke Oakden-Rayner 的人類醫生的終結系列博客。我將在這裡做個簡短的介紹。

17 年的頭條新聞莫過於斯坦福大學的團隊發布了關於深度學習演算法檢測皮膚癌的文章。你可以在自然雜誌上閱讀到。另一個斯坦福大學團隊開發了一種模型可以比心臟病專家更好地從單導聯心電圖信號診斷不規則的心律，也稱為心律失常。

但今年並不是沒有失誤，DeepMind 對於 NHS 的處理充滿了不可原諒的失誤。NIH 在科學社區發布了胸部 X 射線數據集，但之後進一步檢查表明它不太適合用來訓練診斷 AI 模型。

應用：藝術 & 生成式對抗網路（GAN）

另一個開始吸引更多注意的應用是圖片，音樂，素描和視頻的生成性建模。NIPS 2017 會議首次推出了機器學習與創造和設計研討會。

其中最流行的應用是谷歌的 QuickDraw，它使用神經網路來識別你的塗鴉。使用發布的數據集，你甚至可以讓機器來幫你完成作畫。

生成對抗網路（GAN），在今年獲得重大突破。新模型比如 CycleGAN，DiscoGAN 和 StarGAN 在生成臉部方面取得了令人深刻的成績。GAN 在傳統上難以生成逼真的高解析度圖片，然而 pix2pixHD 令人印象深刻的演示表明我們正在解決這些問題。GAN 會是新的畫筆嗎？

https://www.zhihu.com/video/931620217889509376

應用：自動駕駛

在自動駕駛方面，打車應用 Uber，Lyft，Alphabet 的 Waymo 和 Tesla 可謂重量級選手。Uber 在新的一年中遇到了一些挫折，由於軟體錯誤，他們的自動駕駛汽車錯過了聖佛朗西斯科的幾個紅燈，而不像之前報道的是人為的錯誤。後來，Uber 分享了內部使用的汽車識別平台相關細節。在 12 月，Uber 的自動駕駛汽車程序達到了 200 萬英里。

同時，Waymo 的自動駕駛汽車在4 月份攬到了第一位客人，後來更是徹底去掉了人類操作員。Waymo 也發布了他們的測試和模擬技術相關細節。

Waymo 模擬顯示改進汽車導航

還有一些更酷的應用等等。

原文鏈接：AI and Deep Learning in 2017 – A Year in Review