Deep Learning 一書中有哪些論述被最新研究驗證、拓展或推翻了？

01-28

Deep Learning 一書（作者 Goodfellow Bengio Courville）出版於 2016 年，其文獻基本只引用到 2015 年。請問書中有哪些論述被最新研究驗證、拓展或推翻了？

首先還是要肯定一下Deep Learning對於無數深度學習入門者和研究者的價值，這本書系統全面且深入淺出地講解了深度學習領域知識，是一本較為權威的學慣用書，得到了很多人的認可和推薦。可即便這本書採用在線更新的方式，邊寫邊根據讀者評論進行修改，不斷將新的成果和文獻加入進去，以保證內容的先進性，但事實上從2016年11月出版至今，短短半年多時間，其中部分論述就已經有了被新的研究成果所替代的必要性了。

作為一個處於深度學習技術研究前沿的AI初創企業，竹間智能在不斷取得突破性研究成果的同時，也一直密切關注該領域最新動態。此次我們邀請 竹間智能 深度學習科學家 趙寧遠，來結合實踐，並從最新技術發展的角度，談談Deep Learning 一書中尚未覆蓋到的深度學習領域的問題。

Deep Learning一書是基礎，但不夠前沿

Deep Learning一書應該算是教材性質，整體還是偏基礎，並不是跟進最新內容的好地方——arxiv（無論怎麼被黑，還是第一時間獲取信息的渠道），各種會議，以及熟人間的互相打聽（其實比看arxiv更有效的方法是去找這個領域領先的研究者聊天，看看他們腦子裡的想法和方向，這才是真正的frontier）都會是獲取新信息的更好途徑。書後面的「deep learning research」部分也僅僅是給大家提供一些active research fields的簡單介紹。

所以，最近有些非常熱門的領域，比如深度強化學習以及GAN在本書都沒有涉及，我想這個也是大家比較能夠理解的（即便本書作者之一就是GAN的發明者）。再者，很多本領域的論文都有「標題黨」的傾向，雖然深度學習貌似在2016-2017年還是有「爆髮式」的進展的（畢竟有名的paper非常多），但實際上大部分理論層面的創新還是incremental的居多，所以如果是以「入門基礎」這個水平來看，本書還是包括了比較全面的信息的。

不過所謂橫看成嶺側成峰，不同的視角下的深度學習可能也會折射出不同的光芒，對於同一個領域的理解與看法，視角的差異也許會遠大於內容上的差異。所以，我們想挑出我們比較關心的Deep Learning的一些領域來分享一些書裡面可能沒有覆蓋到的部分。

首先是RAM的發展（Reasoning, Attention and Memory）

針對認知層級的AI，推理、注意力和記憶是一個重大的課題。無論是改進的神經翻譯模型，還是最近取得巨大突破的機器閱讀理解，或者是試圖取代程序員的神經圖靈機，都與這個話題有很大的關係——甚至可以認為這個方向的突破代表著2015年以來深度學習最大的進步——雖然這個題目可以追溯到1997年的LSTM。

在2014-2015年左右，出現了非常多的開創性的內容，包括Jason Weston等的Memory Networks （https://arxiv.org/pdf/1410.3916.pdf）, Alex Grave等的Neural Turing Machine（https://arxiv.org/pdf/1410.5401v2.pdf）, Karl Moriz Hermann等的Teaching Machines to Read and Comprehend（https://arxiv.org/pdf/1506.03340.pdf）, D. Bahdanau等的Neural Machine Translation by Jointly Learning to Align and Translate（https://arxiv.org/pdf/1409.0473.pdf）.

這樣的形勢下，在 2015年Jason Weston組織的NIPS workshop 上，「Reasoning, Attention, Memory (RAM)」的概念（http://www.thespermwhale.com/jaseweston/ram/）被正式提出。會上有很多非常不錯的talk，包括Juergen Schmidhuber的How to learn an algorithm（http://people.idsia.ch/~juergen/rlram2015white.pdf）, Alex Graves的Smooth Operators: the Rise of Differentiable Attention in Deep Learning（http://www.thespermwhale.com/jaseweston/ram/slides/session2/Smooth%20Operators-NIPS2015.pptx），以及Yoshua Bengio的From Attention to Memory and towards Longer-Term Dependencies（http://www.thespermwhale.com/jaseweston/ram/slides/session1/Yoshua_Bengio.pptx）。

接下來的事情都是大家耳熟能詳的：DeepMind在Nature發布的可微分計算機DNC（Hybrid computing using a neural network with dynamic external memory https://www.nature.com/nature/journal/v538/n7626/full/nature20101.html）微軟刷新SQuAD(https://rajpurkar.github.io/SQuAD-explorer/) 的r-net（https://www.microsoft.com/en-us/research/publication/mrc/），以及最近很紅的 Attention is all you need（https://arxiv.org/abs/1706.03762）。其實如果讀過 RAM workshop上的「The Neural GPU the Neural RAM machine」,也許就會發現這些「突破性」的進展，也許並沒有那麼「novel」了：）

其次是深度學習的理論解釋

在這個事情上，Understanding deep learning requires rethinking generalization（https://arxiv.org/abs/1611.03530）這篇論文是最具代表性的。實際上這個問題是現在一個非常熱的話題，在我寫這個回答的時候，就在arxiv上剛刷出一篇Exploring Generalization
in Deep Learning（https://arxiv.org/pdf/1706.08947.pdf）

眾所周知，根據PAC learning和VC理論，過於複雜的模型傾向於過擬合數據，從而降低了對於未知數據的預測能力（增加了結構風險），但是深度神經網路結構複雜參數非常多，而且非常容易過擬合，但是預測效果卻非常的好，即使這個看起來似乎有礙常理。雖然有很多基於critical point數量的理論嘗試解釋，但歸根結底也還是沒有能夠調合模型複雜度和預測能力的矛盾。所以在這個方向（深度學習為什麼work）上，Deep Learning一書還是略有欠缺的。

最後是模型壓縮

深度學習模型中學到的權重實際上是比較稀疏的 (也可能是通過正則化來產生稀疏性) 。那麼很顯然，我們可以利用這個特點來對權重進行壓縮，用較小的代價換取非常巨大的性能提升。

在這個領域，Han Song是當之無愧的專家。大家可以通過Deep Compression, DSD Training and EIE: Deep Neural Network Model
Compression, Regularization and Hardware Acceleration（https://www.microsoft.com/en-us/research/video/deep-compression-dsd-training-and-eie-deep-neural-network-model-compression-regularization-and-hardware-acceleration/）這個talk來了解這個領域的一些進展。他的工作還包括SqueezeNet（https://arxiv.org/pdf/1602.07360v3.pdf）和ESE（https://arxiv.org/pdf/1612.00694.pdf）。

當然，限於篇幅，以上幾點也只能算拋磚引玉，提到了很小的一部分，也期待大家的精彩分享：）

本回答來自竹間智能深度學習科學家趙寧遠。

首先，這本書沒有講Reinforcement Learning (RL)的章節，所以RL方面的就不多說了，此處省略若干本書，比如Reinforcement Learning: An Introduction，和2000篇論文，包括AlphaGo的也省了。下面一一介紹：

1. Activation Function:

SELU (Scaled Exponential Linear Units) [1]. 沒錯就是那篇證明猶如滔滔江水連綿不絕的文章。DEEP LEARNING書上也沒有說ELU [13]，特點是訓練起來比ReLU慢，但是收斂更快。

2. CNNs:

Inception-ResNet [2] 把Inception和Residual Net結合起來了，效果更棒。
Xception [3] 把Inception模塊的1*1卷積的原理推廣到更一般的情況，也就是把深度通道和空間通道分開來做卷積，效果更棒。
The All Convolutional Net [4], 我把它歸為XX is all you need系列，用大跨步的卷積操作替代了pooling操作，效果超級棒。
Faster R-CNN [9], 從名字上就可以看出來是Fast R-CNN的升級版，後者從名字上就可以看出來是R-CNN的升級版。在神經網路中的特徵表達上同時進行圈物體和分類物體，效果更棒。

3. RNNs:

Attention is All You Need [5], 同樣來自XX is all you need系列，丟掉了卷積和Recurrence, 這文章已經是網紅了，就不細說了。

4. RNNs + CNNs:

One Model To Learn Them All [8], 依然來自XX is all you need系列，也是網紅。

5. Auto-Encoder and Generative models:

各種結構、超參數量壓縮方法，此處省略500篇論文。
各種GANs，此處省略1000篇論文。

6. 自動設計結構或超參數：

用Reinforcement Learning自動搜索結構 [6]。
用進化演算法自動優化結構 [7]。
FractalNet [10], 利用分形的結構來設計神經網路，效果可以匹敵ResNet. 這個思路又引起了一小波論文，此處省略10篇吧。

7. Regularization:

Universum Prescription [11], 把沒有標記過的大量數據作為一類（不屬於任何類的類，有點繞？）加到訓練集里，竟然有提高Generality的療效。

8. Optimization:

Explicitly Modeling Optimization Landscapes [12], 對訓練好的神經網路進行參數分析，找到比較好的參數組合、優化方法。

有點多，慢慢寫啊。。。。。。。。。。

參考文獻（Paper Name is All You Need）

[1] Self-Normalizing Neural Networks.

[2] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning.

[3] Xception: Deep Learning with Depthwise Separable Convolutions.

[4] Striving for Simplicity: The All Convolutional Net.

[5] Attention is All You Need.

[6] Neural Architecture Search With Reinforcement Learning.

[7] Large-Scale Evolution of Image Classifiers.

[8] One Model To Learn Them All.

[9] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.

[10] FractalNet: Ultra-Deep Neural Networks without Residuals.

[11] Universum Prescription: Regularization Using Unlabeled Data.

[12] Deep Learning for Explicitly Modeling Optimization Landscapes.

[13] Fast and Accurate Deep Network Learning by Exponential Linear Units.

這本書確實很經典，加上「pattern recognition and machine learning」. 簡直就是機器學習領域的屠龍刀與倚天劍。哈哈，看完Deep Learning 這本書之後感覺在CNN 和 RNN這兩塊很詳細，從一開始的感知機到現在的經典演算法，以及在訓練這兩個網路方面，作者下了很多筆墨。稍微遺憾的是在對抗網路(Generative Adversarial Networks)和殘差網路(Residual Net)講的不是很多。