Deep Learning 一書中有哪些論述被最新研究驗證、拓展或推翻了?
Deep Learning 一書(作者 Goodfellow Bengio Courville)出版於 2016 年,其文獻基本只引用到 2015 年。請問書中有哪些論述被最新研究驗證、拓展或推翻了?
首先還是要肯定一下Deep Learning對於無數深度學習入門者和研究者的價值,這本書系統全面且深入淺出地講解了深度學習領域知識,是一本較為權威的學慣用書,得到了很多人的認可和推薦。可即便這本書採用在線更新的方式,邊寫邊根據讀者評論進行修改,不斷將新的成果和文獻加入進去,以保證內容的先進性,但事實上從2016年11月出版至今,短短半年多時間,其中部分論述就已經有了被新的研究成果所替代的必要性了。
作為一個處於深度學習技術研究前沿的AI初創企業,竹間智能在不斷取得突破性研究成果的同時,也一直密切關注該領域最新動態。此次我們邀請 竹間智能 深度學習科學家 趙寧遠,來結合實踐,並從最新技術發展的角度,談談Deep Learning 一書中尚未覆蓋到的深度學習領域的問題。
Deep Learning一書是基礎,但不夠前沿
Deep Learning一書應該算是教材性質,整體還是偏基礎,並不是跟進最新內容的好地方——arxiv(無論怎麼被黑,還是第一時間獲取信息的渠道),各種會議,以及熟人間的互相打聽(其實比看arxiv更有效的方法是去找這個領域領先的研究者聊天,看看他們腦子裡的想法和方向,這才是真正的frontier)都會是獲取新信息的更好途徑。書後面的「deep learning research」部分也僅僅是給大家提供一些active research fields的簡單介紹。
所以,最近有些非常熱門的領域,比如深度強化學習以及GAN在本書都沒有涉及,我想這個也是大家比較能夠理解的(即便本書作者之一就是GAN的發明者)。再者,很多本領域的論文都有「標題黨」的傾向,雖然深度學習貌似在2016-2017年還是有「爆髮式」的進展的(畢竟有名的paper非常多),但實際上大部分理論層面的創新還是incremental的居多,所以如果是以「入門基礎」這個水平來看,本書還是包括了比較全面的信息的。
不過所謂橫看成嶺側成峰,不同的視角下的深度學習可能也會折射出不同的光芒,對於同一個領域的理解與看法,視角的差異也許會遠大於內容上的差異。所以,我們想挑出我們比較關心的Deep Learning的一些領域來分享一些書裡面可能沒有覆蓋到的部分。
首先是RAM的發展(Reasoning, Attention and Memory)
針對認知層級的AI,推理、注意力和記憶是一個重大的課題。無論是改進的神經翻譯模型,還是最近取得巨大突破的機器閱讀理解,或者是試圖取代程序員的神經圖靈機,都與這個話題有很大的關係——甚至可以認為這個方向的突破代表著2015年以來深度學習最大的進步——雖然這個題目可以追溯到1997年的LSTM。
在2014-2015年左右,出現了非常多的開創性的內容,包括Jason Weston等的Memory Networks (https://arxiv.org/pdf/1410.3916.pdf), Alex Grave等的Neural Turing Machine(https://arxiv.org/pdf/1410.5401v2.pdf), Karl Moriz Hermann等的Teaching Machines to Read and Comprehend(https://arxiv.org/pdf/1506.03340.pdf), D. Bahdanau等的Neural Machine Translation by Jointly Learning to Align and Translate(https://arxiv.org/pdf/1409.0473.pdf).
這樣的形勢下,在 2015年Jason Weston組織的NIPS workshop 上,「Reasoning, Attention, Memory (RAM)」的概念(http://www.thespermwhale.com/jaseweston/ram/) 被正式提出。會上有很多非常不錯的talk,包括Juergen Schmidhuber的How to learn an algorithm(http://people.idsia.ch/~juergen/rlram2015white.pdf), Alex Graves的Smooth Operators: the Rise of Differentiable Attention in Deep Learning(http://www.thespermwhale.com/jaseweston/ram/slides/session2/Smooth%20Operators-NIPS2015.pptx), 以及Yoshua Bengio的From Attention to Memory and towards Longer-Term Dependencies(http://www.thespermwhale.com/jaseweston/ram/slides/session1/Yoshua_Bengio.pptx)。
接下來的事情都是大家耳熟能詳的:DeepMind在Nature發布的可微分計算機DNC(Hybrid computing using a neural network with dynamic external memory https://www.nature.com/nature/journal/v538/n7626/full/nature20101.html) 微軟刷新SQuAD(https://rajpurkar.github.io/SQuAD-explorer/) 的r-net(https://www.microsoft.com/en-us/research/publication/mrc/), 以及最近很紅的 Attention is all you need(https://arxiv.org/abs/1706.03762)。 其實如果讀過 RAM workshop上的「The Neural GPU the Neural RAM machine」,也許就會發現這些「突破性」的進展,也許並沒有那麼「novel」了:)
其次是深度學習的理論解釋
在這個事情上,Understanding deep learning requires rethinking generalization(https://arxiv.org/abs/1611.03530) 這篇論文是最具代表性的。實際上這個問題是現在一個非常熱的話題,在我寫這個回答的時候,就在arxiv上剛刷出一篇Exploring Generalization
in Deep Learning(https://arxiv.org/pdf/1706.08947.pdf)
眾所周知,根據PAC learning和VC理論,過於複雜的模型傾向於過擬合數據,從而降低了對於未知數據的預測能力(增加了結構風險),但是深度神經網路結構複雜參數非常多,而且非常容易過擬合,但是預測效果卻非常的好,即使這個看起來似乎有礙常理。雖然有很多基於critical point數量的理論嘗試解釋,但歸根結底也還是沒有能夠調合模型複雜度和預測能力的矛盾。所以在這個方向(深度學習為什麼work)上,Deep Learning一書還是略有欠缺的。
最後是模型壓縮
深度學習模型中學到的權重實際上是比較稀疏的 (也可能是通過正則化來產生稀疏性) 。那麼很顯然,我們可以利用這個特點來對權重進行壓縮,用較小的代價換取非常巨大的性能提升。
在這個領域,Han Song是當之無愧的專家。大家可以通過Deep Compression, DSD Training and EIE: Deep Neural Network Model
Compression, Regularization and Hardware Acceleration(https://www.microsoft.com/en-us/research/video/deep-compression-dsd-training-and-eie-deep-neural-network-model-compression-regularization-and-hardware-acceleration/) 這個talk來了解這個領域的一些進展。他的工作還包括SqueezeNet(https://arxiv.org/pdf/1602.07360v3.pdf) 和ESE(https://arxiv.org/pdf/1612.00694.pdf)。
當然,限於篇幅,以上幾點也只能算拋磚引玉,提到了很小的一部分,也期待大家的精彩分享:)
本回答來自 竹間智能 深度學習科學家 趙寧遠。
首先,這本書沒有講Reinforcement Learning (RL)的章節,所以RL方面的就不多說了,此處省略若干本書,比如Reinforcement Learning: An Introduction,和2000篇論文,包括AlphaGo的也省了。下面一一介紹:
1. Activation Function:
- SELU (Scaled Exponential Linear Units) [1]. 沒錯就是那篇證明猶如滔滔江水連綿不絕的文章。DEEP LEARNING書上也沒有說ELU [13],特點是訓練起來比ReLU慢,但是收斂更快。
2. CNNs:
- Inception-ResNet [2] 把Inception和Residual Net結合起來了,效果更棒。
- Xception [3] 把Inception模塊的1*1卷積的原理推廣到更一般的情況,也就是把深度通道和空間通道分開來做卷積,效果更棒。
- The All Convolutional Net [4], 我把它歸為XX is all you need系列,用大跨步的卷積操作替代了pooling操作,效果超級棒。
- Faster R-CNN [9], 從名字上就可以看出來是Fast R-CNN的升級版,後者從名字上就可以看出來是R-CNN的升級版。在神經網路中的特徵表達上同時進行圈物體和分類物體,效果更棒。
3. RNNs:
- Attention is All You Need [5], 同樣來自XX is all you need系列,丟掉了卷積和Recurrence, 這文章已經是網紅了,就不細說了。
4. RNNs + CNNs:
- One Model To Learn Them All [8], 依然來自XX is all you need系列,也是網紅。
5. Auto-Encoder and Generative models:
- 各種結構、超參數量壓縮方法,此處省略500篇論文。
- 各種GANs,此處省略1000篇論文。
6. 自動設計結構或超參數:
- 用Reinforcement Learning自動搜索結構 [6]。
- 用進化演算法自動優化結構 [7]。
- FractalNet [10], 利用分形的結構來設計神經網路,效果可以匹敵ResNet. 這個思路又引起了一小波論文,此處省略10篇吧。
7. Regularization:
- Universum Prescription [11], 把沒有標記過的大量數據作為一類(不屬於任何類的類,有點繞?)加到訓練集里,竟然有提高Generality的療效。
8. Optimization:
- Explicitly Modeling Optimization Landscapes [12], 對訓練好的神經網路進行參數分析,找到比較好的參數組合、優化方法。
有點多,慢慢寫啊 。。。。。。。。。。
參考文獻(Paper Name is All You Need)
[1] Self-Normalizing Neural Networks.
[2] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning.
[3] Xception: Deep Learning with Depthwise Separable Convolutions.
[4] Striving for Simplicity: The All Convolutional Net.
[5] Attention is All You Need.
[6] Neural Architecture Search With Reinforcement Learning.
[7] Large-Scale Evolution of Image Classifiers.
[8] One Model To Learn Them All.
[9] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.
[10] FractalNet: Ultra-Deep Neural Networks without Residuals.
[11] Universum Prescription: Regularization Using Unlabeled Data.
[12] Deep Learning for Explicitly Modeling Optimization Landscapes.
[13] Fast and Accurate Deep Network Learning by Exponential Linear Units.
這本書確實很經典,加上「pattern recognition and machine learning」. 簡直就是機器學習領域的屠龍刀與倚天劍。哈哈,看完Deep Learning 這本書之後感覺在CNN 和 RNN這兩塊很詳細,從一開始的感知機到現在的經典演算法,以及在訓練這兩個網路方面,作者下了很多筆墨。稍微遺憾的是在對抗網路(Generative Adversarial Networks)和殘差網路(Residual Net)講的不是很多。
推薦閱讀:
TAG:機器學習 | 深度學習DeepLearning | NIPS |