目前對神經網路有哪些理論研究?
比如說 Vidal, Rene, et al. "Mathematics of Deep Learning." arXiv preprint arXiv:1712.04741 (2017).
斯坦福的統計繫上學期開了一門課 STATS 385, Theories of Deep Learning:Theories of Deep Learning (STATS 385)。 這門課邀請了世界各地做深度學習理論研究的人來分享他們的研究成果。我只看了兩個lecture就棄療了,感覺自己數學水平還是不夠啊。
只從自己看的兩個lecture來說,有一個研究方向是用harmonic analysis來分析為何CNN做圖像識別效果可以這麼好。傳統圖像識別是人工設計各種features,然後訓練一個線性的classifier, 而在deep learning時代,我們則用各種convolution加nonlinear activation來提取feature,最後再來一層線性classifier。然後有人就想到了在最後linear層之前的一堆transform可以用harmonic analysis來分析。他們希望找到一些操作,讓同樣類別的圖片在這些經過這些操作之後可以互相轉化,從而找到相同類別之間的invariance。比如說平移, 旋轉操作,一張狗的圖片我把有關狗的所有像素平移,再將它們整體旋轉了,那些像素還是構成了一個狗的圖片。再比如說deformation,所有中世紀油畫可以通過deformation互相轉化。通過提取這些invariance,就可以進行一些神奇的變換,讓變換後的結果變得線性可分。這些變換是不需要任何training的,我們只需要像傳統方法一樣直接learn一個線性classifier。
一個法國數學家Stéphane Mallat就用這種思路設計了scattering transform, 在mnist data set數字識別上取得了state of art的結果(0.4% errors),但在cifar10隻得到了20%的errors。感興趣的可以去搜一下他的一些talk(感覺講得非常好)。這裡貼一下相關的一篇論文:https://arxiv.org/pdf/1203.1513.pdf
由於關注robotics,無意中發現Russ Tedrake也開始做一些有關deep learning的東西:https://arxiv.org/pdf/1711.07356.pdf Verifying Neural Networks with Mixed Integer Programming。 瀏覽了一下,大意是用Mixed Integer Programming來搜索adversarial examples。
感覺比較經典的一個方向是證deep neural network的generalization bound,也就是證明為什麼deep learning的generalization performance這麼好,因為傳統的基於VC dimension的分析方法在deep learning面前都失敗了。。。比如最近的nips這篇 https://papers.nips.cc/paper/7176-exploring-generalization-in-deep-learning.pdf
感覺目前還沒有比較好的bound,沒有人能證明為什麼網路越深generalization performance越好。。
很奇怪沒人說信息瓶頸理論...
拋磚引玉吧
機器之心:揭開深度學習黑箱:希伯來大學計算機科學教授提出「信息瓶頸」
「信息瓶頸」理論揭示深度學習本質,Hinton說他要看1萬遍
個人感覺主要是幾個方面,一是優化演算法方面的,二是模型結構方面的,三是新的演算法理論創新,還有就是對演算法為什麼可行作出解釋,這也算是一類。
詳細的以後慢慢加。
個人見解,歡迎指正。Approximation and convergence properties of generative adversarial learning
arXiv: 1705.08991
針對GAN的逼近與收斂性質提出了一個基於adversarial divergence的基本框架,算是比較前沿的理論研究了。
Gradient descent with nonconvex constraints: loval concavity determines convergence
arXiv: 1703.07755
針對具有局部concavity的非凸集上的優化問題收斂性的研究,和深度學習沒太大關係不過很有啟發。更新一下,不能說代替反向傳播,不嚴謹。最近學習中。
分割線在此
感覺Hinton的Capsule網路算是吧,代替反向傳播,眼前一亮~
推薦閱讀:
※如何評價Hinton在加拿大多倫多大學關於用「capsule」作為下一代CNN的演講?
※用c++實現神經網路一般用什麼庫?
※如何評價 Caffe2go?
※caffe用別人的model和prototxt測試,batch_size如何選擇?
TAG:機器學習 | 神經網路 | 深度學習DeepLearning |