如何解讀論文《Generalization in Deep Learning》?

論文[1710.05468] Generalization in Deep Learning 是Yoshua Bengio與MIT發表新論文:深度學習中的泛化,裡面的關於Rademacher 複雜度以及其他公式定理的提出與分析我不好理解。雖然西瓜書上有相關的公式及推導,但是西瓜書有點簡潔哎。


謝邀。

這文章讓人失望。

前一部分解釋下為什麼CNN的模型容量可以大到overfit任何隨機label,但卻有強泛化能力。解釋是這樣的:雖然模型容量大,但只要模型空間里包括了有強泛化能力的模型,還是可以有演算法找到它的(Proposition 1)。這就是「盒子大了總能找到好的」這樣的邏輯。

這個是廢話,根本問題在於為何SGD優化CNN的過程中可以找到這樣的解,或者說,為什麼SGD具有優先尋找到泛化能力強模型的能力。這一問題沒有觸及到。

後一部分在神經網路上給了一個泛化界。但是要細看的話,就會發現Eqn. 1把神經網路所有的非線性部分全都歸到z裡面去了,然後輸出h就是z和w的點積。然後Def. 3對z的結構做了一些假設,接著Proposition 4得到泛化界,總的來說,還是線性模型那一套,並沒有觸及到問題本質。


的確這篇文章有很多被詬病的地方

但是這篇文章主要目的不是證明bound

而是給我們新思路,我們應該怎麼去考慮generalization的事情

文章里的證明都是demo,不是真的bound。。。。

proposition1看的時候也是真的笑噴了。。。。。

把非線性全部扔到z裡面,對z的處理方法是給一些假設[Def 3.],但是假設是否符合實際沒有討論。。。。【說別人的方法不符合實際結果沒討論自己的是否符合】

講真實驗挺有意思的,做法也和以前對path去做regularization的一波人做法類似。。

用two phase去規避這個問題【真的規避了嗎。。。我覺得沒有啊。。。】

就是freeze phase的weight去去除不獨立

然後分析generalization bound和什麼相關

但我覺得這篇文章實驗不太confident。。

以及cifar10的state of art是shake shake。。。。。

這種文章總比拿著淺層的做一個demo的去證明的那些文章好多了。。。。。。

畢竟淺層特別兩層比較好處理,沒有涉及到本質

p.s.文章一作的日本小哥巨厲害啊,就是deep learning without bad local mini的作者啊,這一次寫文章帶老闆了啊hhhh

pps想做和Bengio一樣用數學給應用帶來insight的人,而不是努力證明bound的人啊

過兩天把slide發上來吧


小透明強答第一發,歡迎批評指正。

好文章,直面機器學習的核心問題泛化能力,探討了泛化和正則的關係。

ML學界的sparse學派要是拿不出實錘的回應,很多大佬真要成傻X了。

到那時此文的意義堪比阿羅那篇推翻福利經濟學派理論基礎的短文。


推薦閱讀:

如何開發一個特定領域的自動問答機器人(Chat Bot)?
在人工智慧這麼火的情況下,做程序開發一定要學習機器學習演算法嗎?
機器學習(machine learning)在心理學上可能有哪些運用?
工作後想換機器學習方向,需要學到什麼程度去找工作?
多倫多大學機器學習水平如何?

TAG:數學 | 機器學習 | 深度學習DeepLearning | 學習理論 |