如何解讀論文《Generalization in Deep Learning》？

01-05

論文[1710.05468] Generalization in Deep Learning 是Yoshua Bengio與MIT發表新論文：深度學習中的泛化，裡面的關於Rademacher 複雜度以及其他公式定理的提出與分析我不好理解。雖然西瓜書上有相關的公式及推導，但是西瓜書有點簡潔哎。

謝邀。

這文章讓人失望。

前一部分解釋下為什麼CNN的模型容量可以大到overfit任何隨機label，但卻有強泛化能力。解釋是這樣的：雖然模型容量大，但只要模型空間里包括了有強泛化能力的模型，還是可以有演算法找到它的（Proposition 1)。這就是「盒子大了總能找到好的」這樣的邏輯。

這個是廢話，根本問題在於為何SGD優化CNN的過程中可以找到這樣的解，或者說，為什麼SGD具有優先尋找到泛化能力強模型的能力。這一問題沒有觸及到。

後一部分在神經網路上給了一個泛化界。但是要細看的話，就會發現Eqn. 1把神經網路所有的非線性部分全都歸到z裡面去了，然後輸出h就是z和w的點積。然後Def. 3對z的結構做了一些假設，接著Proposition 4得到泛化界，總的來說，還是線性模型那一套，並沒有觸及到問題本質。

的確這篇文章有很多被詬病的地方

但是這篇文章主要目的不是證明bound

而是給我們新思路，我們應該怎麼去考慮generalization的事情

文章里的證明都是demo，不是真的bound。。。。

proposition1看的時候也是真的笑噴了。。。。。

把非線性全部扔到z裡面，對z的處理方法是給一些假設[Def 3.]，但是假設是否符合實際沒有討論。。。。【說別人的方法不符合實際結果沒討論自己的是否符合】

講真實驗挺有意思的，做法也和以前對path去做regularization的一波人做法類似。。

用two phase去規避這個問題【真的規避了嗎。。。我覺得沒有啊。。。】

就是freeze phase的weight去去除不獨立

然後分析generalization bound和什麼相關

但我覺得這篇文章實驗不太confident。。

以及cifar10的state of art是shake shake。。。。。

這種文章總比拿著淺層的做一個demo的去證明的那些文章好多了。。。。。。

畢竟淺層特別兩層比較好處理，沒有涉及到本質

p.s.文章一作的日本小哥巨厲害啊，就是deep learning without bad local mini的作者啊，這一次寫文章帶老闆了啊hhhh

pps想做和Bengio一樣用數學給應用帶來insight的人，而不是努力證明bound的人啊

過兩天把slide發上來吧

小透明強答第一發，歡迎批評指正。

好文章，直面機器學習的核心問題泛化能力，探討了泛化和正則的關係。

ML學界的sparse學派要是拿不出實錘的回應，很多大佬真要成傻X了。

到那時此文的意義堪比阿羅那篇推翻福利經濟學派理論基礎的短文。