如何看待《Deep Learning without Poor Local Minima》？

01-05

NIPS 2016:
https://arxiv.org/abs/1605.07110

相關討論
[1605.07110] Deep Learning without Poor Local Minima (Mathematically proved powerful results!) ? /r/MachineLearning

Deep Learning Without Poor Local Minima

謝邀。

這篇文章證明了在滿秩條件下，線性多層網路的所有局部極小值(local minima)是全局最小(global minimum)，也就說所有局部極小值的目標函數值是一樣的。這個結論之前很多人認為是真的，然後這篇文章給了一個比較好的證明，這個是很大的貢獻了，拿Oral是應該的。搞了那麼多年，至此線性多層網路的性質可以說比較清楚了。

在非線性多層網路的情況下，這篇文章也說所有局部極小是全局最小，但是用的假設和之前Anna那篇用Spin Glass的物理模型來解釋深層神經網路所用的假設比較類似，都很強。兩篇文章的假設都要求網路隱層中各結點的輸出相互獨立，才能得到結論。但是眾所周知這個假設在實際情況中幾乎不成立，各結點的輸出都依賴於輸入，因此往往強相關。我這次投給ICLR的一篇理論文章沒有用這個假設（當然也加了其它的），在帶一層隱層的ReLU網路上得到了一些新的結論，比如說在某個特定的初始值下可以收斂到全局最優。

以上。

論文內容本身我就不多說了，證明了在線性網路上softmax上的一個conjecture，還是有些局限，想做DL偏理論的同學可以對比看下這篇和@田淵棟的那篇iclr"17。大過節的，我來多說說八卦算了：）

這篇論文是single author，而且是NIPS"16的 oral paper。作者kenji是我隔壁實驗室的一位日本小哥，投稿的時候應該才phd第二年。問題來了，那他老闆在哪裡？。。。他老闆在acknowledgement裡面。。這年頭髮paper都是不帶老闆玩的，還一發就是NIPS oral，這在mit裡面還是挺少見。而且，這小哥AAAI"16上還有另外一篇single author，做RL的。隱約覺得這小哥會是未來之星，大家可以多關注下他的主頁。

忘了說，這小哥還有個金髮美女太太，也是人贏了。。。

我不是做 CS 的。。。完全不懂 DL 也沒上過啥數學課。。。就不負責任地瞎評論一下。。。

上學期做一門課的期末 project 時讀過這篇文章（的條件和結論），按照我個人的喜好，我非常贊同那門課老師的意見：文章里的東西意義不大。

簡單說：這篇文章在過強的假設下，用了並不 insightful 的方法，推出了過強的結論。而結論大概是人們已經相信/猜到的，那麼文章實際上教會我們的東西就很少了。

假設過強是顯然的。對於線性網路，它本身就太特殊了，我懷疑和真實系統就不在一個 universality class 里，那麼線性網路的性質能教會我們什麼呢？這裡並不像是研究流形那樣，實際網路可能沒法很好地用線性網路局部近似（ReLU 的話是整個參數空間被分割成很多小塊，每個小塊內都是線性的，但複雜性發生在小塊之間的交界處）。對於非線性網路，它要的獨立性一類的條件實際中無法滿足（非要說這是什麼 mean field theory 的話我也不知道有什麼好的論證）。

結論過強有兩個原因。一個是我們可以手工構造出一些放寬那些過強的假設後不符合結論的反例。另外一個是這個結論強於實際需要的。這文章中好像也提過，實際上只要較壞的 local minima 的數量隨著壞的程度指數減少就夠了。這個放寬後的結論其實不是很奇怪，把那些 local minima 看成能量本徵態，loss function 的值看成能量，瞎猜一個分布的話當然會猜系統大概應該是個 canonical ensemble $mathcal{Z}=sum_n e^{-eta E_n}$ 。

從個人審美來看證明不是很有意思。它是精確的，但它並不能教會我們什麼。對於這種系統我們不期望得到什麼解析解，也不期望有這麼精密的證明，有意義的結論應該是在好的近似下得到的，而那個好的近似伴隨著對整個系統的圖像有一個清晰的認識（告訴我們這個問題中實際發揮作用的是什麼）。看這個文章就像是在發明統計力學以前研究多體問題一樣難受，而我願意相信這個問題的最終解決是帶有統計力學的精神的。