資訊理論視角下的深度學習簡述,形式化的泛化誤差分析
來自專欄 機器之心
選自arXiv,機器之心編譯,參與:劉天賜、路。
本論文從資訊理論的角度簡要概述了深度學習,試圖解決這兩個問題:(1) 深度神經網路為什麼比淺層網路的泛化能力好?(2) 是否在所有場景下,更深層的神經網路的效果都更好?
論文:An Information-Theoretic View for Deep Learning
論文鏈接:https://arxiv.org/abs/1804.09060
摘要:深度學習改變了計算機視覺、自然語言處理和語音識別領域。但還有兩個依然模糊的關鍵問題:(1) 深度神經網路為什麼比淺層網路的泛化能力好?(2) 是否在所有場景下,更深層的神經網路的效果都更好?具體而言,令 L 表示某一深度神經網路中的卷積層和池化層層數,n 表示訓練樣本量,我們可推導出此網路的期望泛化誤差上界:
其中,σ>0 為常量,依賴於損失函數; 0<η<1 為另一常量,依賴於每個卷積或池化層上的信息損失(information loss);I(S,W) 為訓練樣本 S 和輸出假設 W 間的互信息。據此上界可以得出:(1) 隨著神經網路中卷積層和池化層個數 L 的增加,期望泛化誤差呈指數下降至 0。帶有嚴格信息損失的層(如卷積層),可以降低深度學習演算法的泛化誤差;這回答了上文中的第一個問題。但是,(2) 演算法的期望泛化誤差為 0 並不意味著測試誤差或 E[R(W)] 很小,因為隨著層數增加,用於擬合數據的信息發生損失時,E[R_S(W)] 會增大。這表明「神經網路越深越好」的說法僅在測試誤差或 E[R_S(W)] 較小的條件下成立。(3) 我們進一步展示了深度學習演算法滿足穩定性的弱概念;隨著 L 的增加,深度學習演算法的樣本複雜度會降低。
我們研究了統計學習的標準框架,其中 Z 表示示例空間(instance space),W 表示假設空間(hypothesis space),n 元組 S = (Z_1, Z_2, ..., Z_n) 表示訓練樣本,所有元素 Z_i 為從未知分布 D 中抽樣得到的獨立同分布樣本。學習演算法 A : S → W 可以理解為從訓練樣本空間 Z^n 到假設空間 W 上的隨機映射。利用馬爾科夫核 P_W|S 來描述學習演算法 A:給定訓練樣本 S,演算法根據條件分布 P_W|S 從 W 中抽取一個假設。
我們引入損失函數
作為某假設預測效果的度量。對任意通過 S 學得的假設 W,我們將期望風險定義為:
將經驗風險(empirical risk)定義為:
對學習演算法 A,我們定義泛化誤差:
泛化誤差很小表示學得的假設在訓練數據集和測試數據集上表現接近。
在本文中,我們研究了深度學習演算法的期望泛化誤差,如下:
該期望在聯合分布 P_W,S = D^n × P_W|S 上。
我們可得到以下分解:
等式右側第一項為期望泛化誤差,第二項則反映了在期望的角度下,學得假設對訓練樣本的擬合程度。
在設計學習演算法時,我們希望期望風險的期望 E[R(W)] 越小越好。但通常,很難同時令期望泛化誤差 G(D,P_W|S) 和期望經驗風險 E[R_S(W)] 都很小:如果某個模型對訓練樣本的擬合過於好,則它在測試數據上的泛化能力就可能很差,這就是「偏差-方差權衡問題」(Domingos, 2000)。驚人的是,根據實證經驗,深度學習演算法能夠很好地同時最小化 G(D, P_W|S) 和 E[R_S(W)]。深度網路的深層架構能夠有效地緊湊表徵高變函數(highly-varying function),進而令 E[R_S(W)] 很小。但關於期望泛化誤差 G(D, P_W|S) 能夠保持很小的原因的理論研究依然不明確。
在本文中,我們從資訊理論角度出發研究深度學習演算法的期望泛化誤差。我們證明了隨著層數增加,期望泛化誤差 G(D, P_W|S) 會呈指數下降至 0。在定理 2 中,我們證明了:
其中,L 是深度神經網路中的信息損失層層數;0<η<1 為另一常量,依賴於每個卷積層和池化層上的信息損失;σ>0 為常量,依賴於損失函數;n 為訓練樣本 S 的樣本量大小;I(S, W) 為輸入訓練樣本 S 和輸出假設 W 間的互信息。
此結論來自於兩個和資訊理論相關的重要結果。第一個結果是來自於 Ahlswede 和 Gács 1976 年提出的強數據處理不等式(Strong Data Processing Inequalities,SDPI):對於馬爾科夫鏈 U → V → W,如果在映射 V → W 中存在信息損失,則 I(U, V ) ≤ ηI(U, W),其中 η<1,為非負信息損失因子。第二個結果來自於 (Russo and Zou 2015, Xu and Raginsky 2017):對於某個學習演算法,輸入和輸出間的互信息決定了該學習演算法的泛化誤差。
我們的結果與「偏差-方差權衡問題」並不衝突。儘管隨著信息損失層層數增加,期望泛化誤差呈指數下降至 0;但由於信息損失不利於擬合訓練樣本,因此期望經驗風險 ??[R_S(W)] 會有所增加。這意味著,在設計深度學習演算法時,需要更多地關注信息損失和訓練誤差之間的平衡。
利用輸入和輸出間的互信息來限制期望泛化誤差的範圍具有一個好處,它幾乎依賴於學習演算法的所有方面:數據分布、假設類的複雜度,以及學習演算法本身的性質;而證明 PAC 可學習性的傳統框架 (Mohri et al. 2012) 則只覆蓋了其中一部分方面。如基於 VC 維 (Vapnik 2013)、覆蓋數 (Zhang 2002),Rademacher (Bartlett and Mendelson 2002, Bartlett et al. 2005, Liu et al. 2017)、PAC-Bayes (Langford and Shawe-Taylor 2003)、演算法穩定性 (Liu et al. 2017, Bousquet and Elissee 2002) 以及穩健性 (Xu and Mannor 2012) 的框架。
本文其餘部分組織結構如下:在第二部分,我們在 DNN 和馬爾科夫鏈之間建立了聯繫;第三部分利用強數據處理不等式推導出深度神經網路中的中間特徵表徵和輸出之間的互信息變化;第四部分給出了主要研究結果:DNN 中基於深度 L 的指數極泛化誤差上界;第五部分為主要定理的證明;第 6 部分是總結。
推薦閱讀:
※資訊理論抄書筆記 - 馬爾可夫鏈與熵的結合
※從資訊理論的角度理解與可視化神經網路
※熵,條件熵,互信息,交叉熵 的理解總結
※信息與香農...
※學堂在線《應用資訊理論基礎》學習筆記01
TAG:資訊理論 | 深度學習DeepLearning | 人工智慧 |