經驗風險最小化
04-27
過擬合
PRML介紹了一個多項式擬合曲線的例子。設函數族 ,訓練集 。嘗試最小化損失函數
- 當 時,相當於逼近
- 當 時,相當於插值
因此當 稍大於 的個數時,就會發生過擬合。為了解決這個問題,作者給損失函數加了一個懲罰項 來限制模型的複雜度。
經驗風險
設數據 服從分布 , 為損失函數,定義真實風險 ,
因此一個分類問題的目標是找到
但是分布 往往是不可知的,因此需要採樣 ,並把經驗風險
作為目標函數優化
VC理論
Andrew Ng在CS229的Learning Theory中描述了損失函數為
的VC理論。
當 為有限集時,以至少 的概率, ,有
其中 。
當 為一般集時,以至少 的概率, ,有
其中 。
結構風險
通過VC理論,可以認識到真實風險和經驗風險是有差距的。誤差項被稱為置信風險,它與樣本的個數 和模型的複雜度 或者 都有密切的關係。
用複雜度高的模型去擬合小樣本,往往會導致過擬合,因此有時需要給經驗風險 加上一個懲罰項或者正則化項:
這也被稱為結構風險。
例子
- 線性回歸的損失函數為MSE,防止過擬合可以加L0,L1,L2範數的正則化項
- logistic回歸的損失函數為cross entropy,防止過擬合可以加L0,L1,L2範數的正則化項
線性SVM
線性分類器 的VC維數為 ,其中 為向量 的維數,即模型複雜度比較高。
考慮優化問題
的對偶問題為
因此正則化項 限制了線性SVM的複雜度。
參考
- Pattern Recognition and Machine Learning
- CS229
- 統計學習方法
推薦閱讀:
※樸素貝葉斯
※如何理解機器學習?
※過擬合與正則化
※如何訓練模型?(1)——最小二乘法
※關於機器學習、數據科學面試的準備
TAG:機器學習 |