標籤:

機器學習基石筆記14:正則化(Regularization)

防止過擬合的一種有效措施即是正則化假設。

正則化假設

將假設函從高次多項式的數降至低次,如同開車時的踩剎車,將速度降低,如下圖所示,右邊表示高次多項式函數,明顯產生了過擬合現象,而左邊的表示使用正則化後的低次函數。

如何降次呢?把降次的問題轉換成帶有限制(constraint)條件的問題。下面以10次多項式和二次式為例了解正則化: H_{10}:w_0+w_1x+w_2x^2...+w_{10}x^{10}\ H_{2}:w_0+w_1x+w_2x^2

其中二次式可以轉化為:

可以進一步轉化為(w=0的個數 >= 8):

假設空間之間的關係為: H_2subset H_2^{}subset H_{10}

由於 H_2^{} 的minEin

是一個NP-hard問題,所以將假設空間再次改寫為(權值向量w的模的平方小於C):

(此時可能w的分向量個數大於3,暫時不要問為啥,我也不知道為啥)H(c)為正則化假設空間,即假設限制條件的假設空間。正則化假設空間中最好的假設用符號 w_{REG} 表示。

權值衰減正則化

上節中得到的minEin可以表達為:

式子中(wz-y)^2w^2R^{q+1} 空間中是如下圖所示的兩個超球體(橢圓球體和正圓球體)

爆炸性的東西來了!w的點要在球面上移動(不能超出球面),又同時要接近無限制條件下的最小點,那麼,w的移動方向必須滿足兩個條件(紅色向量即w方向是球面法向量):1、移動方向是與球面法向量垂直,2、移動方向要是梯度反方向的一個分量向量;那何時降到最小?即梯度反方向(藍色)不存在與球切線方向(綠色)相同的分量,只有當梯度反方向與法向量平行時,才無法得到下一個方向,即達到了最優點,兩向量平行可以得出公式(也即拉格朗日函數的幾何意義):

a=lambda b\ Rightarrow -
abla E_{in}(w_{REG})=lambda w_{REG}\ Rightarrow 
abla E_{in}(w_{REG})+lambda w_{REG}=0\ Rightarrow 
abla E_{in}(w_{REG})+frac{2lambda}{N}w_{REG}=0

將線性回歸中求的 
abla E_{in}(w_{REG}) 代入,則有:

又稱為:嶺回歸 啊哈~嶺大王

考慮一下式子 
abla E_{in}(w_{REG})+frac{2lambda}{N}w_{REG} ,做積分得到 E_{in}(w)+frac{lambda}{N}w^Tw ,我們定義 E_{aug}(w)=E_{in}(w)+frac{lambda}{N}w^Tw 為增廣錯誤(augmented error), w^Tw 為正則化項(regularizer),所以我們神奇的用無約束條件的求解Ein代替了有約束條件的求解Ein!

我們的最終求解公式可以表示為:

下圖為不同 lambda 對擬合的影響:

越大的 對應著越短的權值向量w,同時也對應著越小的約束半徑C

總結

上面討論稱為L2正則化:

還有L1正則化:

題圖:「天青色等煙雨,而我在等你」,生於江南水鄉,自小便在此情此景中成長,成年後也是不愛烈日驕陽,獨愛細雨淋淋。2017年11月7日22:54:51

推薦閱讀:

Paper Reading | 讓深度學習更高效運行的兩個視角
機器學習入門之泰坦尼克號案例
實現屬於自己的TensorFlow(三) - 反向傳播與梯度下降實現
【求援】需要你的參與
機器學習入門之泰坦尼克案例

TAG:機器學習 |