【通俗易懂】機器學習中 L1 和 L2 正則化的直觀解釋

【通俗易懂】機器學習中 L1 和 L2 正則化的直觀解釋

來自專欄機器學習演算法各個擊破16 人贊了文章

個人網站:紅色石頭的機器學習之路

CSDN博客:紅色石頭的專欄

知乎:紅色石頭

微博:RedstoneWill的微博

GitHub:RedstoneWill的GitHub

微信公眾號:AI有道(ID:redstonewill)

機器學習中,如果參數過多,模型過於複雜,容易造成過擬合(overfit)。即模型在訓練樣本數據上表現的很好,但在實際測試樣本上表現的較差,不具備良好的泛化能力。為了避免過擬合,最常用的一種方法是使用使用正則化,例如 L1 和 L2 正則化。但是,正則化項是如何得來的?其背後的數學原理是什麼?L1 正則化和 L2 正則化之間有何區別?本文將給出直觀的解釋。

1. L2 正則化直觀解釋

L2 正則化公式非常簡單,直接在原來的損失函數基礎上加上權重參數的平方和:

L=E_{in}+lambdasum_jw_j^2

其中,Ein 是未包含正則化項的訓練樣本誤差,λ 是正則化參數,可調。但是正則化項是如何推導的?接下來,我將詳細介紹其中的物理意義。

我們知道,正則化的目的是限制參數過多或者過大,避免模型更加複雜。例如,使用多項式模型,如果使用 10 階多項式,模型可能過於複雜,容易發生過擬合。所以,為了防止過擬合,我們可以將其高階部分的權重 w 限制為 0,這樣,就相當於從高階的形式轉換為低階。

為了達到這一目的,最直觀的方法就是限制 w 的個數,但是這類條件屬於 NP-hard 問題,求解非常困難。所以,一般的做法是尋找更寬鬆的限定條件:

sum_jw_j^2leq C

上式是對 w 的平方和做數值上界限定,即所有w 的平方和不超過參數 C。這時候,我們的目標就轉換為:最小化訓練樣本誤差 Ein,但是要遵循 w 平方和小於 C 的條件。

下面,我用一張圖來說明如何在限定條件下,對 Ein 進行最小化的優化。

如上圖所示,藍色橢圓區域是最小化 Ein 區域,紅色圓圈是 w 的限定條件區域。在沒有限定條件的情況下,一般使用梯度下降演算法,在藍色橢圓區域內會一直沿著 w 梯度的反方向前進,直到找到全局最優值 wlin。例如空間中有一點 w(圖中紫色點),此時 w 會沿著 -?Ein 的方向移動,如圖中藍色箭頭所示。但是,由於存在限定條件,w 不能離開紅色圓形區域,最多只能位於圓上邊緣位置,沿著切線方向。w 的方向如圖中紅色箭頭所示。

那麼問題來了,存在限定條件,w 最終會在什麼位置取得最優解呢?也就是說在滿足限定條件的基礎上,盡量讓 Ein 最小。

我們來看,w 是沿著圓的切線方向運動,如上圖綠色箭頭所示。運動方向與 w 的方向(紅色箭頭方向)垂直。運動過程中,根據向量知識,只要 -?Ein 與運行方向有夾角,不垂直,則表明 -?Ein 仍會在 w 切線方向上產生分量,那麼 w 就會繼續運動,尋找下一步最優解。只有當 -?Ein 與 w 的切線方向垂直時,-?Ein在 w 的切線方向才沒有分量,這時候 w 才會停止更新,到達最接近 wlin 的位置,且同時滿足限定條件。

-?Ein 與 w 的切線方向垂直,即 -?Ein 與 w 的方向平行。如上圖所示,藍色箭頭和紅色箭頭互相平行。這樣,根據平行關係得到:

-
abla E_{in}+lambda w=0

移項,得:


abla E_{in}+lambda w=0

這樣,我們就把優化目標和限定條件整合在一個式子中了。也就是說只要在優化 Ein 的過程中滿足上式,就能實現正則化目標。

接下來,重點來了!根據最優化演算法的思想:梯度為 0 的時候,函數取得最優值。已知 ?Ein 是 Ein 的梯度,觀察上式,λw 是否也能看成是某個表達式的梯度呢?

當然可以!λw 可以看成是 1/2λw*w 的梯度:

frac{partial}{partial w}(frac12lambda w^2)=lambda w

這樣,我們根據平行關係求得的公式,構造一個新的損失函數:

E_{aug}=E_{in}+frac{lambda}{2}w^2

之所以這樣定義,是因為對 Eaug 求導,正好得到上面所求的平行關係式。上式中等式右邊第二項就是 L2 正則化項。

這樣, 我們從圖像化的角度,分析了 L2 正則化的物理意義,解釋了帶 L2 正則化項的損失函數是如何推導而來的。

2. L1 正則化直觀解釋

L1 正則化公式也很簡單,直接在原來的損失函數基礎上加上權重參數的絕對值:

L=E_{in}+lambdasum_j|w_j|

我仍然用一張圖來說明如何在 L1 正則化下,對 Ein 進行最小化的優化。

Ein 優化演算法不變,L1 正則化限定了 w 的有效區域是一個正方形,且滿足 |w| < C。空間中的點 w 沿著 -?Ein 的方向移動。但是,w 不能離開紅色正方形區域,最多只能位於正方形邊緣位置。其推導過程與 L2 類似,此處不再贅述。

3. L1 與 L2 解的稀疏性

介紹完 L1 和 L2 正則化的物理解釋和數學推導之後,我們再來看看它們解的分布性。

以二維情況討論,上圖左邊是 L2 正則化,右邊是 L1 正則化。從另一個方面來看,滿足正則化條件,實際上是求解藍色區域與黃色區域的交點,即同時滿足限定條件和 Ein 最小化。對於 L2 來說,限定區域是圓,這樣,得到的解 w1 或 w2 為 0 的概率很小,很大概率是非零的。

對於 L1 來說,限定區域是正方形,方形與藍色區域相交的交點是頂點的概率很大,這從視覺和常識上來看是很容易理解的。也就是說,方形的凸點會更接近 Ein 最優解對應的 wlin 位置,而凸點處必有 w1 或 w2 為 0。這樣,得到的解 w1 或 w2 為零的概率就很大了。所以,L1 正則化的解具有稀疏性。

擴展到高維,同樣的道理,L2 的限定區域是平滑的,與中心點等距;而 L1 的限定區域是包含凸點的,尖銳的。這些凸點更接近 Ein 的最優解位置,而在這些凸點上,很多 wj 為 0。

關於 L1 更容易得到稀疏解的原因,有一個很棒的解釋,請見下面的鏈接:

zhihu.com/question/3709

4. 正則化參數 λ

正則化是結構風險最小化的一種策略實現,能夠有效降低過擬合。損失函數實際上包含了兩個方面:一個是訓練樣本誤差。一個是正則化項。其中,參數 λ 起到了權衡的作用。

以 L2 為例,若 λ 很小,對應上文中的 C 值就很大。這時候,圓形區域很大,能夠讓 w 更接近 Ein 最優解的位置。若 λ 近似為 0,相當於圓形區域覆蓋了最優解位置,這時候,正則化失效,容易造成過擬合。相反,若 λ 很大,對應上文中的 C 值就很小。這時候,圓形區域很小,w 離 Ein 最優解的位置較遠。w 被限制在一個很小的區域內變化,w 普遍較小且接近 0,起到了正則化的效果。但是,λ 過大容易造成欠擬合。欠擬合和過擬合是兩種對立的狀態。


推薦閱讀:

CVPR 2018 Paper漫談三
10分鐘圖解論文直覺(開題)
python3機器學習經典實例-第八章解剖時間序列和時序數據32
Facebook如何利用機器演算法人工智慧教計算機閱讀

TAG:深度學習DeepLearning | 機器學習 | 數據挖掘 |