貝葉斯眼裡的正則化

01-28

前面講道似然函數 $P(data|theta)$ 是從投擲骰子來的，所以：

$P(data|theta) = theta^a(1-theta)^b$

其中得到正面a次，反面b次。

其實，似然函數 $P(data|theta)$ 不僅僅局限於此，投骰子符合伯努利分布，所以似然函數的形式長上面那個樣子。其他模型一樣有似然函數，只要模型的輸出是一個基於數據的概率，都可以被看做似然函數。如線性回歸，邏輯斯特回歸，全連接神經網路DNN，卷積神經網路CNN, 循環神經網路RNN, 長短記憶神經網路LSTM的輸出經過sotfmax之後被轉化為概率，全部都可以被看做是似然函數 $P(data|theta)$ ，只不過權重 $w$ ,偏差 $b$ 全部都包含到 $theta$ 里去了， $P(data|theta)$ 可以理解為在這樣一組參數 $theta$ 下，基於觀測到數據所得到的概率。

那麼從這個視角，再來看什麼是最大似然估計（Maximum Likelihood Estimation），簡稱MLE。那麼MLE對 $theta$ 的估計方法可以寫成如下形式：

$theta_{MLE} = argmaxP(data|theta) = argmaxP(x_1|theta)P(x_2|theta)...P(x_n|theta) =argmaxprod_{i=1}^{n}P(x_i|theta)$

兩邊同時取 $log$ :

$theta_{MLE} = argmaxsum_{i=1}^{n}{logP(x_i|theta)}$

再同時取負，最大化問題轉化為最小化問題：

$theta_{MLE} = argmin-sum_{i=1}^{n}{logP(x_i|theta)}$

這就是Negative Log Likelihood (NLL)函數，是不是似曾相識，深度學習做分類任務時所用的cross entropy loss，其本質就是最大似然估計MLE！

那貝葉斯眼裡的最大後驗證估計（Maximum A Posterior，簡稱MAP）是什麼呢？那麼最大後驗證估計對 $theta$ 的估計方法如下：

$theta_{MAP} = argmax P(theta|data)$

兩邊同時取 $log$ ，取負，再用貝葉斯公式展開:

$theta_{MAP} = argmin- logP(theta|data) = argmin- logP(data|theta)-logP(theta)+P(data)$

$P(data)$ 是個固定的常數可以省略掉，所以：

$theta_{MAP} = argmin- logP(data|theta)-logP(theta)$

上面式子里 $-log P(data|theta )$ 就是上面用MLE得到的Negative Log Likelihood，所以最大似然估計和最大後驗估計的區別就在於先驗 $- log P(theta)$ 。

那先驗 $P(theta)$ 到底是什麼呢？字面上看是參數 $theta$ 的概率分布，可以理解為你覺得參數應該怎麼分布。我們先來假設參數符合高斯分布:

$P(theta) sim e^{-frac{theta^2}{2sigma^2}}$

把上式帶入到 $theta_{MAP}$ ：

$theta_{MAP} = argmin- logP(data|theta)-loge^{-frac{theta^2}{2sigma^2}} ＝argmin- logP(data|theta)＋frac{theta^2}{2sigma^2}$

然後你會驚奇的發現用了高斯分布作先驗的MAP等價於在MLE中加上L2的正則項！

此時我們便引入了一個新的角度來看正則項，即你覺得這個模型的參數分布應該是什麼樣子的。下面就是實際訓練出來模型的參數分布，是不是看起來真的很高斯！加了正則項之後，其實就是給參數加了一個「緊箍咒」，告訴他說，我覺得參數分布應該是高斯分布的，你不要跑的太遠哦～

那麼還有沒有其他先驗呢？有啊，例如拉普拉斯分布。拉普拉斯分布就是下面的藍線。其具體公式為：

$P(theta) sim exp left( -frac{|theta|}{b} right)$

把上式帶入到 $theta_{MAP}$ ：

$theta_{MAP} = argmin- logP(data|theta)-loge^{-frac{|theta|}{b}} ＝argmin- logP(data|theta)＋frac{theta}{b}$

咦？這不就是L1正則化嗎？所以對參數引入拉普拉斯先驗等價於L1正則化。

你看拉普拉斯先驗在０的位置具有最高的概率密度，這就說明很多參數會變成０，這就是為什麼L1正則化會具有能產生稀疏性的優良性質。

總結一下，交叉熵損失函數（cross entropy loss），其本質就是最大似然估計MLE，而正則化等價於MLE加上先驗分布。所以，從貝葉斯角度來看，損失函數＋正則化就是貝葉斯最大後驗估計MAP。

我有點討厭知乎了，我上傳的高清無碼圖片，全被它轉換成AV畫質！氣！