Michael Nielsen對交叉熵的解釋（三）

02-14

Contact me:

Blog : https://cugtyt.github.io/blog/index

Email: cugtyt#qq.com, cugtyt#http://gmail.com

Michael Nielsen對交叉熵的解釋（一）
Michael Nielsen對交叉熵的解釋（二）
Michael Nielsen對交叉熵的解釋（三）

讓我們回到最開始那個小模型上，探索下使用交叉熵損失函數替代掉二次損失函數後發生了什麼。我們還是以二次損失函數做的不錯的地方開始，weight設置為0.6，bias設置為0.9，損失函數變為交叉熵：

不出所料，神經元學習得很不錯，和原來一樣。讓我們看下原來神經元卡住的地方，weight和bias從2.0開始：

成功了！這次神經元學習如我們期望學習得很快。如果你更近距離觀察，你會發現損失曲線比二次損失的曲線更陡峭一些。這是交叉熵帶給我們的，避開了我們本希望神經元學習更快卻卡住的地方。

我還沒說學習率的事，前面二次損失函數，我們使用0.15，我們應該在此處使用同樣的學習率嗎？事實上，不可能說「同樣」的學習率了，這就像蘋果和橘子一樣不同。兩個損失函數我通過實驗尋找了可以看清發生了什麼的學習率，如果你還是好奇，我還是告訴你這裡我使用了0.005的學習率。

你也許會說學習率不同導致上面的實驗沒有意義了。當我們開始的學習率不固定時，誰還關心神經元學習多快呢？但是這樣的說法遺漏了一點，就是這個圖不是關於學習的絕對速度，而是關於速度如何變化的。更具體的講，在實際輸出和正確輸出接近時，使用二次損失函數毫無疑問慢於後面的情況。當錯的嚴重時，交叉熵也更快，這並不取決於學習速度。

我們已經學習了在一個神經元上使用交叉熵的情況，很容易擴展到多層多神經元的網路中。具體來說：假設期望的輸出值 $y = y_1, y_2, ldots$ ，在最後一層的輸出 $a^L_1, a^L_2, ldots$ ，然後我們定義交叉熵：

$egin{eqnarray} C = -frac{1}{n} sum_x sum_j left[y_j ln a^L_j + (1-y_j) ln (1-a^L_j) ight] end{eqnarray}$

這和我們原來的表達式差不多，除了使用 $sum_j$ 對所有輸出神經元求和。不深究細節，這個表達式的確避免了學習變慢的問題。

也許我使用交叉熵讓很多讀者迷惑，尤其是和其他背景知識相衝突的人。很常見的做法是對兩個概率分布定義交叉熵， $p_j$ 和 $q_j$ ,那麼交叉熵就是 $sum_j p_j ln q_j$ ，這和我們最開始對單個神經元定義的一樣。

但是，當在最後一層有很多sigmoid神經元時，激活向量 $a^L_j$ 通常不是一個概率分布。因此 $sum_j p_j ln q_j$ 就不是很合適了，因為我們處理的不再是概率分布。但是，你可以把上面公式看作是每個神經元交叉熵的合集，每個神經元和它的激活看作是兩元素的概率分布。在這種情況下，就是一個交叉熵對概率分布的泛化了。

什麼時候使用交叉熵而不是用二次損失函數呢？事實上，在輸出是sigmoid神經元情況下，交叉熵幾乎總是更好的選擇。考慮當我們設定神經網路時，我們通常使用隨機化的方式初始化weights和biases。可能出現的情況是初始的結果對於訓練輸入來說錯的離譜，比如輸出應該是0卻飽和在1的附近，或者反過來。如果我們使用二次損失去降低學習速度，它可能永遠不會停下來，即使也在從其他輸入中學習，但是總離期望太遠。

一些問題的解釋：