數學 · 神經網路（三）· 損失函數

01-27

關於損失函數寬泛而準確的數學定義，我感覺我不會說得比 Wiki 更好，所以這一章主要還是介紹一些神經網路中常用的損失函數。然而即使把範圍限制在 NN，如何選、為何選相應的損失函數仍然是一個不平凡的數學問題。囿於時間（和實力）、這一章講的主要是幾個損失函數的定義、直觀感受和求導方法

從名字上可以看出，損失函數是模型對數據擬合程度的反映，擬合得越差、損失函數的值就應該越大。同時我們還期望，損失函數在比較大時、它對應的梯度也要比較大，這樣的話更新變數就可以更新得快一點。我們都接觸過的「距離」這一概念也可以被用在損失函數這裡，對應的就是最小平方誤差準則（MSE）：

其中 $G$ 即是我們的模型、它根據輸入矩陣 $X$ 輸出一個預測向量 $G(X)$

這個損失函數的直觀意義相當明確：預測值 $G(X)$ 和真值 $Y$ 的歐式距離越大、損失就越大，反之就越小。它的求導也是相當平凡的：

其中 w 是模型 $G$ 中的一個待訓練的參數

由於 MSE 比較簡單、所以我們能夠從一般意義上來討論它。為便於理解，以下的部分會結合 NN 這個特定的模型來進行闡述。回顧 BP 演算法章節中的式子：

這裡的 $v_j^{(n)}$ 其實就是 $G(X)$ 。在 NN 中，我們通過最後一層的 CostLayer 利用 $v_j^{(n)}$ 和真值 $Y$ 得出一個損失、然後 NN 通過最小化這個損失來訓練模型

注意到上式的最後除了損失函數自身的導數以外、還有一項激活函數的導數。事實上，結合激活函數來選擇損失函數是一個常見的做法，用得比較多的組合有以下四個：

MSE 是個萬金油，它不會出太大問題、同時也基本不能很好地解決問題。這裡特地指出不能使用 Sigmoid 系激活函數，是因為 Sigmoid 系激活函數在圖像兩端都非常平緩、從而會引起梯度消失的現象。MSE 這個損失函數無法處理這種梯度消失、所以一般來說不會用 Sigmoid 系激活函數 + MSE 這個組合。以 Sigmoid 函數為例：
上面這張圖對應的情況是輸入為 $v$ 、預測為 $G(v)approx 1$ 但真值為 0。可以看到，即使此時預測值和真值之間的誤差幾乎達到了極大值，但由於 $varphi(v)$ 太小、最終得到的梯度 $delta_j^{(n)}$ 也會很小、導致收斂速度很慢

Sigmoid 激活函數之所以有梯度消失的現象是因為它的導函數形式為 $varphi(v)(1 - varphi(v))$ 。想要解決這個問題的話，比較自然的想法是定義一個損失函數、使得它的分母上有 $varphi(v)(1 - varphi(v))$ 這一項。經過數學家們的工作，我們得到了 Cross Entropy 這個（可能是基於熵理論導出來的）損失函數，其形式為：
它的合理性較直觀：當 $y = 0$ 時、起作用的只有 $(1 - y)ln (1 - varphi(v)) = ln (1 - varphi(v))$ ，此時 $varphi (v)$ 越接近 $0$ 、 $C$ 就越小； $y = 1$ 的情況幾乎同理。下面給出其導數形式：
可見其確實滿足要求
交叉熵背後是有一套數學理論的，感興趣的觀眾老爺們可以戳這裡

以上、大概講了一些損失函數相關的基本知識。下一章的話會講如何根據梯度來更新我們的變數、亦即會講如何定義各種 Optimizers 以及會講背後的思想是什麼。可以想像會是一個相當大的坑……

希望觀眾老爺們能夠喜歡~

（猛戳我進入下一章！ ( σω)σ ）