梯度下降及其優化演算法

04-24

本文主要參考An overview of gradient descent optimization algorithms和其中文翻譯博客。

這篇文章首先介紹了梯度下降的三個框架，全量梯度下降（Batch gradient descent），隨機梯度下降（Stochastic gradient descent）以及批量梯度下降（Mini-batch gradient descent）。我們最常用的框架當屬批量梯度下降了，相對於隨機梯度下降，它降低了收斂波動性，即降低了參數更新的方差，使得更新更加穩定；相對於全量梯度下降，其提高了每次學習的速度，並且其不用擔心內存瓶頸從而可以利用矩陣運算進行高效計算。由此帶來的batch size的大小是個需要根據不同的實驗任務靈活調整的超參數，在更新速度與更次次數中進行折中。

最普通的梯度下降演算法是最速梯度下降法，通過沿著目標函數 $J( heta)$ 的梯度(一階導數)相反方向 $- riangledown_{ heta}J( heta)$ 來不斷更新模型參數來到達目標函數的極小值點（收斂）：

$heta = heta - eta ullet riangledown_{ heta}J( heta)$

其中，每次更新的步長 $eta$ 是非常重要的超參數。

梯度下降演算法得到了廣泛的應用，但是仍然存在一些問題有待解決：

首先，選擇一個合理的學習速率很難，學習速率過小則會導致收斂很慢，但是如果學習速率過大，又會導致極值點附近的震蕩，阻礙收斂。
學習速率調整(又稱學習速率調度，Learning rate schedules)。一般使用某種事先設定的策略或者在每次迭代中衰減一個較小的閾值，例如退火演算法。但是這些基於人工先驗的演算法都是基於經驗，無法根據具體問題的特點進行自適應的調整。
對不同的參數使用不同的學習速率。如果數據特徵是稀疏的或者每個特徵有著不同的取值統計特徵與空間，那麼便不能在每次更新中每個參數使用相同的學習速率，那些很少出現的特徵應該使用一個相對較大的學習速率，例如訓練詞向量時。
對於非凸目標函數，容易陷入那些次優的局部極值點中；以及比局部極值點更經常出現也更難解決的鞍點問題。

針對學習速率的自適應調整以及局部極值的問題，下邊討論一些常用的優化演算法：

1，動量（Momentum）

動量的出現主要是為了解決兩個問題，海森矩陣的不良條件數和隨機梯度的方差。這兩個問題會導致梯度步驟在目標函數到達「峽谷地帶」時的震蕩，阻礙收斂。我們引入變數 $v$ 充當速度的角色，代表參數在參數空間移動的方向和速度（假設參數為單位質量，則其可看作參數的動量），即可解決這一震蕩問題，加快收斂。

$v_t = gamma v_{t-1} + eta ullet riangledown_{ heta}J( heta)$

$heta = heta - v_t$

在實踐中， $gamma$ 的一般取值為0.5,0,9和0.99。和學習速率一樣，它也會隨著時間變化，一般初始值是一個比較小的值，隨後慢慢變大。

2, Nesterov accelerated gradient(NAG)

不僅增加了動量項，並且在計算梯度時，使用了根據動量項預先估計的參數，在Momentum的基礎上進一步加快收斂，提高響應性。

$v_t = gamma v_{t-1} + eta ullet riangledown_{ heta}J( heta - gamma v_{t-1})$

$heta = heta - v_t$

以上兩種方法在每次學習過程中根據損失函數的斜率做到自適應更新來加速收斂。

下邊介紹根據不同參數的特性自適應調整其學習速率。

3，Adagrad

自適應地獨立地調整不同參數的學習速率，放縮每個參數反比於其所有梯度歷史平方值總和的平方根。對稀疏特徵，得到大的學習更新，對非稀疏特徵，得到較小的學習更新，因此該優化演算法適合處理稀疏特徵數據。Dean等[4]發現Adagrad能夠很好的提高SGD的魯棒性，google用其來訓練大規模神經網路(看片識貓:recognize cats in Youtube videos)。Pennington等[5]在GloVe中便使用Adagrad來訓練得到詞向量(Word Embeddings), 頻繁出現的單詞賦予較小的更新，不經常出現的單詞則賦予較大的更新。

Adagrad在每一個更新步驟 $t$ 中對於每一個模型參數 $heta_i$ 使用不同的學習速率 $eta_i$ .設第 $t$ 次更新步驟中，目標函數的參數 $heta_i$ 梯度為 $g_{t,i}$ ，即：

$g_{t,i} = riangledown_ heta J( heta_i)$

$heta_{t+1,i} = heta_{t,i} - frac{eta}{sqrt{G_{t,ii}+epsilon}}ullet g_{t,i}$

$G_t in Re ^ {d imes d}$ 是一個對角矩陣，其中第 $i$ 行的對角元素 $e_{ii}$ 為過去到當前第 $i$ 個參數 $heta_i$ 的梯度的平方和； $epsilon$ 是一個平滑參數，為了使得分母不為0(通常 $epsilon$ 取e?8)。另外如果分母不開根號，演算法性能會很糟糕。