為什麼梯度的負方向是局部下降最快的方向？

01-26

剛接觸梯度下降這個概念的時候，是在學習機器學習演算法的時候，很多訓練演算法用的就是梯度下降，然後資料和老師們也說朝著梯度的反方向變動，函數值下降最快，但是究其原因的時候，很多人都表達不清楚。所以我整理出自己的理解，從方嚮導數這個角度把這個結論證明出來，讓我們知其然也知其所以然~

一年前從基本的原理證明進行解釋，見下：

憶臻：為什麼梯度反方向是函數值局部下降最快的方向？zhuanlan.zhihu.com

這次從最優化的角度切入來說明一下：

當我們在某個要優化的函數，這裡設為 $f(x)$ ,我們在x點處，然後沿方向 $v$ 進行移動，到達 $f(x+v)$ ，圖示表示了移動過程：

上圖顯示了從A點,移動到B點的過程。那麼 $v$ 方向是什麼的時候，局部下降的最快呢？

換成數學語言來說就是， $f(x+v)-f(x)$ 的值在 $v$ 是什麼的時候，達到最大！

下面進行講解：

則 $f(x+v)-f(x)=d f(x)v$ ,則我們可以得出： $d f(x)v$ 為函數值的變化量，我們要注意的是 $d f(x)$ 和 $v$ 均為向量， $d f(x)v$ 也就是兩個向量進行點積，而向量進行點積的最大值，也就是兩者共線的時候，也就是說 $v$ 的方向和 $d f(x)$ 方向相同的時候，點積值最大，這個點積值也代表了從A點到B點的上升量。點積說明如下：

而 $d f(x)$ 正是代表函數值在 $x$ 處的梯度。前面又說明了 $v$ 的方向和 $d f(x)$ 方向相同的時候，點積值（變化值）最大，所以說明了梯度方向是函數局部上升最快的方向。也就證明了梯度的負方向是局部下降最快的方向！