為什麼梯度的負方向是局部下降最快的方向?

剛接觸梯度下降這個概念的時候,是在學習機器學習演算法的時候,很多訓練演算法用的就是梯度下降,然後資料和老師們也說朝著梯度的反方向變動,函數值下降最快,但是究其原因的時候,很多人都表達不清楚。所以我整理出自己的理解,從方嚮導數這個角度把這個結論證明出來,讓我們知其然也知其所以然~

一年前從基本的原理證明進行解釋,見下:

憶臻:為什麼梯度反方向是函數值局部下降最快的方向?zhuanlan.zhihu.com圖標

這次從最優化的角度切入來說明一下:

當我們在某個要優化的函數,這裡設為 f(x) ,我們在x點處,然後沿方向 v 進行移動,到達 f(x+v) ,圖示表示了移動過程:

上圖顯示了從A點,移動到B點的過程。那麼 v 方向是什麼的時候,局部下降的最快呢?

換成數學語言來說就是, f(x+v)-f(x) 的值在 v 是什麼的時候,達到最大!

下面進行講解:

f(x+v)-f(x)=d f(x)v ,則我們可以得出: d f(x)v 為函數值的變化量,我們要注意的是 d f(x)v 均為向量, d f(x)v 也就是兩個向量進行點積,而向量進行點積的最大值,也就是兩者共線的時候,也就是說 v 的方向和 d f(x) 方向相同的時候,點積值最大,這個點積值也代表了從A點到B點的上升量。點積說明如下:

d f(x) 正是代表函數值在 x 處的梯度。前面又說明了 v 的方向和 d f(x) 方向相同的時候,點積值(變化值)最大,所以說明了梯度方向是函數局部上升最快的方向。也就證明了梯度的負方向是局部下降最快的方向!

推薦閱讀:

為什麼梯度下降演算法(BGD批量梯度下降)用的是所有樣本點梯度的均值作為最終的梯度方向?
圖像處理中加權直方圖是什麼意思?
隨機梯度下降和正則項之間如何處理?
梯度上升演算法與梯度下降演算法求解回歸係數怎麼理解?

TAG:梯度下降 | 机器学习 | 凸优化 |