機器學習演算法數學基礎之 —— 微積分篇(1)
最近在聽台大老師林軒田老師的 機器學習基石 課程,意識到做好機器學習必須要把根本學好,也就是機器學習演算法的基礎 —— 數學。高等數學雖然在本科時已經學過了,但很多概念和定理由於太久不使用,很多細節已經搞不清了。所以打算在知乎記幾篇筆記,分別是關於微積分、線性代數、統計與概率論三個部分的一些常用知識點。
當前這篇是關於微積分部分的,包括:羅爾定理、柯西中值定理、拉格朗日中值定理、泰勒展開、夾逼準則、洛必達法則。
核心問題
極值問題與條件最優化。
核心技能
- 導數/偏導數
- 梯度
常用定理及簡介
- 羅爾定理
定理內容:如果 R 上的函數 f(x) 滿足以下條件:(1)在閉區間 [a,b] 上連續,(2)在開區間 (a,b) 內可導,(3)f(a)=f(b),則至少存在一個 ξ∈(a,b),使得 f(ξ)=0。
幾何意義:若連續曲線y=f(x) 在區間 [a,b] 上所對應的弧段 AB,除端點外處處具有不垂直於 x 軸的切線,且在弧的兩個端點 A,B 處的縱坐標相等,則在弧 AB 上至少有一點 C,使曲線在C點處的切線平行於 x 軸。
- 柯西中值定理
如果函數 f(x), g(x) 滿足:(1)在閉區間 [a,b] 上連續,(2)在開區間 (a,b) 內可導,(3)對任一 x∈(a,b) 有 g(x)≠0,則存在 ξ∈(a,b),使得 [f(b)-f(a)]/[g(b) g(a)]=f(ξ)/g(ξ)。
幾何意義:若令 u=f(x), v=g(x),這個形式可理解為參數方程,而 [f(a)-f(b)]/[g(a)-g(b)] 則是連接參數曲線的端點斜率,f(ξ)/g(ξ) 表示曲線上某點處的切線斜率,在定理的條件下,可理解為:用參數方程表示的曲線上至少有一點,它的切線平行於兩端點所在的弦。
- 拉格朗日中值定理
拉格朗日中值定理是羅爾中值定理的推廣,同時也是柯西中值定理的特殊情形,是泰勒公式的弱形式(一階展開),它反映了可導函數在閉區間上的整體的平均變化率與區間內某點的局部變化率的關係。
定理內容:如果函數 f(x) 滿足:(1)在 (a,b) 內可導,(2)[a,b] 上連續,則必有一個 ξ∈(a,b),使得 f(ξ)*(b-a)=f(b)-f(a)。
幾何意義:若連續曲線 y=f(x) 在 A(a,f(a)), B(b,f(b)) 兩點間的每一點處都有不垂直於x軸的切線,則曲線在 A,B 間至少存在一個點 P(c,f(c)),使得該曲線在P點的切線與割線AB平行。
物理意義:對於直線運動,在任意一個運動過程中至少存在一個位置(或一個時刻)的瞬時速度等於這個過程中的平均速度。
- 泰勒展開
泰勒公式是一個用函數在某點的信息描述其附近取值的公式。如果函數足夠平滑的話,在已知函數在某一點的各階導數值的情況之下,泰勒公式可以用這些導數值做係數構建一個多項式來近似函數在這一點的鄰域中的值。泰勒公式還給出了這個多項式和實際的函數值之間的偏差。
用一張動圖模擬這個過程:
- 夾逼準則
定理內容:若函數 和 在 的鄰域連續, 時極限都為 ,即 ,且在該 的鄰域一直滿足 。
則當 時也有 ,也就是 ,
所以 .
簡單地說:函數 A>B,函數 B>C,函數 A 的極限是 X,函數 C 的極限也是 X ,那麼函數 B 的極限就一定是 X,這就是夾逼定理。
- 洛必達法則
定理內容:設
(1)當 時,函數 及 都趨於零;
(2)當 時 與 都存在,且 ;
(3) 存在(或為無窮大),
那麼
洛必達法則是在一定條件下,通過分子分母分別求導再求極限來確定未定式值的方法。這種方法主要是在一定條件下通過分子分母分別求導再求極限來確定未定式的值。
在運用洛必達法則之前,首先要完成兩項任務:一是分子分母的極限是否都等於零(或者無窮大);二是分子分母在限定的區域內是否分別可導。如果這兩個條件都滿足,接著求導並判斷求導之後的極限是否存在:如果存在,直接得到答案;如果不存在,則說明此種未定式不可用洛必達法則來解決;如果不確定,即結果仍然為未定式,再在驗證的基礎上繼續使用洛必達法則。
王天宇:機器學習演算法數學基礎之 —— 線性代數篇(2)王天宇:機器學習演算法數學基礎之 —— 統計與概率論篇(3)
推薦閱讀:
※學習筆記CB001:NLTK庫、語料庫、詞概率、雙連詞、詞典
※DeepLearning.AI 學習筆記(一)
※【深度學習系列】卷積神經網路CNN原理詳解(一)——基本原理
※「伊人」何處,宛在雲中央:用 Datalab 在雲上部署互動式編程環境
※《機器學習基石》課程學習總結(三)