機器學習中的數學基礎（簡介）

03-02

一、機器學習與數學知識簡介

1、機器學習的目的：現代人都講究資源整合，學習應用也是一樣，需要將工作中所接觸和學習到的技能整合起來形成自己的核心競爭力力，提高自己的不可替代性，而機器學習恰好是當前最熱門也最有用的結合之一。

具體來說，數據研究人員的職場能力可以分成3個方面：計算機技術、數理統計知識和特定行業的業務知識。而「機器學習」就是計算機技術與數理統計知識的結合，「傳統研究」則是數理統計與特定行業業務知識的整合，而一個不具備數理統計能力的碼農則進入了一個「危險區域」，因為他通常已經在一家公司工作多年，具備基本的計算機能力，熟悉公司乃至行業有關的業務情況，卻對數理統計一竅不通。相反，若具備3種職場能力並能全部有效整合起來，那就形成了所謂的「數據科學」。而「量化交易」正屬於「數據科學」中有關金融和交易業務的部分。

2、機器學習的分類：根據1959年Arthur Samuel的定義，機器學習就是研究在沒有完全為計算機程序規定精確規則的基礎上，如何讓計算機具備自主學習能力的研究。大體而言可分為3類，監督學習，非監督學習和強化學習。監督學習通常用於分類預測和回歸分析，例如用戶點擊和購買預測；非監督學慣用於聚類和關聯規則，例如新聞聚類；強化學習則是用於Q-learning和時間差學習，例如動態系統及機器人控制。簡單而言，監督學習就是在已知當前所有樣本標籤的情況下去預測下一個樣本的標籤，非監督學習就是未知樣本具體標籤，而嘗試去為它們打上標籤。

3、機器學習的一般思路：機器學習的研究流程是，首先收集一系列樣本數據，透過某一種機器學習演算法所得到的假設函數或得分函數h(x)，計算由h(x)與樣本間的誤差形成損失函數

J( $heta$ )，使其最小化，形成對總體模型的估計，最終去預測新樣本的相關類別。其中最重要的部分是h(x)的假定和J( $heta$ )的計算，具體到監督學習上來說，則是在規則化參數的同時最小化誤差，即使模型相對簡單的同時使誤差最小，前者保證模型不會過擬合，而後者則避免了欠擬合。在眾多的學習研究，包括該課程中，重點研究損失函數的最小化問題。

4、機器學習的數學基礎：機器學習所需要的數學知識包含3個大類：高等數學、概率統計與線性代數。就個人的感覺來說，高等數學作用於損失函數最小化問題求解，概率統計則是收集並處理數據，得到假設函數所需要的一系列特徵量，最後估計新樣本落在最優模型中某個類別的概率，而線性代數則用於在最優化問題在多維空間中的線性表達。

高等數學中最重要的就是泰勒公式、梯度和凸函數。由於導數本身是對函數的線性逼近，因此泰勒公式的本質就是對函數進行逼近，在鄰域內的不斷逼近迭代則是梯度下降法和牛頓法的精髓，只不過前者是函數的一階導數逼近，後者是二階。梯度本身定義為函數增長的方向，因此由全微分公式推出方嚮導數後，通過其餘弦公式可知，只有在梯度方向與方嚮導數同向時，才能使得函數增長最快，這也是梯度下降法尋找最優解的由來。如果函數的最優化問題沒有精確的代數解，通常會使用迭代的方法求解最優參數，但它們一般只會得到局部最優解，因此若能將函數本身變換為凸函數，迭代產生的局部最優解往往又是全局最優解本身。

概率與統計中的關注點在於，概率求解在已知樣本總體分布的情況下，某一次抽樣產生特定結果的可能性，而統計則是未知總體，通過對已知結果的不斷抽樣，計算總體分布的形態。因此，統計問題往往就是概率問題的逆向工程。而概率論與統計學習的關係在於，在已知多次抽樣結果的情況下，對總體分布做出估計，然後使用估計的總體分布去預測下一次抽樣結果的可能性，因此機器學習，尤其是監督學習演算法先使用統計訓練樣本得到模型，後利用估計的模型對未來做出預測。於是就有一個不嚴謹的說法，機器學習是概率與統計的進階版本。

線性代數的關注點通常在於求解多維特徵的最優參數時，能簡化計算過程，將繁雜的計算轉變為簡單的矩陣形式，同時大大的加快迭代的速度。舉例可參考SVD演算法。