機器學習-數學基礎

最好都能掌握的機器學習數學知識

一:概述

學習機器學習和深度學習中,有太多的理論公式推導,沒有一定的數學基礎是很難理解其意。從另外一個角度上看,數學是機器學習中一個最基礎的工具,如果基礎都沒有打紮實,以後的路將很難走,更別說走遠了。

好了,不廢話了,請看以下學習清單:

事無巨細,我會從某個大方面介紹,其下所包含的額外知識點,請自行腦補,不然這篇文章將會把書籍目錄上的知識點都給羅列出來。

二:線性代數

2.1 標量和向量

標量就是一個數值,不摻雜其它含義。

向量是有大小有方向的量,在這裡就是一組有序數,並用以下符號表示:

在實際應用當中,向量通常被當做是高維空間的點,其中每個標量對應具體維度。

2.2 矩陣

在介紹矩陣時,我先推薦一款高分視頻,這是國外大佬以動畫的形式讓我們明白,原來線性代數是這個樣子的。 鏈接

  • 基本運算

對於基本運算,加法、減法、數乘、轉置是需要有所了解的。

  • 特徵值和特徵向量

對於特徵值和特徵向量,熟悉的人看看公式估計能回憶起來:

Ax = cx

A為矩陣,c 為特徵值,x 為特徵向量。至於計算過程,這不是重點,我接下來要講的是,特徵向量和特徵值有什麼意義?

在高維度矩陣中,特徵分解可以得到特徵值和特徵向量,特徵值表示的是這個特徵到底有多重要,而特徵向量表示的是這個特徵是什麼,可以將每個特徵向量理解成一個線性的子空間。參考鏈接

從線性變換的角度來分析,如果矩陣通過變換之後,原向量仍然在變換後的的向量方向上,此方向上的向量就是特徵向量。大家可以好好看看這個視頻,裡面很直觀的講解線性變換的幾何意義。

不過,特徵分解也有很多局限性,比如說變換的矩陣必須是方陣。

  • 線性變換

通過矩陣基本運算,可以對矩陣進行旋轉、拉伸變換,對於三維空間就是翻轉,對於更高維度空間,那就自行腦補了~_~~

2.3 張量(tensor)

看到英文名時應該直接聯想到 Googletensorflow框架吧。先別急,先看看 tensor 到底是什麼吧。

幾何代數中定義的張量是基於向量和矩陣的推廣,通俗一點理解的話,我們可以將標量視為零階張量,矢量視為一階張量,矩陣就是二階張量, N 階張量就是 N 維矩陣。

2.4 正交分解

特徵分解是使用最廣的矩陣分解方法之一,

矩陣分解是將矩陣拆解為數個矩陣的乘積,可分為三角分解、滿秩分解、QR分解、SVD(奇異值)分解等。

2.5 奇異值分解(SVD)

奇異值分解(SVD)是在通信系統MIMO、機器學習、圖像處理、數據壓縮降噪等領域廣泛應用的演算法。奇異值往往對應著矩陣中隱含的重要信息,且重要性和奇異值大小正相關,每個矩陣A都可以表示為一系列秩為1的「小矩陣」值和,而奇異值則衡量了這些「小矩陣」對於A的權重。公式如下:

學習視頻 知乎參考鏈接

在圖像處理領域,奇異值不僅可以應用在數據壓縮上,還可以對圖像去噪,如下圖帶噪點的數據圖:

通過奇異值分解,我們發現矩陣的奇異值從大到小分別為:14.15、4.67、3.00、0.21 ......,0.05 。 由於奇異值代表著其代表信息的重要程度,通過觀察,這裡我們只取前三個奇異值,並用其構造新的矩陣,得到:

奇異值分解還廣泛的用於主成分分析(PCA)和推薦系統等。如有看英文文檔不費力的各位,可以看看這篇國外文章

三、概率

3.1 在人工智慧中的地位

概率統計是對不確定性問題的處理手段,也是一種重要的推斷手段。

在人工智慧領域,我們主要以兩種方式來使用概率論。首先,概率法則告訴我們AI系統應該如何推理,所以我們設計一些演算法來計算或者近似由概率論導出的表達式。其次,我們可以用概率和統計從理論上分析我們提出的AI系統的行為。

計算機科學的許多分支處理的對象都是完全確定的實體,但機器學習卻大量使用概率論。實際上如果你了解機器學習的工作原理你就會覺得這個很正常。因為機器學習大部分時候處理的都是不確定量或隨機量。

3.2 貝葉斯公式

我們從一個經典例子入手分析貝葉斯公式吧:

假設某種病在人群中的發病率是0.001,即1000人中大概會有1個人得病,則有: P(患病) = 0.1%;即:在沒有做檢驗之前,我們預計的患病率為P(患病)=0.1%,這個就叫作"先驗概率"。

再假設現在有一種該病的檢測方法,其檢測的準確率為95%;即:如果真的得了這種病,該檢測法有95%的概率會檢測出陽性,但也有5%的概率檢測出陰性;或者反過來說,但如果沒有得病,採用該方法有95%的概率檢測出陰性,但也有5%的概率檢測為陽性。用概率條件概率表示即為:P(顯示陽性|患病)=95%

現在我們想知道的是:在做完檢測顯示為陽性後,某人的患病率P(患病|顯示陽性),這個其實就稱為"後驗概率"。

而這個叫貝葉斯的人其實就是為我們提供了一種可以利用先驗概率計算後驗概率的方法,我們將其稱為「貝葉斯公式」。

這裡先了解條件概率公式:

由條件概率可以得到乘法公式:

將條件概率公式和乘法公式結合可以得到:

再由全概率公式:

代入可以得到貝葉斯公式:

此例子中的分析公式就是:

3.3 期望、方差、協方差

  • 期望

指在一個離散性隨機變數的值乘以其概率的總和,具體公式如下:

  • 方差

用來衡量隨機變數與期望值之間的偏離程度。公式如下:

  • 協方差

用于衡量兩個隨機變數X和Y之間的總體誤差,公式如下:

通俗的理解:兩個變數在變化過程中是同方向變化?還是反方向變化?同向或反向程度如何? 同向變化,協方差為正;反相變化,協方差為負。從數值來看,如果變化程度決定了數值的大小:如果變化趨勢一模一樣,那麼協方差的數值相對較大(同向為正整數,反向為負數),如果相互獨立,不存在任何線性關係,那麼最終計算結果將會靠近0。詳細了解,可以看看這篇文章

所以,協方差也代表著兩個隨機變數的分布關係,這也是降維分析中的底層概念之一。

另外,我們來看一下相關係數的概念,公式如下:

就是使用X、Y的方差除以X的標準差和Y的標準差,可以認為是一種特殊的協方差,那就保留著協方差的一些基本性質,不同的就是,相關係數是標準後的協方差,它消除了兩個變數變化幅度的影響,而只是單純反應兩個變數每單位變化時的相似程度。

  • 協方差矩陣

上面已經給出協方差的概念,那麼協方差矩陣中每一個點,都是都是兩個變數所對應的協方差值,而此值就代表著兩個變數分布的關係。

所以協方差矩陣可以判斷出多個高維度特徵之間的匹配關係,從而對其進行降維分析。在主成分分析中,粗略的來看,先統計數據的協方差矩陣,然後對其做奇異值分解,求出最大奇異值的特徵方向。

3.4 常見的分布函數

  • 高斯分布

又稱為正態分布,為鍾型,兩頭低中間高,左右對稱其曲線呈鍾型。

若隨機變數X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標準正態分布。

自然界中存在大量的正態分布,比如女性的身高,在我們做數據處理時,就會經常遇到。

在機器學習有很多應用場景,比如:

    • 高斯樸素貝葉斯
    • 高斯隨機投影
    • 高斯混合模型
    • 高斯處理

以上也只是高斯模型的冰山一角,想要對模型進行優化,還是需要深度了解高斯模型。

另外,擴展一個小知識點:偏態分布;

    • M : 眾數
    • Me : 中數
    • x : 平均值
  • 泊松分布和指數分布

關於這個數據分布,已經有大牛對其做了描述,所以在此我就不多做贅述,直接奉上鏈接即可:泊松分布和指數分布:10分鐘教程

3.5 最大似然估計

最大似然也稱為最大概似估計,即:在「模型已定,參數θ未知」的情況下,通過觀測數據估計未知參數θ 的一種思想或方法。

其基本思想是: 給定樣本取值後,該樣本最有可能來自參數

為何值的總體。即:尋找

使得觀測到樣本數據的可能性最大。

求極大似然函數估計值的一般步驟:

  • 寫出似然函數

  • 對似然函數取對數
  • 兩邊同時求導數
  • 令導數為0解出似然函數方程

在機器學習中,也能經常見到極大似然的影子,比如在計算樸素貝葉斯回歸模型、邏輯斯特回歸模型(LR)等等,其核心就是構造對數損失函數後運用極大似然估計。

4 資訊理論

資訊理論本來是通訊中的概念,但是其核心概念「熵」在機器學習中得到了廣泛的應用,比如決策樹模型ID3,C4.5中是利用信息增益來劃分特徵而生成一顆決策樹的,而信息增益就是基於這裡所說的熵。所以它的重要性也是可想而知。

4.1 熵

在資訊理論中,熵是接收的每條消息中包含的信息的平均值,又被稱為信息熵。

熵被定義為信息的期望值,也是對隨機變數的比特量和順次發生概率相乘在總和的數學期望。

  • 特徵
    • 發生概率小的信息,熵值越大
    • 常識的熵為0
    • 從計算損失的角度來講:熵越大,說明損失越大
  • 信息熵的計算公式

  • 熵的作用
    • 計算損失(loss function)

用於調整梯度遞減的步長。

    • 決策樹

熵越大,說明特徵的劃分數據能力越強

4.2 相對熵

相對熵(relative entropy)又稱為KL散度(Kullback–Leibler divergence,簡稱KLD)[1],信息散度(information divergence),信息增益(information gain)。

KL散度是兩個概率分布P和Q差別的非對稱性的度量。 KL散度是用來 度量使用基於Q的編碼來編碼來自P的樣本平均所需的額外的位元數。 典型情況下,P表示數據的真實分布,Q表示數據的理論分布,模型分布,或P的近似分布。

詳細的推導我就不再贅述,這裡我貼出詳細文檔即可。


  • 參考資料一
  • 參考資料二

推薦閱讀:

範疇論學習筆記4:初始和終結對象、廣義元素
如何提高數學成績?
哲學該怎麼入門?

TAG:機器學習 | 線性代數 | 數學 |