標籤:

機器學習:特徵工程之線性判別分析LDA

機器學習:特徵工程之線性判別分析LDA

4 人贊了文章

一、前言

1、 線性判別式分析(Linear Discriminant Analysis, LDA),也叫做Fisher線性判別(Fisher Linear Discriminant, FLD),是模式識別的經典線性學習演算法,也是一種監督學習的降維技術。

2、 基本思想:將高維的模式樣本投影到最佳鑒別矢量空間,以達到抽取分類信息和壓縮特徵空間維數的效果,投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內距離,即模式在該空間中有最佳的可分離性。

3、 在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新樣本的類別。

4、 LDA原理:將樣本點投影到低維形成類簇,即可達到分類效果,也實現了特徵降維的效果

二、LDA數學原理 S_i=∑_{x∈X_i} (x-μ)^2 =∑_{x∈X_i}(x-μ_i )^2

1、 給定數據集 D={(x_i,y_i )}_{i=1}^my∈{0,1}X_i 表示類示例集合

2、 類樣本均值 μ_i=1/n_i ∑_{x∈class i}x ,總體樣本均值 μ=1/m ∑_{i=1}^m x_i

3、 類樣本投影后的均值 μ_i{}=w^T μ_i ,總體樣本投影后的均值 μ{}=w^T μ

4、 投影后類內分散程度 (s_i ) ?=∑_{x{}∈X_i} (x{}-μ_i {})^2 =∑_{x{}∈X_i} w^T (x{}-μ_i{}) (x{}-μ_i{} )^T w= w^T S_i w

a) 投影后的類樣本 x{}=w^T x

b) 原始空間類內分散程度 S_i=∑_{x∈X_i} (x-μ)^2 =∑_{x∈X_i} (x-μ_i )^2

5、 類間分散程度 S_b=|μ_1-μ_2 |^2 (二分類)或 S_b=∑_{i=1}^Cn_i (μ_i-μ) (μ_i-μ)^T (多分類)

6、 建立損失函數 J(w)=(w^T S_b w)/(w^T S_w w)S_w=s_1{}+s_2{}S_w=∑_{i=1}^C S_i

7、 LDA的最大化目標: S_bS_w 的「廣義瑞利商」

a)

b) 根據拉格朗日乘子法得 c(w)=w^T S_b w+λ(w^T S_w w-1)

c) 求導取0,求極值得 S_b w=λS_w w→S_w^{-1} S_b w=λw

8、 簡化運算

三、LDA與PCA對比

1、 相同點

a) 兩者均可以對數據進行降維

b) 兩者在降維時均使用了矩陣特徵分解的思想

c) 兩者都假設數據符合高斯分布

2、 不同點

a) LDA有監督,PCA無監督

b) LDA最多降維到類別數K-1的維數,而PCA無限制

c) LDA除了降維,還可用來分類

d) LDA選擇分類性能最好的投影方向,而PCA選擇樣本點投影具有最大方差的方向

四、LDA特點

1、 優點

a) 降維過程中可以使用類別的先驗只是經驗

b) LDA在樣本分類信息依賴均值而不是方差的時候,比PCA演算法較優

2、 缺點

a) 不適合對非高斯分布樣本進行降維(PCA同)

b) 維度限制較為嚴重,降維的維度大於類別數K-1時,不能使用LDA

c) LDA在樣本分類信息依賴方差而不是均值的時候,降維效果不好

d) LDA可能過度擬合數據

參考博客:cnblogs.com/pinard/p/62


推薦閱讀:

python3機器學習經典實例-第八章解剖時間序列和時序數據32
EdX-Columbia機器學習課第8講筆記:線性分類器與感知機
開始你人生第一個機器學習項目時,避開這些坑。
網路表示學習論文引介
機器學習篇-名詞:候選集,覆蓋率

TAG:機器學習 |