主成分分析法(PCA)推導
09-17
主成分分析法(PCA)推導
4 人贊了文章
主成分分析法(principal component analysis, PCA)是最常用的無監督高維數據降維方法之一,它旨在降維的過程中保留原數據中最重要的幾個分量,從而達到最大化原數據方差的作用。幾乎所有數據降維方面研究都要用來作為比較重要的方法。
原文: Ph0en1x Notebook
主成分分析的基本思想就是在原有樣本的n維空間內再建立一個d維線性空間,用n個標準正交基進行重新映射,然後選取其中的d個正交基進行保留,而在這d個坐標軸上的坐標值就是映射到低維後的坐標。而推導的目的就是為了確定如何確定這這d個標準正交基以及如何選取它們。就如下圖(圖片來自於網路)一樣,將二維空間內的點映射至一維空間,最終選擇較長的那條向量進行投影映射。
- 首先,需要將手頭需要降維的數據進行中心化,使樣本中心點為原點
- 然後假定選擇的新的坐標係為
其中W是標準正交基向量,即 (i != j)
- 選取其中的d個向量讓原樣本向新坐標系中映射WTxi,即:
W是經過選取後的d個標準正交基,z是低維中的坐標
- 選取的目標是使降維後的點盡量的分散,也就是方差盡量的大:
優化問題被歸納為
- 根據拉格朗日乘子法,來決定哪d個w可以留下,優化目標就成為了:
代入優化目標
所以求解的過程就是尋找原樣本協方差矩陣XXT的最大的d個特徵值,而相應的標準正交基就是相應特徵值的特徵向量;
推薦閱讀:
※機器學習和數據科學領域必讀的10本免費書籍
※Scikit-learn學習
※如何使用機器學習對文本進行自動分類
※【大數據點滴應用系列】配合財稅改革,九次方大數據做了這件事