主成分分析法(PCA)推導

主成分分析法(PCA)推導

4 人贊了文章

主成分分析法(principal component analysis, PCA)是最常用的無監督高維數據降維方法之一,它旨在降維的過程中保留原數據中最重要的幾個分量,從而達到最大化原數據方差的作用。幾乎所有數據降維方面研究都要用來作為比較重要的方法。


原文: Ph0en1x Notebook

主成分分析的基本思想就是在原有樣本的n維空間內再建立一個d維線性空間,用n個標準正交基進行重新映射,然後選取其中的d個正交基進行保留,而在這d個坐標軸上的坐標值就是映射到低維後的坐標。而推導的目的就是為了確定如何確定這這d個標準正交基以及如何選取它們。就如下圖(圖片來自於網路)一樣,將二維空間內的點映射至一維空間,最終選擇較長的那條向量進行投影映射。

  1. 首先,需要將手頭需要降維的數據進行中心化,使樣本中心點為原點

  1. 然後假定選擇的新的坐標係為

其中W是標準正交基向量,即 (i != j)

  1. 選取其中的d個向量讓原樣本向新坐標系中映射WTxi,即:

W是經過選取後的d個標準正交基,z是低維中的坐標

  1. 選取的目標是使降維後的點盡量的分散,也就是方差盡量的大:

優化問題被歸納為

  1. 根據拉格朗日乘子法,來決定哪d個w可以留下,優化目標就成為了:

代入優化目標

所以求解的過程就是尋找原樣本協方差矩陣XXT的最大的d個特徵值,而相應的標準正交基就是相應特徵值的特徵向量;

推薦閱讀:

機器學習和數據科學領域必讀的10本免費書籍
Scikit-learn學習
如何使用機器學習對文本進行自動分類
【大數據點滴應用系列】配合財稅改革,九次方大數據做了這件事

TAG:機器學習 | 數據挖掘 | 人工智慧 |