主成分分析(PCA)的詳細解釋

04-28

原作者：Zakaria Jaadi
翻譯：鍾勝傑

這篇文章的目的是提供主成分分析的完整同時比較簡化的解釋，特別是逐步回答它是如何工作的，這樣每個人都可以理解它並利用它，而不必具有很高的數學水平。

PCA實際上是一種使用很廣的網路方法，但只有少數人直截了當地解釋它是如何工作的，而不會過多地投入技術性的解釋。這就是為什麼我決定自己發布帖子，用簡化的方式呈現它的原因。

在開始解釋之前，文章說明了PCA在每個步驟中做了什麼，並簡化了它背後的數學概念，如標準化，協方差，特徵向量和特徵值，而沒有關注如何計算它們。

所以什麼是主成分分析呢？

主成分分析（PCA）是一種降維方法，通常用於通過將數量很多的變數轉換為仍包含集合中大部分信息的較少變數來降低數據集的維數。

減少數據集的變數數量自然是以犧牲精度為代價的，但降維是為了簡單而略微準確。因為較小的數據集更易於探索和可視化，並且使機器學習演算法更容易和更快地分析數據，而無需處理無關的變數。

總而言之，PCA的概念很簡單：減少數據集的維數，同時保留儘可能多的信息。

逐步解釋PCA

第一步：標準化

此步驟的目的是標準化輸入數據集，使數據成比例縮小。

更確切地說，在使用PCA之前必須標準化數據的原因是PCA方法對初始變數的方差非常敏感。也就是說，如果初始變數的範圍之間存在較大差異，那麼範圍較大的變數占的比重較大，和較小的變數相比（例如，範圍介於0和100之間的變數較0到1之間的變數會佔較大比重），這將導致主成分的偏差。通過將數據轉換為同樣的比例可以防止這個問題。

在數學上，可以通過減去平均值併除以每個變數的標準偏差來完成。