淺談主成分分析與因子分析

08-10

淺談主成分分析與因子分析

15 人贊了文章

主成分分析與因子分析有相似之處，也有明顯區別，以下是對主成分分析和因子分析進行的一個簡單比較。

主成分分析

基本思想
主成分幾何意義及求解
主成分分析優缺點
分析步驟

因子分析

基本思想
與主成分分析的區別和聯繫
分析步驟

【1】主成分分析——基本思想

主成分分析（Principal Component Analysis，PCA）通過將原始變數轉換為原始變數的線性組合（主成分），在保留主要信息的基礎上，達到簡化和降維的目的。

主成分與原始變數之間的關係：

主成分是原始變數的線性組合
主成分的數量相對於原始數量更少
主成分保留了原始變數的大部分信息
主成分之間相互獨立

【2】主成分分析——幾何意義及求解

通過旋轉變換，將分布在x1，x2坐標軸上的原始數據，轉換到F1,F2坐標軸表示的坐標繫上，使得數據在F1軸上離散程度最大，此時，可以忽略F2軸，僅通過F1軸就可以表示數據的大部分信息，從而達到降維的目的。

不同的線性變換，得到的Fi統計特性不同，為得到較好的效果，我們希望主成分之間相互獨立，同時方差儘可能得大，即

求解以上公式，得

因此，我們只需要對協方差矩陣∑求特徵值λ及特徵向量ui，即可構成主成分分析的解。

由此可知，主成分分析是把p個隨機變數的方差分解為p個不相關的隨機變數的方差和，使得第一個主成分的方差達到最大，其貢獻率等於其方差在全部主成分方差中的佔比。

主成分分析的一個關鍵問題是：主成分的個數選多少個比較合適？

有3個主要的衡量標準：

保留的主成分使得方差貢獻率達到80%以上
保留的主成分的方差（特徵值）大於1
Cattell碎石檢驗繪製了關於各主成分及其特徵值的圖形，我們只需要保留圖形中變化最大之處以上的主成分即可

【3】主成分分析——優缺點

優點

不要求數據呈正態分布，主成分就是按數據離散程度最大的方向對基組進行旋轉，這特性擴展了其應用範圍，比如，用於人臉識別
通過對原始變數進行綜合與簡化，可以客觀地確定各個指標的權重，避免主觀判斷的隨意性

缺點

主成分分析適用於變數間有較強相關性的數據，若原始數據相關性弱，則起不到很好的降維作用
降維後，存在少量信息丟失，不可能包含100%原始數據
原始數據經過標準化處理之後，含義會發生變化，且主成分的解釋含義較原始數據比較模糊
假設標準化後的原始變數間存在多重共線性，即原始變數之間存在不可忽視的信息重疊，主成分分析不能有效剔除信息重疊

【4】主成分分析——分析步驟

主成分分析步驟：

選取初始變數
根據初始變數特性選擇使用協方差矩陣還是相關矩陣來求主成分
計算協方差矩陣或相關矩陣的特徵值和特徵向量
確定主成分個數
對主成分做經濟解釋，主成分的經濟意義由各線性組合中權重較大的幾個指標來確定

案例：對中國各個地區的經濟水平影響因素的分析。

分析前，先進行相關性檢驗，變數之間存在較強相關性，才能使用主成分分析方法。

具體步驟：

1）獲取初始數據，統一量綱，將數據進行標準化處理

2）計算相關係數矩陣，求得特徵值和特徵向量

3）確定主成分個數

4）提取主成分

5）將原數據分別按第一，第二，第三主成分得分排序，觀察各地區主要受哪個主成分影響

【5】因子分析——基本思想

因子分析（Factor Analysis，FA）是一種數據簡化技術，通過研究眾多變數之間的內部依賴關係，探求觀測數據的基本結構，並用少數幾個假想變數（因子）來表示原始數據。

因子能夠反映眾多原始變數的主要信息。

因子的特點：

因子個數遠遠少於原始變數個數
因子並非原始變數的簡單取捨，而是一種新的綜合
因子之間沒有線性關係
因子具有明確解釋性，可以最大限度地發揮專業分析的作用

【6】因子分析——例子

在市場調查中我們收集了食品的五項指標（x1~x5）:味道、價格、風味、是否快餐、能量，經過因子分析，我們發現了：

x1 = 0.02 * z1 + 0.99 * z2 + e1
x2 = 0.94 * z1 - 0.01 * z2 + e2
x3 = 0.13* z1 + 0.98 * z2 + e3
x4 = 0.84 * z1 + 0.42 * z2 + e4
x5 = 0.97 * z1 - 0.02 * z2 + e1

（數字代表實際變數間的相關係數，值越大，相關性越大）

第一個公因子z1主要與價格、是否快餐、能量有關，代表「價格與營養」；

第二個公因子z2主要與味道、風味有關，代表「口味」；

e1-5是特殊因子，是公因子中無法解釋的，在分析中一般略去。

【7】因子分析——分析步驟

因子分析步驟：

選擇分析變數
計算原始變數的相關係數矩陣
提取公因子

取方差（特徵值）大於0的因子
因子的累積方差貢獻率達到80%

因子旋轉

因子的實際意義更容易解釋

計算因子得分

案例分析步驟：

1）數據標準化處理，計算相關係數矩陣，求特徵值及特徵向量

2）確定因子個數

3）提取公共因子，使用fa()函數獲得相應結果

4）使用fa.diagram()函數繪製正交旋轉結果的圖形

【8】因子分析與主成分分析的比較

區別：

（1）因子分析需要構造因子模型，著重要求新變數具有實際的意義，能解釋原始變數間的內在結構。

（2）主成分分析僅僅是變數變換，是原始變數的線性組合表示新的綜合變數，強調新變數貢獻了多大比例的方差，不關心新變數是否有明確的實際意義。

聯繫：

兩者都是降維和信息濃縮的方法。

生成的新變數均代表了原始變數的大部分信息且互相獨立，都可以用於後續的回歸分析、判別分析、聚類分析等等。