標籤:

淺談主成分分析與因子分析

淺談主成分分析與因子分析

15 人贊了文章

主成分分析與因子分析有相似之處,也有明顯區別,以下是對主成分分析和因子分析進行的一個簡單比較。

  • 主成分分析
    • 基本思想
    • 主成分幾何意義及求解
    • 主成分分析優缺點
    • 分析步驟
  • 因子分析
    • 基本思想
    • 與主成分分析的區別和聯繫
    • 分析步驟

【1】主成分分析——基本思想

主成分分析(Principal Component Analysis,PCA)通過將原始變數轉換為原始變數的線性組合(主成分),在保留主要信息的基礎上,達到簡化和降維的目的。

主成分與原始變數之間的關係:

  1. 主成分是原始變數的線性組合
  2. 主成分的數量相對於原始數量更少
  3. 主成分保留了原始變數的大部分信息
  4. 主成分之間相互獨立

【2】主成分分析——幾何意義及求解

通過旋轉變換,將分布在x1,x2坐標軸上的原始數據,轉換到F1,F2坐標軸表示的坐標繫上,使得數據在F1軸上離散程度最大,此時,可以忽略F2軸,僅通過F1軸就可以表示數據的大部分信息,從而達到降維的目的。

不同的線性變換,得到的Fi統計特性不同,為得到較好的效果,我們希望主成分之間相互獨立,同時方差儘可能得大,即

求解以上公式,得

因此,我們只需要對協方差矩陣∑求特徵值λ及特徵向量ui,即可構成主成分分析的解。

由此可知,主成分分析是把p個隨機變數的方差分解為p個不相關的隨機變數的方差和,使得第一個主成分的方差達到最大,其貢獻率等於其方差在全部主成分方差中的佔比。

主成分分析的一個關鍵問題是:主成分的個數選多少個比較合適?

有3個主要的衡量標準:

  1. 保留的主成分使得方差貢獻率達到80%以上
  2. 保留的主成分的方差(特徵值)大於1
  3. Cattell碎石檢驗繪製了關於各主成分及其特徵值的圖形,我們只需要保留圖形中變化最大之處以上的主成分即可

【3】主成分分析——優缺點

  • 優點
    • 不要求數據呈正態分布,主成分就是按數據離散程度最大的方向對基組進行旋轉,這特性擴展了其應用範圍,比如,用於人臉識別
    • 通過對原始變數進行綜合與簡化,可以客觀地確定各個指標的權重,避免主觀判斷的隨意性
  • 缺點
    • 主成分分析適用於變數間有較強相關性的數據,若原始數據相關性弱,則起不到很好的降維作用
    • 降維後,存在少量信息丟失,不可能包含100%原始數據
    • 原始數據經過標準化處理之後,含義會發生變化,且主成分的解釋含義較原始數據比較模糊
    • 假設標準化後的原始變數間存在多重共線性,即原始變數之間存在不可忽視的信息重疊,主成分分析不能有效剔除信息重疊

【4】主成分分析——分析步驟

  • 主成分分析步驟:
    • 選取初始變數
    • 根據初始變數特性選擇使用協方差矩陣還是相關矩陣來求主成分
    • 計算協方差矩陣或相關矩陣的特徵值和特徵向量
    • 確定主成分個數
    • 對主成分做經濟解釋,主成分的經濟意義由各線性組合中權重較大的幾個指標來確定

案例:對中國各個地區的經濟水平影響因素的分析。

分析前,先進行相關性檢驗,變數之間存在較強相關性,才能使用主成分分析方法。

具體步驟:

1)獲取初始數據,統一量綱,將數據進行標準化處理

2)計算相關係數矩陣,求得特徵值和特徵向量

3)確定主成分個數

4)提取主成分

5)將原數據分別按第一,第二,第三主成分得分排序,觀察各地區主要受哪個主成分影響

【5】因子分析——基本思想

因子分析(Factor Analysis,FA)是一種數據簡化技術,通過研究眾多變數之間的內部依賴關係,探求觀測數據的基本結構,並用少數幾個假想變數(因子)來表示原始數據。

因子能夠反映眾多原始變數的主要信息。

因子的特點:

  • 因子個數遠遠少於原始變數個數
  • 因子並非原始變數的簡單取捨,而是一種新的綜合
  • 因子之間沒有線性關係
  • 因子具有明確解釋性,可以最大限度地發揮專業分析的作用

【6】因子分析——例子

在市場調查中我們收集了食品的五項指標(x1~x5):味道、價格、風味、是否快餐、能量,經過因子分析,我們發現了:

  • x1 = 0.02 * z1 + 0.99 * z2 + e1
  • x2 = 0.94 * z1 - 0.01 * z2 + e2
  • x3 = 0.13* z1 + 0.98 * z2 + e3
  • x4 = 0.84 * z1 + 0.42 * z2 + e4
  • x5 = 0.97 * z1 - 0.02 * z2 + e1

(數字代表實際變數間的相關係數,值越大,相關性越大)

第一個公因子z1主要與價格、是否快餐、能量有關,代表「價格與營養」;

第二個公因子z2主要與味道、風味有關,代表「口味」;

e1-5是特殊因子,是公因子中無法解釋的,在分析中一般略去。

【7】因子分析——分析步驟

因子分析步驟:

  • 選擇分析變數
  • 計算原始變數的相關係數矩陣
  • 提取公因子
    • 取方差(特徵值)大於0的因子
    • 因子的累積方差貢獻率達到80%
  • 因子旋轉
    • 因子的實際意義更容易解釋
  • 計算因子得分

案例分析步驟:

1)數據標準化處理,計算相關係數矩陣,求特徵值及特徵向量

2)確定因子個數

3)提取公共因子,使用fa()函數獲得相應結果

4)使用fa.diagram()函數繪製正交旋轉結果的圖形

【8】因子分析與主成分分析的比較

區別:

(1)因子分析需要構造因子模型,著重要求新變數具有實際的意義,能解釋原始變數間的內在結構。

(2)主成分分析僅僅是變數變換,是原始變數的線性組合表示新的綜合變數,強調新變數貢獻了多大比例的方差,不關心新變數是否有明確的實際意義。

聯繫

兩者都是降維和信息濃縮的方法。

生成的新變數均代表了原始變數的大部分信息且互相獨立,都可以用於後續的回歸分析、判別分析、聚類分析等等。


推薦閱讀:

天王星雲層與臭雞蛋有什麼共同之處?
獵奇:一種看起來很塑料的星空矮牽牛
科學家最新找到一種難以捉摸的DNA「纏結」
中國12個大峽谷,最深最長最壯美最藝術的峽谷都在這了,你去過幾個!
GB/T 2099 系列標準常見問題分析與探討 Q&A

TAG:自然科學 |