淺談主成分分析與因子分析
15 人贊了文章
主成分分析與因子分析有相似之處,也有明顯區別,以下是對主成分分析和因子分析進行的一個簡單比較。
- 主成分分析
- 基本思想
- 主成分幾何意義及求解
- 主成分分析優缺點
- 分析步驟
- 因子分析
- 基本思想
- 與主成分分析的區別和聯繫
- 分析步驟
【1】主成分分析——基本思想
主成分分析(Principal Component Analysis,PCA)通過將原始變數轉換為原始變數的線性組合(主成分),在保留主要信息的基礎上,達到簡化和降維的目的。
主成分與原始變數之間的關係:
- 主成分是原始變數的線性組合
- 主成分的數量相對於原始數量更少
- 主成分保留了原始變數的大部分信息
- 主成分之間相互獨立
【2】主成分分析——幾何意義及求解
通過旋轉變換,將分布在x1,x2坐標軸上的原始數據,轉換到F1,F2坐標軸表示的坐標繫上,使得數據在F1軸上離散程度最大,此時,可以忽略F2軸,僅通過F1軸就可以表示數據的大部分信息,從而達到降維的目的。
不同的線性變換,得到的Fi統計特性不同,為得到較好的效果,我們希望主成分之間相互獨立,同時方差儘可能得大,即
求解以上公式,得
因此,我們只需要對協方差矩陣∑求特徵值λ及特徵向量ui,即可構成主成分分析的解。
由此可知,主成分分析是把p個隨機變數的方差分解為p個不相關的隨機變數的方差和,使得第一個主成分的方差達到最大,其貢獻率等於其方差在全部主成分方差中的佔比。
主成分分析的一個關鍵問題是:主成分的個數選多少個比較合適?
有3個主要的衡量標準:
- 保留的主成分使得方差貢獻率達到80%以上
- 保留的主成分的方差(特徵值)大於1
- Cattell碎石檢驗繪製了關於各主成分及其特徵值的圖形,我們只需要保留圖形中變化最大之處以上的主成分即可
【3】主成分分析——優缺點
- 優點
- 不要求數據呈正態分布,主成分就是按數據離散程度最大的方向對基組進行旋轉,這特性擴展了其應用範圍,比如,用於人臉識別
- 通過對原始變數進行綜合與簡化,可以客觀地確定各個指標的權重,避免主觀判斷的隨意性
- 缺點
- 主成分分析適用於變數間有較強相關性的數據,若原始數據相關性弱,則起不到很好的降維作用
- 降維後,存在少量信息丟失,不可能包含100%原始數據
- 原始數據經過標準化處理之後,含義會發生變化,且主成分的解釋含義較原始數據比較模糊
- 假設標準化後的原始變數間存在多重共線性,即原始變數之間存在不可忽視的信息重疊,主成分分析不能有效剔除信息重疊
【4】主成分分析——分析步驟
- 主成分分析步驟:
- 選取初始變數
- 根據初始變數特性選擇使用協方差矩陣還是相關矩陣來求主成分
- 計算協方差矩陣或相關矩陣的特徵值和特徵向量
- 確定主成分個數
- 對主成分做經濟解釋,主成分的經濟意義由各線性組合中權重較大的幾個指標來確定
案例:對中國各個地區的經濟水平影響因素的分析。
分析前,先進行相關性檢驗,變數之間存在較強相關性,才能使用主成分分析方法。
具體步驟:
1)獲取初始數據,統一量綱,將數據進行標準化處理
2)計算相關係數矩陣,求得特徵值和特徵向量
3)確定主成分個數
4)提取主成分
5)將原數據分別按第一,第二,第三主成分得分排序,觀察各地區主要受哪個主成分影響
【5】因子分析——基本思想
因子分析(Factor Analysis,FA)是一種數據簡化技術,通過研究眾多變數之間的內部依賴關係,探求觀測數據的基本結構,並用少數幾個假想變數(因子)來表示原始數據。
因子能夠反映眾多原始變數的主要信息。
因子的特點:
- 因子個數遠遠少於原始變數個數
- 因子並非原始變數的簡單取捨,而是一種新的綜合
- 因子之間沒有線性關係
- 因子具有明確解釋性,可以最大限度地發揮專業分析的作用
【6】因子分析——例子
在市場調查中我們收集了食品的五項指標(x1~x5):味道、價格、風味、是否快餐、能量,經過因子分析,我們發現了:
- x1 = 0.02 * z1 + 0.99 * z2 + e1
- x2 = 0.94 * z1 - 0.01 * z2 + e2
- x3 = 0.13* z1 + 0.98 * z2 + e3
- x4 = 0.84 * z1 + 0.42 * z2 + e4
- x5 = 0.97 * z1 - 0.02 * z2 + e1
(數字代表實際變數間的相關係數,值越大,相關性越大)
第一個公因子z1主要與價格、是否快餐、能量有關,代表「價格與營養」;
第二個公因子z2主要與味道、風味有關,代表「口味」;
e1-5是特殊因子,是公因子中無法解釋的,在分析中一般略去。
【7】因子分析——分析步驟
因子分析步驟:
- 選擇分析變數
- 計算原始變數的相關係數矩陣
- 提取公因子
- 取方差(特徵值)大於0的因子
- 因子的累積方差貢獻率達到80%
- 因子旋轉
- 因子的實際意義更容易解釋
- 計算因子得分
案例分析步驟:
1)數據標準化處理,計算相關係數矩陣,求特徵值及特徵向量
2)確定因子個數
3)提取公共因子,使用fa()函數獲得相應結果
4)使用fa.diagram()函數繪製正交旋轉結果的圖形
【8】因子分析與主成分分析的比較
區別:
(1)因子分析需要構造因子模型,著重要求新變數具有實際的意義,能解釋原始變數間的內在結構。
(2)主成分分析僅僅是變數變換,是原始變數的線性組合表示新的綜合變數,強調新變數貢獻了多大比例的方差,不關心新變數是否有明確的實際意義。
聯繫:
兩者都是降維和信息濃縮的方法。
生成的新變數均代表了原始變數的大部分信息且互相獨立,都可以用於後續的回歸分析、判別分析、聚類分析等等。
推薦閱讀:
※天王星雲層與臭雞蛋有什麼共同之處?
※獵奇:一種看起來很塑料的星空矮牽牛
※科學家最新找到一種難以捉摸的DNA「纏結」
※中國12個大峽谷,最深最長最壯美最藝術的峽谷都在這了,你去過幾個!
※GB/T 2099 系列標準常見問題分析與探討 Q&A
TAG:自然科學 |