標籤：

SPSS數據分析

SPSS——相關分析

02-05

相關分析簡介

相關分析的指標體系：對於任何類型的變數，都可用相應的指標進行相關關係的考察，測量相關程度的相關係數有很多。
（1）、連續變數的相關指標：

一般使用積差相關係數，即Pearson相關係數表示。其數值介於-1~1之間。當兩個變數間的相關性達到最大，散點呈一條直線是取值為±1，正負號表示相關的方向。如果兩變數無關，取值為0。

積差相關係數嚴格講只適用於兩變數呈線性關係，其有一定適用條件。當數據不滿足適用條件可考慮使用Spearman等級相關係數來解決。

（2）、有序變數的相關指標：

往往稱為「一致性」。指行變數等級高的列變數等級也高，行變數等級低的列變數等級也低。兩個指標的含義：當按兩個變數的取值列出交叉表後， $P$ 代表兩倍的一致對子數， $Q$ 代表兩倍不一致的對子數。一致對子數就是指行變數等級高的列變數等級也高。統計量：

Gamma統計量：描述有序分類數據聯繫強度的度量，介於-1~1之間。 $gamma=frac{P-Q}{P+Q}$
Kendalls Tau_b： $tau=frac{P-Q}{frac{n（n-1）}{2}}$ ，在±1之間。在「相關」-「雙變數」中也有此值。

Kendalls Tau_c：在Kendalls Tau_b校正
Somers"d：略

（3）、名義變數的相關指標：（由卡方衍生）

列聯/相依係數（contingency coefficient）：值0~1，越大表明兩變數間相關性越強。
Phi和Cramers V：phi的指標的絕對值越大，相關性越強。V的取值0~1之間
$lambda$ 係數：反映自變數對因變數的預測效果。
不確定係數（uncertainty coefficient）：其值介於0~1之間。反映當知道自變數後因變數的不確定性下降多少比例

SPSS中相應的功能

（1）、交叉表：統計量的子對話框

（1）相關性（R）複選框：適用於兩個連續性變數的分析，計算行列變數的Pearson相關係數和Spearman相關係數。
（2）「按區間標定」：包含一個變數為數值變數，另一個變數為分類變數時度量兩者關聯度的指標。Eta的平方表示「由組間差異所解釋的因變數的方差的比例」。即 $frac{S_{組間}}{S_{總}}$ ，一共給出兩個Eta值：行變數為因變數和列變數為因變數的情況。
（3）「有序」複選框：反映分類變數一致性的指標，只能在兩個變數均屬於「有序分類」時使用。
（4）「名義」複選框：反映分類變數相關性的指標，在有序和無序分類是均可使用。但兩變數為有序時，採用「有序」複選框。

（5）「Kappa」：計算內部一致性係數。
（6）「風險」：計算OR值（比數比）和RR值（相對危險度）

（2）"相關」子菜單:(針對連續性變數的相關分析常用）

雙變數（bivariate）過程：進行「兩個/多個變數間的參數/非參數相關分析」。多個變數給出兩兩相關分析的結果。
偏相關（Partial）過程：對其他變數進行控制，輸出控制其他變數影響後的相關係數。
距離(Distance)過程：多用於因子分析、聚類分析和多維尺度分析的預分析。略

簡單相關分析

方法原理：

（1）直線相關：兩變數呈線性關係；
（2）曲線相關：存在相關趨勢，但並非線性；
（3）正相關和負相關：兩變數增加趨勢是否一致；
（4）完全相關：相關程度親密無間的程度。
註：當變數為有序變數或者名義變數時，一般不考慮直線、曲線相關問題。

2. 係數計算：

$r=frac{l_{xy}}{sqrt{l_{xx}l_{yy}}}=frac{sum_{i=1}^{n}{frac{(X-bar{X})(Y-bar{Y})}{n-1}}}{sqrt{sum_{i=1}^{n}{(X-bar{X})^{2}}/n-1}sqrt{sum_{i=1}^{n}{(Y-bar{Y})^{2}}/n-1}}$

$r$ 取值-1~1，r>0,正相關；r<0，負相關； $left| r right|$ 接近1，相關性好，接近哦，相關性差。

3.相關係數的檢驗方法：

相關係數計算後需對其進行檢驗，H0： $rho=0$ ，兩變數間無直線相關關係。主要是T檢驗。SPSS會給出相關係數值和最終的P值。

4.積差相關係數的適用條件：

首先：考慮兩變數是否可能存在相關關係。
（1）積差香瓜係數只適用線性相關的情形，對曲線相關等並不適用
（2）樣本極端值對積差相關係數的影響較大。要慎重，剔除或者變換
（3）積差相關係數要求相應變數呈雙變數正態分布。（較寬鬆）
其次：做散點圖
（1）看出是否存在相關趨勢；

（2）呈現線性趨勢還是曲線趨勢，是否可直接使用線性相關的積差相關係數；
（3）是否有明顯極端點。

案例：考察總信心指數值和年齡的相關性。

首先：變數均為連續變數，考慮使用兩個連續性變數的相關性指標。

其次：繪製散點圖（略）

對變數進行正態非參數檢驗：

正態性檢驗

兩則均不為正態，但由於條件3可放寬。因而採用Pearson和Spearman雙重檢驗。

步驟：「分析」——「相關」——「雙變數相關性」

結果：

pearson相關性結果

Spearman相關性結果

可以看出：給出相關係數、P值、樣本數。相關pearson係數為-0.219，Spearman相關係數為-0.213.且P值＜0.05.所以：兩變數間的負相關是有統計學意義的，隨著年齡的增加，總指數呈現減少的趨勢。

註：Spearman等級相關係數，又稱秩相關係數，是利用兩變數的秩次大小進行線性相關分析的，對原始變數的分布不做要求，屬於非參數統計方法。

Kendall等級相關係數：在「交叉表」——「統計量」中。用於反映分類變數的相關性的指標，適用於兩個變數均為有序分類的情況。

注意：秩相關係數和等級相關係數（均丟失變數某些信息）的絕對值都小於積差相關係數。

偏相關分析

方法原理：

分析變數間的關係是，在計算積差相關係數，秩相關係數（spearman係數）、kendall等級相關係數是都沒考慮第三方的影響。偏相關分析指在相關的基礎上考慮兩因素以外的各種影響因數，重新來考察兩因素的關聯程度。

偏相關係數計算公式： $r_{12(3)}=frac{r_{12}-r_{13}times r_{23}}{sqrt{1-r_{13}^{2}}times sqrt{1-r_{23}^{2}}}$

$r_{ij}$ 為變數i和j的相關係數。

2. 案列：控制家庭收入的影響後考察年齡對總指數的作用

首先：查看三個變數之間的相關性。

添加3個變數

兩兩之間的相關性

結果顯示：兩兩相關性都具有統計學意義。

其次：採用偏相關進行分析。

「分析」——「相關」——「偏相關」

偏相關輸入

結果：

偏相關分析的結果

控制變數QS9後，年齡和總指數之間偏相關係數為-0.216，且具有統計學意義。在控制家庭收入後，年齡和總指數之間仍存在負相關性。

Distance過程

不是很懂這塊，待續。。。就是沒有續集的意思

推薦閱讀：

※關於SPSS和Excel有什麼書值得推薦？
※因子分析的計算過程能否手算得出？

TAG:SPSS数据分析 |