標籤:

SPSS——相關分析

相關分析簡介

  • 相關分析的指標體系:對於任何類型的變數,都可用相應的指標進行相關關係的考察,測量相關程度的相關係數有很多。
  • (1)、連續變數的相關指標:

一般使用積差相關係數,即Pearson相關係數表示。其數值介於-1~1之間。當兩個變數間的相關性達到最大,散點呈一條直線是取值為±1,正負號表示相關的方向。如果兩變數無關,取值為0。

積差相關係數嚴格講只適用於兩變數呈線性關係,其有一定適用條件。當數據不滿足適用條件可考慮使用Spearman等級相關係數來解決。

  • (2)、有序變數的相關指標:

往往稱為「一致性」。指行變數等級高的列變數等級也高,行變數等級低的列變數等級也低。兩個指標的含義:當按兩個變數的取值列出交叉表後, P 代表兩倍的一致對子數, Q 代表兩倍不一致的對子數。一致對子數就是指行變數等級高的列變數等級也高。統計量:

Gamma統計量:描述有序分類數據聯繫強度的度量,介於-1~1之間。 gamma=frac{P-Q}{P+Q}

Kendalls Tau_b: tau=frac{P-Q}{frac{n(n-1)}{2}} ,在±1之間。在「相關」-「雙變數」中也有此值。

Kendalls Tau_c:在Kendalls Tau_b校正

Somers"d:略

  • (3)、名義變數的相關指標:(由卡方衍生)

列聯/相依係數(contingency coefficient):值0~1,越大表明兩變數間相關性越強。

Phi和Cramers V:phi的指標的絕對值越大,相關性越強。V的取值0~1之間

lambda 係數:反映自變數對因變數的預測效果。

不確定係數(uncertainty coefficient):其值介於0~1之間。反映當知道自變數後因變數 的不確定性下降多少比例

  • SPSS中相應的功能

(1)、交叉表:統計量的子對話框

(1)相關性(R)複選框:適用於兩個連續性變數的分析,計算行列變數的Pearson相關係數和Spearman相關係數

(2)「按區間標定」:包含一個變數為數值變數,另一個變數為分類變數時度量兩者關聯度的指標。Eta的平方表示「由組間差異所解釋的因變數的方差的比例」。即 frac{S_{組間}}{S_{總}} ,一共給出兩個Eta值:行變數為因變數和列變數為因變數的情況。

(3)「有序」複選框:反映分類變數一致性的指標,只能在兩個變數均屬於「有序分類」時使用。

(4)「名義」複選框:反映分類變數相關性的指標,在有序和無序分類是均可使用。但兩變數為有序時,採用「有序」複選框。

(5)「Kappa」:計算內部一致性係數。

(6)「風險」:計算OR值(比數比)和RR值(相對危險度)

(2)"相關」子菜單:(針對連續性變數的相關分析常用)

雙變數(bivariate)過程:進行「兩個/多個變數間的參數/非參數相關分析」。多個變數給出兩兩相關分析的結果。

偏相關(Partial)過程:對其他變數進行控制,輸出控制其他變數影響後的相關係數。

距離(Distance)過程:多用於因子分析、聚類分析和多維尺度分析的預分析。略


簡單相關分析

  1. 方法原理:

(1)直線相關:兩變數呈線性關係;

(2)曲線相關:存在相關趨勢,但並非線性;

(3)正相關和負相關:兩變數增加趨勢是否一致;

(4)完全相關:相關程度親密無間的程度。

註:當變數為有序變數或者名義變數時,一般不考慮直線、曲線相關問題。

2. 係數計算:

r=frac{l_{xy}}{sqrt{l_{xx}l_{yy}}}=frac{sum_{i=1}^{n}{frac{(X-bar{X})(Y-bar{Y})}{n-1}}}{sqrt{sum_{i=1}^{n}{(X-bar{X})^{2}}/n-1}sqrt{sum_{i=1}^{n}{(Y-bar{Y})^{2}}/n-1}}

r 取值-1~1,r>0,正相關;r<0,負相關; left| r right| 接近1,相關性好,接近哦,相關性差。

3.相關係數的檢驗方法:

相關係數計算後需對其進行檢驗,H0: rho=0 ,兩變數間無直線相關關係。主要是T檢驗。SPSS會給出相關係數值和最終的P值。

4.積差相關係數的適用條件:

首先:考慮兩變數是否可能存在相關關係。

(1)積差香瓜係數只適用線性相關的情形,對曲線相關等並不適用

(2)樣本極端值對積差相關係數的影響較大。要慎重,剔除或者變換

(3)積差相關係數要求相應變數呈雙變數正態分布。(較寬鬆)

其次:做散點圖

(1)看出是否存在相關趨勢;

(2)呈現線性趨勢還是曲線趨勢,是否可直接使用線性相關的積差相關係數;

(3)是否有明顯極端點。

案例:考察總信心指數值和年齡的相關性。

首先:變數均為連續變數,考慮使用兩個連續性變數的相關性指標。

其次:繪製散點圖(略)

對變數進行正態非參數檢驗:

正態性檢驗

兩則均不為正態,但由於條件3可放寬。因而採用Pearson和Spearman雙重檢驗。

步驟:「分析」——「相關」——「雙變數相關性」

結果:

pearson相關性結果

Spearman相關性結果

可以看出:給出相關係數、P值、樣本數。相關pearson係數為-0.219,Spearman相關係數為-0.213.且P值<0.05.所以:兩變數間的負相關是有統計學意義的,隨著年齡的增加,總指數呈現減少的趨勢。

註:Spearman等級相關係數,又稱秩相關係數,是利用兩變數的秩次大小進行線性相關分析的,對原始變數的分布不做要求,屬於非參數統計方法。

Kendall等級相關係數:在「交叉表」——「統計量」中。用於反映分類變數的相關性的指標,適用於兩個變數均為有序分類的情況。

注意:秩相關係數和等級相關係數(均丟失變數某些信息)的絕對值都小於積差相關係數。


偏相關分析

  1. 方法原理:

分析變數間的關係是,在計算積差相關係數,秩相關係數(spearman係數)、kendall等級相關係數是都沒考慮第三方的影響。偏相關分析指在相關的基礎上考慮兩因素以外的各種影響因數,重新來考察兩因素的關聯程度。

偏相關係數計算公式: r_{12(3)}=frac{r_{12}-r_{13}times r_{23}}{sqrt{1-r_{13}^{2}}times sqrt{1-r_{23}^{2}}}

r_{ij} 為變數i和j的相關係數。

2. 案列:控制家庭收入的影響後考察年齡對總指數的作用

首先:查看三個變數之間的相關性。

添加3個變數

兩兩之間的相關性

結果顯示:兩兩相關性都具有統計學意義。

其次:採用偏相關進行分析。

「分析」——「相關」——「偏相關」

偏相關輸入

結果:

偏相關分析的結果

控制變數QS9後,年齡和總指數之間偏相關係數為-0.216,且具有統計學意義。在控制家庭收入後,年齡和總指數之間仍存在負相關性。


Distance過程

不是很懂這塊,待續。。。就是沒有續集的意思

推薦閱讀:

關於SPSS和Excel有什麼書值得推薦?
因子分析的計算過程能否手算得出?

TAG:SPSS数据分析 |