SPSS教程:手把手教你設置啞變數以及解讀結果

在上一期內容中,我們帶大家認識了回歸模型中的啞變數,介紹了什麼是啞變數,什麼情況下需要轉化啞變數,以及如何選擇啞變數的參照等內容。詳情請點擊:回歸模型中的啞變數是個啥?何時需要設置啞變數?

今天我們將結合SPSS軟體,向大家介紹在回歸模型中何如實現啞變數的設置,並對引入啞變數後的模型結果進行解讀

Logistic / Cox回歸

在SPSS中,Logistic回歸和Cox回歸設置啞變數的方式是一致的,因此本文以Logistic回歸為例進行說明。

一、研究實例

某研究人員擬探討不同種族人群中某疾病發病風險有無差異,收集了4種不同種族人群的相關數據資料(1=Black美國黑人,2=White美國白人,3=Indian美國印第安人,4=Asian亞裔美國人)。

根據數據類型判斷,種族為無序多分類資料,需要將種族轉化為啞變數後,進行Logistic回歸。

二、SPSS操作

1. Analyze → Regression → Binary Logistic,進入到Logistic回歸模塊

2. 將Event選入Dependent框中,將Gender、Age、Race選入Covariates框中

3. 點擊Categorical進入定義分類變數的對話框,將需要轉化的變數Race選入Categorical Covariates框中,點擊Contrast旁的下拉框選擇Indicator,Reference Category設置為First,即設定第一個分類為參照。

在本次研究中,Race=1為黑人,即我們選擇黑人作為參照。最後再點擊Change確認更改為Race(Indicator(first))。

在選擇啞變數編碼方式時,Contrast下拉選項一共提供了7種編碼方式:

(1) Indicator(指示對比):用於指定某一分類為參照,指定的參照取決於Reference Category中選擇Last還是First,即只能以該變數的第一類或者最後一類作為參照。Indicator為默認方法,也是我們最常用的設置參照類的方法

(2) Simple(簡單對比): Simple和Indicator兩個方法雖然參數編碼不同,但其實質是一樣的,均為各分類分別與參照進行相比。

(3) Difference(差異對比):即該分類變數的某個分類,與前面所有分類的平均值進行比較,此法與Helmert法相反,因此也叫做反Helmert法。此選項常用於有序分類變數。

(4) Helmert(赫爾默特對比):即該分類變數的某個分類,與其後面所有分類的平均值進行比較,同樣也適用於有序分類變數。

(5) Repeated(重複對比):即該分類變數的各個分類,均與前面相鄰的一個分類進行比較,此時前一分類為參照。

(6) Polynomial(多項式對比):它假設各個分類間隔是等距的,只能用於數值型的變數。(注意:如果此時原始變數為字元型,例如A、B、C、D,在SPSS中使用該方法時它會提示Polynomial contrasts may not be specified for string variables。而對於其他6種方法是允許原始變數是字元型,SPSS可以將其自動轉化為0或1形式的啞變數。)

(7) Deviation(偏差對比):即除參照外,其餘每一個分類都與總體水平相比,此時每個分類的回歸係數都是相對於總體水平而言的改變數。

4. 點擊Continue回到主對話框,再點擊OK完成操作。

三、結果解讀

1. 結果顯示, SPSS將 Race自動轉化為3個啞變數,分別為Race(1) (2) (3),代表白人、印第安人和亞裔人,參照為黑人。在α=0.05的檢驗水準下,Race(1) (2) (3) 回歸係數檢驗P值均<0.05,提示白人、印第安人和亞裔種族某疾病的發生風險均與黑人種族之間存在統計學差異。

2. 白人、印第安人和亞裔相對於黑人種族,其OR值和95% CI分別為0.247(0.102, 0.598)、0.181(0.070, 0.466)、0.132(0.049, 0.357),提示白人、印第安人和亞裔人中該疾病的發生風險均顯著低於黑人種族。

多重線性回歸

針對多重線性回歸,SPSS並沒有直接的選項來幫助我們設置啞變數,我們需要通過重新編碼的方式,手動將其轉換為啞變數。

一、研究實例

仍然以上面的研究實例進行介紹,某研究人員擬探討不同種族人群中BMI有無差異,收集了4種不同種族人群的相關數據資料(1=Black美國黑人,2=White美國白人,3=Indian美國印第安人,4=Asian亞裔美國人)。

根據數據類型判斷,種族為無序多分類資料,需要將種族轉化為啞變數後,進行多重線性回歸。

二、SPSS操作

1. Transform → Recode into Different Variables

將需要轉換為啞變數的Race因素選入Numeric Variable->Output Variable框中,在Name框中輸入轉變的第一個啞變數名字Race1,並點擊Change進行命名

2. 點擊Old and New Values進入重新編碼的對話框

在Old Value中的Value框中填寫1,在New Value中的Value框中填寫1,並點擊Add添加,得到1->1。

然後選擇Old Value中的All other values,在New Value中的Value框中填寫0,並點擊Add添加,得到ELSE->0

上述步驟表示將原有變數Race中第1分類,在啞變數Race1中賦值為1,將其他所有分類在啞變數Race1中賦值為0。

按照同樣的方法,我們可以生成Race2和Race3,共3個啞變數。如果覺得生成3個啞變數很麻煩,我們可以進入程序編輯頁面,編寫一條簡單的程序進行重新編碼賦值,如下圖所示。

賦值完成後,我們就可以在數據視圖界面看到新生成的3個啞變數。啞變數生成好後,我們就可以開始進行多重線性回歸了。(具體操作步驟參照前期推送的多重線性回歸的相關內容)

3. Analyze → Regression → Linear

將BMI選入Dependent框中,將Race1、Race2、Race3、Gender和Age一同選入Independent(s)框中,Method選擇Enter法,點擊OK完成操作。

三、結果解讀

1. 我們通過重新編碼將Race轉化為3個啞變數,分別為Race1、2、3,代表黑人、白人和印第安人,此時參照為亞裔人。在α=0.05的檢驗水準下,Race1、2、3回歸係數檢驗P值均<0.05,提示黑人、白人和印第安人的BMI均與亞裔人之間存在統計學差異。

2. 黑人、白人和印第安人與亞裔人相比,其β值和95% CI分別為1.543(0.163, 2.923)、2.331(0.996, 3.665)、1.585(0.208, 2.963),提示黑人、白人和印第安人的BMI要顯著高於亞裔人。

設置啞變數時的注意事項

1. 原則上啞變數在模型中應同進同出,也就是說在一個模型中,如果同一個分類變數的不同啞變數,出現了有些啞變數有統計學顯著性,有些無統計學顯著性的情況下,為了保證所有啞變數代表含義的正確性,應當在模型中納入所有的啞變數。

因此,我們在引入啞變數進入模型時,需選擇Enter強制進入法,以保證所有啞變數都能保留在最後的模型中。

2. 上一期內容中我們介紹了如何選擇參照,但需要注意的是,被選為參照的那一類分組,應該保證有一定的樣本量。如果參照組樣本量太少,則將會導致其他分類與參照相比時,參數估計的標準誤較大,可信區間較大,精度降低,會出現估計參數極大或極小的現象。

相信通過兩期內容的學習,大家對於啞變數應該有了一定的認識,如果還有什麼問題,歡迎各位小夥伴來留言探討,和小咖一起學習進步。

(想要及時獲得更多內容可關注「醫咖會」微信公眾號:傳播研究進展,探討臨床研究設計與醫學統計學方法)


推薦閱讀:

面壁者系列:Logistic回歸
SPSS學習筆記:因變數二分類資料的logistic回歸分析

TAG:SPSS | Logistic回歸 | 線性回歸 |