回歸模型中的啞變數是個啥?何時需要設置啞變數?
在構建回歸模型時,如果自變數X為連續性變數,回歸係數β可以解釋為:在其他自變數不變的條件下,X每改變一個單位,所引起的因變數Y的平均變化量;如果自變數X為二分類變數,例如是否飲酒(1=是,0=否),則回歸係數β可以解釋為:其他自變數不變的條件下,X=1(飲酒者)與X=0(不飲酒者)相比,所引起的因變數Y的平均變化量。
但是,當自變數X為多分類變數時,例如職業、學歷、血型、疾病嚴重程度等等,此時僅用一個回歸係數來解釋多分類變數之間的變化關係,及其對因變數的影響,就顯得太不理想。
此時,我們通常會將原始的多分類變數轉化為啞變數,每個啞變數只代表某兩個級別或若干個級別間的差異,通過構建回歸模型,每一個啞變數都能得出一個估計的回歸係數,從而使得回歸的結果更易於解釋,更具有實際意義。
我們將分2期內容,向大家來介紹啞變數的相關知識,同時結合SPSS軟體的應用,來介紹在不同的回歸模型中如何設置啞變數。
啞變數
啞變數(Dummy Variable),又稱為虛擬變數、虛設變數或名義變數,從名稱上看就知道,它是人為虛設的變數,通常取值為0或1,來反映某個變數的不同屬性。對於有n個分類屬性的自變數,通常需要選取1個分類作為參照,因此可以產生n-1個啞變數。
將啞變數引入回歸模型,雖然使模型變得較為複雜,但可以更直觀地反映出該自變數的不同屬性對於因變數的影響,提高了模型的精度和準確度。
舉一個例子,如職業因素,假設分為學生、農民、工人、公務員、其他共5個分類,其中以「其他職業」作為參照,此時需要設定4啞變數X1-X4,如下所示:
X1=1,學生;X1=0,非學生;
X2=1,農民;X2=0,非農民;
X3=1,工人;X3=0,非工人;
X4=1,公務員;X4=0,非公務員;
那麼對於每一種職業分類,其賦值就可以轉化為以下形式:
什麼情況下需要設置啞變數
1. 對於無序多分類變數,引入模型時需要轉化為啞變數
舉一個例子,如血型,一般分為A、B、O、AB四個類型,為無序多分類變數,通常情況下在錄入數據的時候,為了使數據量化,我們常會將其賦值為1、2、3、4。
從數字的角度來看,賦值為1、2、3、4後,它們是具有從小到大一定的順序關係的,而實際上,四種血型之間並沒有這種大小關係存在,它們之間應該是相互平等獨立的關係。如果按照1、2、3、4賦值並帶入到回歸模型中是不合理的,此時我們就需要將其轉化為啞變數。
2. 對於有序多分類變數,引入模型時需要酌情考慮
例如疾病的嚴重程度,一般分為輕、中、重度,可認為是有序多分類變數,通常情況下我們也常會將其賦值為1、2、3(等距)或1、2、4(等比)等形式,通過由小到大的數字關係,來體現疾病嚴重程度之間一定的等級關係。
但需要注意的是,一旦賦值為上述等距或等比的數值形式,這在某種程度上是認為疾病的嚴重程度也呈現類似的等距或等比的關係。而事實上由於疾病在臨床上的複雜性,不同的嚴重程度之間並非是嚴格的等距或等比關係,因此再賦值為上述形式就顯得不太合理,此時可以將其轉化為啞變數進行量化。
3. 對於連續性變數,進行變數轉化時可以考慮設定為啞變數
對於連續性變數,很多人認為可以直接將其帶入到回歸模型中即可,但有時我們還需要結合實際的臨床意義,對連續性變數作適當的轉換。例如年齡,以連續性變數帶入模型時,其解釋為年齡每增加一歲時對於因變數的影響。但往往年齡增加一歲,其效應是很微弱的,並沒有太大的實際意義。
此時,我們可以將年齡這個連續性變數進行離散化,按照10歲一個年齡段進行劃分,如0-10、11-20、21-30、31-40等等,將每一組賦值為1、2、3、4,此時構建模型的回歸係數就可以解釋為年齡每增加10歲時對因變數的影響。
以上賦值方式是基於一個前提,即年齡與因變數之間存在著一定的線性關係。但有時候可能會出現以下情況,例如在年齡段較低和較高的人群中,某種疾病的死亡率較高,而在中青年人群中,死亡率卻相對較低,年齡和死亡結局之間呈現一個U字型的關係,此時再將年齡段賦值為1、2、3、4就顯得不太合理了。
因此,當我們無法確定自變數和因變數之間的變化關係,將連續性自變數離散化時,可以考慮進行啞變數轉換。
還有一種情況,例如將BMI按照臨床診斷標準分為體重過低、正常體重、超重、肥胖等幾種分類時,由於不同分類之間劃分的切點是不等距的,此時賦值為1、2、3就不太符合實際情況,也可以考慮將其轉化為啞變數。
如何選擇啞變數的參照組
在上面的內容中我們提到,對於有n個分類的自變數,需要產生n-1個啞變數,當所有n-1個啞變數取值都為0的時候,這就是該變數的第n類屬性,即我們將這類屬性作為參照。
例如上面提到的以職業因素為例,共分為學生、農民、工人、公務員、其他共5個分類,設定了4啞變數,其中職業因素中「其它」這個屬性,每個啞變數的賦值均為0,此時我們就將「其它」這個屬性作為參照,在最後進行模型解釋時,所有類別啞變數的回歸係數,均表示該啞變數與參照相比之後對因變數的影響。
在設定啞變數時,應該選擇哪一類作為參照呢?
1. 一般情況下,可以選擇有特定意義的,或者有一定順序水平的類別作為參照
例如,婚姻狀態分為未婚、已婚、離異、喪偶等情況,可以將「未婚」作為參照;或者如學歷,分為小學、中學、大學、研究生等類別,存在著一定的順序,可以將「小學」作為參照,以便於回歸係數更容易解釋。
2. 可以選擇臨床正常水平作為參照
例如,BMI按照臨床診斷標準分為體重過低、正常體重、超重、肥胖等類別,此時可以選擇「正常體重」作為參照,其他分類都與正常體重進行比較,更具有臨床實際意義。
3. 還可以將研究者所關注的重點類別作為參照
例如血型,分為A、B、O、AB四個類型,研究者更關注O型血的人,因此可以將O型作為參照,來分析其他血型與O型相比後對於結局產生影響的差異。
本期內容我們介紹了啞變數的相關基礎知識,認識了什麼是啞變數、什麼情況下需要轉化啞變數、以及如何選擇啞變數的參照等等。
在下期的內容中,我們將結合SPSS軟體,向大家介紹在回歸模型中何如實現啞變數的設置,並進一步對引入啞變數後的模型結果進行解讀。
(想要及時獲得更多內容可關注「醫咖會」微信公眾號:傳播研究進展,探討臨床研究設計與醫學統計學方法)
推薦閱讀:
※線性回歸分析的幾何解釋
※讀懂回歸分析結果-SPSS為例
※回歸模型中哪個自變數的作用更大?標準化回歸係數來解答!
※總是忘做檢驗的線性回歸(1)--內部檢驗
TAG:回歸分析 |