回歸模型中哪個自變數的作用更大?標準化回歸係數來解答!

在前期內容中,我們介紹了如何對數據進行標準化處理,將原始的連續型變數轉化為一個無量綱的標準化數值,消除不同變數之間因性質、量綱、數量級等屬性的差異而帶來的影響,從而使不同變數的效應大小具有可比性,因此數據的標準化處理在實際的統計分析中也得到了較為廣泛的應用。

那麼,提到不同變數的效應大小,大家一定會聯想到在多因素回歸模型中所得到的回歸係數。例如,我們假設自變數分別為身高和體重,根據回歸係數很容易就知道每增加1cm的身高或每增加1kg的體重,引起的對因變數Y的影響大小,但是兩者相比之下,到底誰的作用大誰的作用小呢?

原始的回歸係數已經無法回答這樣的問題,我們需要藉助標準化回歸係數來進行判斷,今天我們就來向大家介紹一下,在回歸模型中這個標準化回歸係數到底是個什麼鬼?

標準化回歸係數 VS 未標準化回歸係數

1、未標準化回歸係數

通常我們在構建多因素回歸模型時,方程中呈現的是未標準化回歸係數,它是方程中不同自變數對應的原始的回歸係數。它反映了在其他因素不變的情況下,該自變數每變化一個單位對因變數的作用大小。通過未標準化回歸係數和常數項構建的方程,便可以對因變數進行預測,並得出結論。

2、標準化回歸係數

而對於標準化回歸係數,它是在對自變數和因變數同時進行標準化處理後所得到的回歸係數,數據經過標準化處理後消除了量綱、數量級等差異的影響,使得不同變數之間具有可比性,因此可以用標準化回歸係數來比較不同自變數對因變數的作用大小。

通常我們主要關注的是標準化回歸係數的絕對值大小,絕對值越大,可認為它對因變數的影響就越大。

3、兩者的區別

未標準化回歸係數體現的是自變數變化對因變數的絕對作用大小,而標準化回歸係數反映的是不同自變數對因變數的相對作用大小,可以顯示出不同自變數對因變數影響的重要性。

如果用標準化回歸係數構建方程,得到的結論是有偏差的,因為此時自變數和因變數的數據都發生了轉化,成為了標準化數據,因此標準化回歸係數不能用於構建回歸方程

標準化回歸係數 VS 每變化1個標準差的回歸係數

我們在前期文章《回歸模型中引入連續變數,還有哪些玩法?》中,介紹到對於連續型變數,在納入多因素回歸模型中時,可以將其轉變為每變化1個標準差的形式,具體的操作方法是對原始的自變數進行標準化處理,然後再帶入到回歸模型中,所得到的回歸係數即為該自變數每變化1個標準差對應的回歸係數。

那麼,我們假設此時有兩個自變數,一個自變數的標準差為1,另一個自變數的標準差為100,兩者對因變數都具有一定的影響。如果用上述每增加1個標準差對應的回歸係數,來判斷哪個自變數對因變數的影響更大的話,當同樣變化1個標準差時,第一個自變數只需要改變1個單位,而第二個自變數則需要改變100個單位,因此標準差大的自變數改變起來就顯得比較困難。此時,我們就需要用標準化回歸係數來救場。

每增加1個標準差對應的回歸係數,反映的是自變數每變化1個標準差時對因變數原始值變化產生的影響。而標準化回歸係數,它反映的是自變數每變化1個標準差時,對因變數變化1個標準差產生的影響。

在計算每增加1個標準差對應的回歸係數時,我們只需要對原始自變數進行標準化處理;而如果要計算標準化回歸係數,則需要對原始的自變數和因變數同時進行標準化處理,標準化為標準正態分布對應的值後再構建回歸模型。

SPSS操作

一、研究實例

某研究人員收集了100名研究對象的最大攝氧量(VO2 max),並記錄了他們的年齡、體重、心率等信息,擬探討年齡、體重、心率對VO2 max的作用大小,同時評價上述哪一個因素對VO2 max的影響作用更大。

二、操作步驟

1、多重線性回歸

(操作步驟參考文章《SPSS實例教程:多重線性回歸,你用對了么?》)

根據多重線性回歸分析的結果,回歸方程可寫為:

VO2 max = 72.581 – 0.188 * age – 0.184 * weight – 0.059 * heart_rate

其實不難發現,在SPSS的回歸結果中,不僅展示了未標準化回歸係數(Unstandardized Coefficients),同時也得出了標準化回歸係數(Standardized Coefficients)。

注意,未標準化回歸係數更大的自變數,其標準化回歸係數不一定更大。例如本例中,age的未標準化回歸係數絕對值為0.188,大於weight的絕對值0.184,但是weight的標準化回歸係數絕對值為0.325,卻大於age的標準化回歸係數絕對值0.200,說明weight對於VO2 max的影響較age更大。

2、數據標準化處理

(操作步驟參考前期推送文章《你聽說過數據標準化處理嗎?》)

雖然SPSS在回歸結果中可以直接輸出標準化回歸係數,但為了加深對它的理解,我們可以親自對數據進行一遍標準化處理,對上述結果進行一下驗證。

Analyze → Descriptive Statistics → Descriptives → Save standardized values as variables

通過上述步驟分別生成4個標準化處理後的新變數。

3、標準化回歸係數

在進行多重線性回歸時,以VO2 max的標準化形式作為因變數,以age、 weight、 heart_rate的標準化形式作為自變數構建模型。結果發現,所得的結果與上述結果一致。

相互轉換關係

今天我們介紹了未標準化回歸係數、每變化1個標準差的回歸係數、以及標準化回歸係數,最後再跟大家補充一下三者之間的相互轉換關係。

每變化1個標準差的回歸係數 = 未標準化回歸係數 * 該自變數的標準差

標準化回歸係數 = 未標準化回歸係數 * 該自變數的標準差 / 因變數的標準差

大家可以根據上述轉換關係自行進行驗證哈。

哦,對了,細心的同學會發現,在SPSS中多重線性回歸可以直接輸出標準化回歸係數,但是在logistic回歸中,SPSS只能輸出原始的未標準化的回歸係數,如果我們想要計算logistic回歸的標準化回歸係數,比較不同自變數對因變數的相對作用大小,應該怎麼辦呢?

根據上述標準化回歸係數的轉換關係,在logistic回歸中隨機變數分布函數的標準差為π / √3 = 1.8138[1],故標準化回歸係數 = 未標準化回歸係數 * 該自變數的標準差 / 1.8138,即可計算logistic回歸的標準化回歸係數。

參考文獻

[1] 宋娜. 多元Logistic分布及其參數估計[D]. 北京工業大學, 2007.

(想要及時獲得更多內容可關注「醫咖會」微信公眾號:傳播研究進展,探討臨床研究設計與醫學統計學方法)

推薦閱讀:

產出不高 ?你可能缺一套個人標準化操作程序

TAG:回歸分析 | SPSS | 標準化 |