多重線性回歸模型構建好啦,咋進行預測?不要告訴我你只會手算!

在前面兩期內容中,我們已經詳細介紹了多重線性回歸的適用條件,SPSS操作實現過程,並對輸出結果進行了詳細解讀。詳見:

SPSS實例教程:多重線性回歸,你用對了么?

多重線性回歸的結果解讀和報告(SPSS實例教程)

在構建多重線性回歸模型後,我們往往需要根據回歸模型來估計和預測因變數的值及其變化,這一期內容我們就來詳細地為大家介紹一下如何利用回歸模型進行預測,以及SPSS軟體的操作實現過程。

一、研究問題

結合前兩期的研究實例,我們利用多重線性回歸模型探討了年齡,體重,心率和性別對VO2 max的影響,回歸方程如下:

VO2 max = 87.83 – 0.165 * age – 0.385 * weight – 0.118 * heart_rate + 13.208 * gender

那麼在不易直接測得VO2 max的情況下,如何通過一個人的年齡,體重,心率及性別,來預測其VO2 max及95%可信區間呢?

現在我們假設有一名30歲的男性,體重80kg,心率120次/min,需要根據回歸模型來預測他的VO2 max。

二、公式計演算法

很簡單,現在既然已經有了回歸模型的公式,又已知該研究者的各項參數,我們第一個想到的方法就是將各個參數帶入方程,直接進行計算即可,如下:

VO2 max=87.83 – 0.165 * 30 – 0.385 * 80 – 0.118 * 120 + 13.208 * 1=51.128ml/min/kg

當然,帶入回歸方程計算很直觀也很簡單,但是方程計算的結果只能對其點值進行預測,無法估算其95%可信區間。而且當方程較為複雜,參數較多時,方程計算就會顯得繁瑣而效率低下,我們還是希望能夠藉助統計軟體,來幫助我們自動實現這一預測過程。

三、SPSS軟體實現

既然我們有SPSS這樣簡單又好用的神器,就可以省掉手工計算的麻煩,所有的計算過程都可以交給SPSS來實現,下面我們就來介紹一下如何利用SPSS軟體來實現基於多重線性回歸模型的個體預測功能。

1. 選擇Analyze → General Linear Model → Univariate

在Univariate對話框中,將VO2 max選入Dependent Variable,將age,weight,heart_rate,gender選入Covariate(s)中。

2. 點擊Paste,進入IBM SPSS Statistics Syntax Editor界面,也就是SPSS的語法編輯界面。

什麼?SPSS也可以編輯語法?其實也不必感到驚訝,SPSS作為IBM旗下的專業統計軟體,語法編輯也不是什麼新鮮事物,雖然它不像SAS,R軟體的語法功能那樣強大,我們也不用去掌握它的語法結構,其實只需要知道如何更改它的參數,就可以在日常的統計分析工作中,省去很多重複性的操作,帶來很多的便利。

下面我們就對SPSS自動生成的這段語法代碼進行小小的修改,以達到我們想要基於多重線性回歸模型實現預測的目的。

在這裡需要用到LMATRIX這個命令,在/CRITERIA和/DESIGN兩行代碼之間插入一行代碼,如下:

/LMATRIX=ALL 1 30 80 120 1

下面我們對這段代碼進行一個簡單的解釋,幫助大家來理解。

LMATRIX:該命令表示允許在多重線性回歸中輸入每個自變數的值來進行預測。

LMATRIX=ALL:表示利用截距和所有自變數來進行多重回歸模型的預測。All後面的1表示SPSS進行預測計算時要求包含截距項。

30 80 120 1分別對應的是各個自變數的參數,即age(30歲),weight(80kg),heart_rate(120次/min),性別(男性=1)。注意此處所列參數的順序一定要與/DESIGN這一行自變數的順序保持一致。

3. 選擇Run → All或者用滑鼠選中所有語法,點擊上方的綠色三角形,表示運行選中的代碼。

4. 結果解讀

在輸出結果的Contrast Results(K Matrix)表格中,Contrast Estimate顯示了VO2 max的預測值為51.162 ml/min/kg,95%CI為(48.988,53.336)ml/min/kg。

我們發現SPSS軟體計算的預測值51.162比我們之前利用方程手工計算所得的51.128稍微大一點,這是因為在上面的回歸方程中,各個自變數的偏回歸係數均只保留了3位小數,而SPSS在計算過程中則利用了更加精確的小數位數。

因此當方程較為複雜,手工計算較為繁瑣的情況下,我們還是建議利用SPSS計算過程來實現更加精確的預測結果。

5. 結論

一名30歲的男性,體重80kg,心率120次/min,根據所構建的多重線性回歸模型,其VO2 max的預測值為51.162 ml/min/kg,95%CI為(48.988,53.336)ml/min/kg。

四、問題與思考

自此,關於多重線性回歸,我們已經介紹了它的適用條件,SPSS操作過程,條件驗證和結果解讀,以及利用模型進行預測。但是在實際的研究中,我們收集的數據往往很難同時滿足所有的適用條件,當其中一個或幾個條件不成立時,是否還能繼續使用多重線性回歸模型呢?面對這種情況又該如何進行處理呢?我們將在後面的內容中進行詳細介紹。

(更多內容可關注「醫咖會」微信公眾號:傳播醫學知識和研究進展,探討臨床研究方法學。)

推薦閱讀:

TAG:統計 | 醫學 | 科研 |