標籤:

讀懂回歸分析結果-SPSS為例

回歸分析,方差分析是統計學入門的常開課程。導入數據,輸出結果,談論一下數據顯著性,然後就結束了,貌似意猶未竟。我們一起來回顧和再次讀一下回歸分析,看看回歸到底能做什麼?

回顧:回歸分析的理論思考

選擇恰當的線性回歸模型,不是一件容易的事情。因為我們面對的世界有很多可變的因素,而這些因素如何互相作用也比較複雜。僅僅用一種模型對收集到的數據(樣本)描述,進而去模擬大千世界的各個問題,這的確是不可能的任務。不過,統計模型還是給了我們一些幫助。尤其是在一個大數據當道的今天。

簡單來說,選擇一種模型就是用數學方式來描述一些變數和另外一個變數的關係。研究團隊可能會對這些變數逐一去調查,然後確定是否放到模型中去,基本思路是對很多變數的數據進行測量,然後只篩選那些有關的放到模型中去。這個過程,需要我們考慮很多模型,到底在模型中應該包括多少個變數?

太少:模型太單一,會造成有偏差的估計;

太多:模型過於龐雜,也會造成估計不準;

不多不少:模型包括了適當數目的變數,沒有造成偏見,可以最大化的做出了準確估計

下面的例子是200個高中學生的科學、數學、閱讀和社會科學四門課程的成績,還有一個是性別女1,男0。我們提出的模型是學生的數學、閱讀、社會科學以及性別為自變數x1-x4,而科學成績為應變數y, 常量為 b_{0} 。 簡單用個公式來表示

Y{predicted} = b_{0} +b_{1} x_{1}+b_{2} x_{2}+b_{3} x_{3}+b_{4} x_{4}

或者表示為

科學成績{ 估計值} = 常量_{0} +b_{1} 數學分數 + b_{2}性別 + b_{3}社會科學分數+b_{4}閱讀分數

提出這個模型後,我們就需要把所有分數值,男女性別等放到這個模型,回歸模型就會去估計b0-b4在這個公式中的值。其中b0為常量,也就是當公式右邊x的值為零的情況下,科學成績的估計值就等於這個常量b0。

get file "c:hsb2.sav".regression /statistics coeff outs r anova ci /dependent science /method = enter math female socst read.

當這段代碼在SPSS 運行,或者在圖形界面拖放後,你會得到如下4個表格

第一個表格:哪些變數放進或移出了模型?

Model -模型:SPSS 可以在一次分析過程中指定多個模型。那麼這個表格告訴你使用哪些模型。

Variable Entered- 放進模型的變數: SPSS允許多種形式把變數放進模型- blocks模塊, 分步驟回歸(放還是不放?)等。所以要清楚哪些變數放進了模型,如果不指定的話,SPSS 會把所有變數都列出來。

Variable Removed -移除了的變數: 這一步是上一步的相反步驟,一般會列出那些變數沒有包括在模型中。如果沒有的話,說明你使用了分步驟回歸的方式。

Method -方法:這是說變數用那種方式放進模型

第二個表格:總體模型和數據擬合的怎麼樣?

Model - 模型: 和第一個表格一樣,SPSS 可以在一次分析過程中指定多個模型。那麼這個表格告訴你使用哪些模型。

R- R-Squared 的平方根,它反映了觀察值和預測值之間的相關性。或者我們稱之為相關係數,這裡是 .699, 如果我們理解為0-1,也就是說我們模型中的自變數和應變數的相關性達到了0.699。

R-Squared-R平方值: 它反映了 通過變數(數學,科學和閱讀成績,以及性別女性)能夠對結果變數的方差變化做出多少比例的解釋。比如.489就是說總體而言,這些變數和科學成績方差變化的關係為.489, 即科學成績變化有48.9%可以通過其他成績來解釋,或有關係。

Adjusted R-square -調整R平方值:這是對於模型增加了extraneous 變數的一種調整(懲罰?),它是通過來計算

R^{2}_adjusted=1- frac{(1-R^{2})(N-1)}{N-P-1}

N 樣本量,在這裡是200個學生,

P 自變數,這裡是4

那麼我們來計算一下

Adjusted R-square -調整R平方值 = 1- frac{(1-0.489)(200-1)}{200-4-1} ,結果是0.4785,即.479

Std.Error of the Estimate- 估計標準誤:模型誤差部分的標準方差,即ANOVA方差表中的Resicuals(殘量)平方均值的平方根。

第三個表:方差分析表

Model-模型:這裡有三部分方差組成

Regression 回歸部分的方差

Residual 殘量部分的方差

Total 所有方差的和

Sum of Squares 平方的和:

DF-自由度:樸素的理解就是你可以選擇的自由度。比如你晚飯可以吃米飯,也可以吃麵條,當你選擇了米飯,你就確定了一個選擇,而剩下的就沒有變化了,所以當有2個變數的時候,你的自由度就可以認定為1。當我們的樣本為200人的時候,200人中哪些人的成績可以進入模型來計算呢?這就是一個選擇,這種情況下,要計算數據的方差變化,那麼200個樣本的自由度就是200-1=199。回歸分析的自由度和有多少個估計的係數有關,比如這個模型,包括常量(intercept b0),和4個自變數,總共有5個係數,所以模型的自由度為5-1=4。 而錯誤或者殘差部分自由度,就是樣本的自由度199減去模型自由度4,結果為199-4=195。

Mean Square-平均平方值-即所有平方的和減去對應的自由度

F and Sig- F-統計值和P-值:F值是(回歸)平方平均值和(殘量)平方平均值的比例關係或比值:這裡2385.93/51.096 =46.695。P值,是和顯著水平alpha(0.05或0.01)比較來檢驗假設。更多關於p值和顯著水平,

blog.minitab.com/blog/a

先寫到這裡。。。。未完待續。

參考:

SPSS Annotated Output Regression Analysis - IDRE Stats


推薦閱讀:

TAG:回歸分析 |