怎麼看懂Excel線性回歸參數（上）

09-10

怎麼看懂Excel線性回歸參數（上）

7 人贊了文章

雖然之前用python做線性回歸的時候看上去好像很簡單，但是直到我在excel上實踐了線性回歸，發現有很多指標值得去參考，對於在python上實現有指導作用。

打開excel2016，先找個數據

我們這裡直接選擇做線性回歸，在菜單欄選擇數據----找到數據分析

點進去後

選擇回歸，點確定

x值就是指自變數，y值就是因變數

根據線性回歸公式

$hat y = eta_{0}+eta_{1}hat x_1+eta_{2}hat x_2+eta_{3}hat x_3+...+eta_{j}hat x_j+epsilon$

這裡是多元線性回歸公式，有截距項，有每個自變數的權重，還有隨機擾動項

在本案例里，就是兩個自變數和一個因變數，因變數選擇行駛時間，自變數就是行駛路程和分送次數。

先來看結果

第一個是對模型的解釋程度，需要注意是R-Square,這是一個衡量線性回歸模型能否很好解釋變數的變異程度的指標，R-Square越高模型越好。

R-Square的公式= $frac{SSR}{SST} = frac{sum(hat y_i-ar y)^2}{sum(y_i-ar y)^2}$

什麼是SSR：回歸平方和，對應下圖被直線截取的下部分

什麼是SST：總離差平方和，對應下圖整段

什麼是SSE：殘差平方和，對應被截取得上部分

也就是說，R-Square其實是回歸平方和在總離差平方和的比例，因此引申出來：當線性回歸模型增加自變數的時候，SSR是會增大的，SSE會減少，因而R-Square會增大

第二個是方差分析，這裡注意F統計量和Significance-F

df是指自由度，SS離差平方和，MS均方離差。

方差分析這裡的F統計量，是反映總體回歸關係是否存在，因為我們是用樣本來估計總體參數，所以當我們評估了樣本的模型的R-Square之後,就要進行總體回歸關係評估，這裡採用的是假設檢驗的思想：

$H_0:eta_1 = eta_2=...=0 \H_1:eta_1=eta_2 eq0$

原假設是認為自變數的係數為0，也就是說自變數和因變數並無線性相關關係

備擇假設便是不為0，具有線性相關關係

這裡是置信水平95%下，雙側檢驗的用F統計量來衡量的假設檢驗

用顯著性水平α=0.05，這裡的Significance-F < α，代表著：落入拒絕域，也就是拒絕原假設。這裡的Significance-F可以理解為p-value

F統計量: $F=frac{SSR/q}{SSE/(n-q-1)}=frac{MSR}{MSE}$ 其中q是自變數的個數，n是樣本個數

MSR:均方回歸離差平方和

MSE:均方殘差平方和

關於F統計量，分子是解釋所有自變數能夠解釋因變數的變異，而分母是所有自變數不能解釋因變數的變異，因此對於F統計量來說，F值越大，越能說明總體回歸關係越強。

所以根據上表，15個觀測值的F統計量值大於30.8517的概率是1.8627E-05。這個概率和顯著性水平0.05相比較，明顯比它要小，因此落入拒絕域，也就是說當所有自變數的係數都為0時，總計15個觀測值的F統計量大於30.8517的概率是1.8627E-05。

第三個

當我們知道總體回歸關係很強，我們還需要分別看每一個自變數和因變數之間的關係是否顯著。這裡涉及到t統計量，如上圖第二列，截距的值以及自變數的值都估計好了。再看t統計量和對應的p-value 只有截距是大於顯著性水平，也就是說我們可以認為它是為0的，不拒絕原假設即截距為0。我們做檢驗，做置信區間的參數估計，發現在置信水平95%，上限和下限只有截距是包含了0。

這個時候就要考慮，0是否重要。在這裡由於樣本並沒有0，而且截距是根據最小二乘法外推出來的，因此可以選擇忽略。但如果樣本有0則需要多加留意。

根據統計學的知識，樣本參數是總體參數的點估計，所以在估計總體參數的時候引入了置信區間，而95%的置信水平是指從總體隨機抽樣，100個樣本參數的區間有95個樣本參數區間包括了總體的參數。

再看剩下那兩個參數，它們的p值都小於顯著性水平0.05，而且區間不包括0，那麼我們就有95%的信心相信，這兩個自變數的係數不是0，也就是原假設不成立。

t統計量= $frac{b_j}{S_{b_j}}$

$b_j$ 是參數 $eta_j$ 的點估計， $S_{b_j }$ 是估計量的標準差。只要 $b_j$ 在任一方向上偏離0，那麼它不等於0的證據就到加強，證據越強，我們就越有可能拒絕回歸參數 $eta_j$ 為0的這個假設，也就是能推斷因變數y和自變數x之間存在關係。

實際上t統計量檢驗和F統計量檢驗是一樣的。

第四個補充殘差

在前面我們知道線性回歸的公式裡面存在隨機擾動項，一般而言，對於我們想要知道是否是有效估計，這個時候我們要用到方程裡面的隨機擾動項。線性回歸方程里任意一組的自變數的取值的殘差符合隨機擾動項符合均值為0，同方差性的正態分布，也是相互獨立的。為了檢驗是否存在有效性，我們要藉助兩個工具:一個是回歸殘差和自變數之間的散點圖，以及回歸殘差和因變數預測值的散點圖。

工具一:

可以看到兩個變數與殘差的散點分布圖，殘差圍繞在0的兩側隨機分布，證明了隨機擾動項是服從均值為0，同方差的正態分布，也是互相獨立的。

但如果看到是服從扇形分布的殘差分布，雖然是圍繞0的兩側隨機分布，但是離散性不一樣，代表著並不是同方差的。

如果服從下凸形的分布，說明x的極小值和極大值下，殘差是極大的，在x的極大極小之間殘差是比較小的，說明了該模型在x的極大極小值的時候高估了它們的預測值，而相對應的則是低估了預測值。

若分布是偏態的，就是不滿足正態分布的條件

若符合這種分布，證明隨機擾動項並不是獨立的，把4個點當一組來看，第二個點總比第一個大而比第三個小，這種只有在時間序列數據裡面才會出現的情況。

如果出現上面四種情況，我們就知道了，隨機擾動項這項不滿足回歸分析必要條件，因而我們能質疑該模型能否很好的預測結果，也就是推斷結果的可信度大打折扣。

工具二：

利用預測值和回歸殘差的散點圖，如果散點都能圍繞在0的附近並保持著較為一致的分布，那麼我們就有理由認為，該多元線性回歸模型的必要條件沒有被違反，是具有可信度的。

總結:

進行線性回歸的時候，首先根據得出的直線方程，去判斷樣本線性回歸模型是否具有解釋度（SSR，SST，R-Square），是否可信(依據隨機擾動項的條件、殘差、自變數、因變數散點圖)，假如樣本ok，那麼就去推斷總體回歸關係（假設檢驗，F統計，p-value，MSR，MSE），然後進行回歸參數檢驗（t檢驗，p-value，置信區間，置信水平），驗證截距項為0是否有意義(下次會講)

PS：個別圖手畫太丑請見諒（逃）