Day2-《The Introduction of Statistical Learning》學習筆記

05-09

第三章-線性回歸

3.1簡單線性回歸

3.1.1估計係數

3.1.2衡量估計係數的準確度

3.1.3衡量模型的準確度

3.2多元線性回歸

3.2.1估計係數

3.2.2一些重要的問題

3.3回歸模型的其他問題

3.3.1當解釋變數為定性數據

3.3.2線性模型的擴展

3.3.3潛在問題

3.4回答七個重要問題

3.5比較線性回歸和KNN回歸

3.1.1估計係數

思路：目標是尋找一條截距為β ?0，斜率為β ?1的直線使得該線與n個樣本點盡量接近。

對於「近」的定義，最常見的是用least square衡量距離，即：選擇 β ?0, β ?1, 使得最小化 RSS，其中

Residual ei = yi -y ^i

RSS(residual sum of squares) RSS = $e_{1} +e_{2}+...+e_{n}$

3.1.2衡量估計係數的準確度

思路：總體Y的特徵，如均值μ，是確定而未知的。

但我們可以從總體中隨機抽取n個樣本y1,y2……yn, 然後用樣本的特徵(y ?)作為總體特徵的估計(μ ?)，即μ ?=y ?= ∑yi/n。

這樣的估計量μ ?是無偏的。所謂無偏，是指平均來說μ ?等於μ。具體來說，我們抽取一次樣本（n個），得到的一個μ ?，這個μ ?可能高估也可能低估總體的μ。但如果我們抽取多次，得到多個μ ?，再將這些μ ?取平取值，則得到的平均值和總體的μ相等。

儘管知道平均來說μ ?會和μ相等，但我們仍想知道某次的μ ?離真實的μ有多遠。此時需要用標準差(standard error)衡量某次μ ?和μ的平均距離：

其中

，即σ2為誤差項的方差。由於誤差項無法觀察，故用誤差項的無偏估計量作為其估計量,即σ ?2=RSS/（n-k）。

同理可得(SE) ?(β ?1)。估計量的標準差有兩大作用：

i．構建置信區間

若沒有解釋變數的影響，被解釋變數的平均數量為[β ?0-2*SE(β ?0), β ?0+2*SE(β ?0)]; 被解釋變數每增加一單位，被解釋變數平均增加[β ?1-2*SE(β ?1), β ?1+2*SE(β ?1)]。

ii．假設檢驗

H0: β1=0

檢驗β ?1是否充分接近於0，充分與否取決於估計的精度（(SE) ?(β ?1)），若估計的精度高，那麼β ?1很小的偏離於0足以表示β1不等於0；若估計的精度差，那麼即使較大的偏離於0也不能說明真實的β1不等於0。

故構造t統計量：

，用來衡量β1是否顯著不為0，相應的指標還有p值。

p值越小，t統計量越大，β1越顯著

3.1.3衡量模型擬合數據的準確度

i．絕對指標：RSE（residual standard error）=√(RSS/(n-k)) (之前用作誤差項標準差的無偏估計量)

表示為擬合值與被解釋變數樣本值平均相差RSE單位。

或者說，即使真實f和回歸模型相等（函數形式，估計參數均相等），據此回歸模型作出的預測值與真實值平均相差RSE個單位。

預測錯誤率=RSE/mean（y）

ii．相對指標：R2 =1-(RSS/TSS)

表示y的變異有多少可以有X來解釋

3.2.1估計係數

3.2.2一些重要的問題

問題一：y 與（x1,x2,……xp）之間是否存在關係？

H0: β1=β2=……=βp=0

F=((TSS-RSS)/p)/(RSS/(n-p-1)), F=((RSSr-RSSur)/p)/(RSSur/(n-p-1)),

F越大，表示去掉部分解釋變數後RSS相對原來大幅增加，說明去掉的解釋變數聯合顯著，表明至少有一個變數對被解釋變數是有解釋作用的。

問題二：在聯合顯著的變數（x1,x2,……xp）中如何選擇重要的變數？

從大到小，逐步剔除p值最大的變數，直至所剩變數均是顯著的。

同時結合AIC,BIC, adjusted R2指標判斷。

問題三：如何衡量模型對數據的擬合效果？

i．RSE

ii．R2 簡單回歸中，R2=cor(y,x)^2；多元回歸中， R2=cor(y, y ?)^2

增加不顯著的解釋變數總會小幅提高R2，但會造成擬合過度。

問題四：兩類預測

i．對f的預測/對y的均值的預測confidence intervals---考慮reducible error

ii．對y的預測 prediction intervals---考慮reducible error和irreducible error

3.3.1當解釋變數為定性數據

注意：選擇哪個類別作為基對比組是任意的。

但係數和各自的p值大小受變數如何coding影響，故要考察某定性變數（表示為n-1個啞變數）是否顯著不能看t統計量和p值，而應該考察H0: β1=β2=0，用F檢驗定性變數是否顯著。

3.3.2線性模型的擴展---擬合非線性關係（仍為線性模型）

i．放棄additive 假設：x1對y的影響不隨x2的大小變化

Y=β0+β1*X1+β2*X2+β3*X1*X2+ε

若β3的t統計量顯著不為0，則表明存在interaction effect

β3解釋為x2增加一單位，則x1對y的影響的變動單位數

根據hierarchical principle, 添加交互項後，即使x1,x2變得不顯著，x1*x2顯著，仍要包含x1,x2, 否則解釋變數（x1*x2）與誤差項（含x1,x2）相關。

ii．放棄linear 假設：x1對y的影響不隨x1的大小變化

Y=β0+β1*X1+β2*X12+ε

若R2大幅提高，則表明存在非線性關係

3.3.3檢測潛在問題

問題一：解釋變數與被解釋變數是非線性關係

檢測：（殘差圖紅線）由殘差與解釋變數（簡單）/擬合值（多元）關係判斷是否非線性，線性情況下兩者無明顯模式。

解決：對解釋變數變換，如log(x), sqrt(x), x^2

問題二：誤差項異方差

檢測：（殘差圖藍線）若出現漏斗型，則表明存在異方差

解決：對被解釋變數變換，如log(y), sqrt(y)

問題三：誤差項序列相關

檢測：追蹤殘差（代替誤差項）隨時間變化的模式

問題四：outliers(被解釋變數的極端值)

雖不會影響參數估計值，但會使得RSE增大，置信區間，p值，R2均受影響

檢測：標準化後殘差圖的縱坐標，一般大於3則為極端值。如，紅點20，紅點41.

問題五：high leverage points(解釋變數的極端值)

參數估計值都受影響

檢測：杠杠圖的橫坐標，一般大於（p+1）/n則為極端值，如紅點41.

問題六：多重共線性

變數間高度相關使得難以分離出各自對被解釋變數影響，所以造成含X3時X2不顯著，不含X3時X2顯著的情況，若因X2不顯著就剔除可能會因此丟掉重要解釋變數。

檢測：相關係數矩陣只能檢驗兩個變數間相關程度，但有可能兩兩不相關，三者卻相關的情形。故需要用

，計算每個解釋變數是否與其他變數高度相關。一般來說，VIF超過10表明存在多重共線性/

解決：選擇剔除兩個共線性變數中不重要的那個；或將兩個共線性變數各自標準化後取平均值合成一個新變數。

3.4回答七個重要問題

Y與x1,x2,……xp是否存在關係---F檢驗

哪些變數有顯著影響---t檢驗

是否線性關係

是否存在交互作用

是否有足夠強的關係---R2

每個變數具體效果---[β ?1-2*SE(β ?1), β ?1+2*SE(β ?1)]

Y平均值的預測

3.5比較線性回歸和KNN回歸

參數方法---線性回歸

非參方法---KNN回歸

K越小，說明f ?受某個yi的影響越大，因此只要某個樣本值一變，f ?就有較大變化，即高variance低bias，越容易擬合過度。

K越大，f ?越平整，flexibility越小。

理論上，只要參數方法選擇的函數形式充分接近於真實的f的形式，參數方法就比非參方法好。由於現實中的關係大多不是線性的，因此似乎只要選擇適當的K，KNN回歸就會比線性回歸好。但KNN回歸在解釋變數數量（eg：p=20）較大，樣本數據有限（eg：100）時，擬合效果會很差，因為在p維空間中可能需要很大的鄰域才能找到K個點。

故結合線性回歸的易解釋度高的優點，線性回歸廣泛使用。