Day2-《The Introduction of Statistical Learning》學習筆記
第三章-線性回歸
3.1簡單線性回歸
3.1.1估計係數
3.1.2衡量估計係數的準確度
3.1.3衡量模型的準確度
3.2多元線性回歸
3.2.1估計係數
3.2.2一些重要的問題
3.3回歸模型的其他問題
3.3.1當解釋變數為定性數據
3.3.2線性模型的擴展
3.3.3潛在問題
3.4回答七個重要問題
3.5比較線性回歸和KNN回歸
3.1.1估計係數
思路:目標是尋找一條截距為β ?0,斜率為β ?1的直線使得該線與n個樣本點盡量接近。
對於「近」的定義,最常見的是用least square衡量距離,即:選擇 β ?0, β ?1, 使得最小化 RSS,其中
Residual ei = yi -y ^i
RSS(residual sum of squares) RSS =
3.1.2衡量估計係數的準確度
思路:總體Y的特徵,如均值μ,是確定而未知的。
但我們可以從總體中隨機抽取n個樣本y1,y2……yn, 然後用樣本的特徵(y ?)作為總體特徵的估計(μ ?),即μ ?=y ?= ∑yi/n。
這樣的估計量μ ?是無偏的。所謂無偏,是指平均來說μ ?等於μ。具體來說,我們抽取一次樣本(n個),得到的一個μ ?,這個μ ?可能高估也可能低估總體的μ。但如果我們抽取多次,得到多個μ ?,再將這些μ ?取平取值,則得到的平均值和總體的μ相等。
儘管知道平均來說μ ?會和μ相等,但我們仍想知道某次的μ ?離真實的μ有多遠。此時需要用標準差(standard error)衡量某次μ ?和μ的平均距離:
其中
,即σ2為誤差項的方差。由於誤差項無法觀察,故用誤差項的無偏估計量作為其估計量,即σ ?2=RSS/(n-k)。同理可得(SE) ?(β ?1)。估計量的標準差有兩大作用:
i.構建置信區間
若沒有解釋變數的影響,被解釋變數的平均數量為[β ?0-2*SE(β ?0), β ?0+2*SE(β ?0)]; 被解釋變數每增加一單位,被解釋變數平均增加[β ?1-2*SE(β ?1), β ?1+2*SE(β ?1)]。
ii.假設檢驗
H0: β1=0
檢驗β ?1是否充分接近於0,充分與否取決於估計的精度((SE) ?(β ?1)),若估計的精度高,那麼β ?1很小的偏離於0足以表示β1不等於0;若估計的精度差,那麼即使較大的偏離於0也不能說明真實的β1不等於0。
故構造t統計量:
p值越小,t統計量越大,β1越顯著
3.1.3衡量模型擬合數據的準確度
i.絕對指標:RSE(residual standard error)=√(RSS/(n-k)) (之前用作誤差項標準差的無偏估計量)
表示為擬合值與被解釋變數樣本值平均相差RSE單位。
或者說,即使真實f和回歸模型相等(函數形式,估計參數均相等),據此回歸模型作出的預測值與真實值平均相差RSE個單位。
預測錯誤率=RSE/mean(y)
ii.相對指標:R2 =1-(RSS/TSS)
表示y的變異有多少可以有X來解釋
3.2.1估計係數
3.2.2一些重要的問題
問題一:y 與(x1,x2,……xp)之間是否存在關係?
H0: β1=β2=……=βp=0
F=((TSS-RSS)/p)/(RSS/(n-p-1)), F=((RSSr-RSSur)/p)/(RSSur/(n-p-1)),
F越大,表示去掉部分解釋變數後RSS相對原來大幅增加,說明去掉的解釋變數聯合顯著,表明至少有一個變數對被解釋變數是有解釋作用的。
問題二:在聯合顯著的變數(x1,x2,……xp)中如何選擇重要的變數?
從大到小,逐步剔除p值最大的變數,直至所剩變數均是顯著的。
同時結合AIC,BIC, adjusted R2指標判斷。
問題三:如何衡量模型對數據的擬合效果?
i.RSE
ii.R2 簡單回歸中,R2=cor(y,x)^2; 多元回歸中, R2=cor(y, y ?)^2
增加不顯著的解釋變數總會小幅提高R2,但會造成擬合過度。
問題四:兩類預測
i.對f的預測/對y的均值的預測confidence intervals---考慮reducible error
ii.對y的預測 prediction intervals---考慮reducible error和irreducible error
3.3.1當解釋變數為定性數據
注意:選擇哪個類別作為基對比組是任意的。
但係數和各自的p值大小受變數如何coding影響,故要考察某定性變數(表示為n-1個啞變數)是否顯著不能看t統計量和p值,而應該考察H0: β1=β2=0, 用F檢驗定性變數是否顯著。
3.3.2線性模型的擴展---擬合非線性關係(仍為線性模型)
i.放棄additive 假設:x1對y的影響不隨x2的大小變化
Y=β0+β1*X1+β2*X2+β3*X1*X2+ε
若β3的t統計量顯著不為0,則表明存在interaction effect
β3解釋為x2增加一單位,則x1對y的影響的變動單位數
根據hierarchical principle, 添加交互項後,即使x1,x2變得不顯著,x1*x2顯著,仍要包含x1,x2, 否則解釋變數(x1*x2)與誤差項(含x1,x2)相關。
ii.放棄linear 假設:x1對y的影響不隨x1的大小變化
Y=β0+β1*X1+β2*X12+ε
若R2大幅提高,則表明存在非線性關係
3.3.3檢測潛在問題
問題一:解釋變數與被解釋變數是非線性關係
檢測:(殘差圖紅線)由殘差與解釋變數(簡單)/擬合值(多元)關係判斷是否非線性,線性情況下兩者無明顯模式。
解決:對解釋變數變換,如log(x), sqrt(x), x^2
問題二:誤差項異方差
檢測:(殘差圖藍線)若出現漏斗型,則表明存在異方差
解決:對被解釋變數變換,如log(y), sqrt(y)
問題三:誤差項序列相關
檢測:追蹤殘差(代替誤差項)隨時間變化的模式
問題四:outliers(被解釋變數的極端值)
雖不會影響參數估計值,但會使得RSE增大,置信區間,p值,R2均受影響
檢測:標準化後殘差圖的縱坐標,一般大於3則為極端值。如,紅點20,紅點41.
問題五:high leverage points(解釋變數的極端值)
參數估計值都受影響
檢測:杠杠圖的橫坐標,一般大於(p+1)/n則為極端值,如紅點41.
問題六:多重共線性
變數間高度相關使得難以分離出各自對被解釋變數影響,所以造成含X3時X2不顯著,不含X3時X2顯著的情況,若因X2不顯著就剔除可能會因此丟掉重要解釋變數。
檢測:相關係數矩陣只能檢驗兩個變數間相關程度,但有可能兩兩不相關,三者卻相關的情形。故需要用
,計算每個解釋變數是否與其他變數高度相關。一般來說,VIF超過10表明存在多重共線性/解決:選擇剔除兩個共線性變數中不重要的那個;或將兩個共線性變數各自標準化後取平均值合成一個新變數。
3.4回答七個重要問題
Y與x1,x2,……xp是否存在關係---F檢驗
哪些變數有顯著影響---t檢驗
是否線性關係
是否存在交互作用
是否有足夠強的關係---R2
每個變數具體效果---[β ?1-2*SE(β ?1), β ?1+2*SE(β ?1)]
Y平均值的預測
3.5比較線性回歸和KNN回歸
參數方法---線性回歸
非參方法---KNN回歸
K越小,說明f ?受某個yi的影響越大,因此只要某個樣本值一變,f ?就有較大變化,即高variance低bias,越容易擬合過度。
K越大,f ?越平整,flexibility越小。
理論上,只要參數方法選擇的函數形式充分接近於真實的f的形式,參數方法就比非參方法好。由於現實中的關係大多不是線性的,因此似乎只要選擇適當的K,KNN回歸就會比線性回歸好。但KNN回歸在解釋變數數量(eg:p=20)較大,樣本數據有限(eg:100)時,擬合效果會很差,因為在p維空間中可能需要很大的鄰域才能找到K個點。
故結合線性回歸的易解釋度高的優點,線性回歸廣泛使用。
推薦閱讀: