Day2-《The Introduction of Statistical Learning》學習筆記

第三章-線性回歸

3.1簡單線性回歸

3.1.1估計係數

3.1.2衡量估計係數的準確度

3.1.3衡量模型的準確度

3.2多元線性回歸

3.2.1估計係數

3.2.2一些重要的問題

3.3回歸模型的其他問題

3.3.1當解釋變數為定性數據

3.3.2線性模型的擴展

3.3.3潛在問題

3.4回答七個重要問題

3.5比較線性回歸和KNN回歸

3.1.1估計係數

思路:目標是尋找一條截距為β ?0,斜率為β ?1的直線使得該線與n個樣本點盡量接近。

對於「近」的定義,最常見的是用least square衡量距離,即:選擇 β ?0, β ?1, 使得最小化 RSS,其中

Residual ei = yi -y ^i

RSS(residual sum of squares) RSS = e_{1} +e_{2}+...+e_{n}

3.1.2衡量估計係數的準確度

思路:總體Y的特徵,如均值μ,是確定而未知的。

但我們可以從總體中隨機抽取n個樣本y1,y2……yn, 然後用樣本的特徵(y ?)作為總體特徵的估計(μ ?),即μ ?=y ?= ∑yi/n。

這樣的估計量μ ?是無偏的。所謂無偏,是指平均來說μ ?等於μ。具體來說,我們抽取一次樣本(n個),得到的一個μ ?,這個μ ?可能高估也可能低估總體的μ。但如果我們抽取多次,得到多個μ ?,再將這些μ ?取平取值,則得到的平均值和總體的μ相等。

儘管知道平均來說μ ?會和μ相等,但我們仍想知道某次的μ ?離真實的μ有多遠。此時需要用標準差(standard error)衡量某次μ ?和μ的平均距離:

其中

,即σ2為誤差項的方差。由於誤差項無法觀察,故用誤差項的無偏估計量作為其估計量,即σ ?2=RSS/(n-k)。

同理可得(SE) ?(β ?1)。估計量的標準差有兩大作用:

i.構建置信區間

若沒有解釋變數的影響,被解釋變數的平均數量為[β ?0-2*SE(β ?0), β ?0+2*SE(β ?0)]; 被解釋變數每增加一單位,被解釋變數平均增加[β ?1-2*SE(β ?1), β ?1+2*SE(β ?1)]。

ii.假設檢驗

H0: β1=0

檢驗β ?1是否充分接近於0,充分與否取決於估計的精度((SE) ?(β ?1)),若估計的精度高,那麼β ?1很小的偏離於0足以表示β1不等於0;若估計的精度差,那麼即使較大的偏離於0也不能說明真實的β1不等於0。

故構造t統計量:

,用來衡量β1是否顯著不為0,相應的指標還有p值。

p值越小,t統計量越大,β1越顯著

3.1.3衡量模型擬合數據的準確度

i.絕對指標:RSE(residual standard error)=√(RSS/(n-k)) (之前用作誤差項標準差的無偏估計量)

表示為擬合值與被解釋變數樣本值平均相差RSE單位。

或者說,即使真實f和回歸模型相等(函數形式,估計參數均相等),據此回歸模型作出的預測值與真實值平均相差RSE個單位。

預測錯誤率=RSE/mean(y)

ii.相對指標:R2 =1-(RSS/TSS)

表示y的變異有多少可以有X來解釋

3.2.1估計係數

3.2.2一些重要的問題

問題一:y 與(x1,x2,……xp)之間是否存在關係?

H0: β1=β2=……=βp=0

F=((TSS-RSS)/p)/(RSS/(n-p-1)), F=((RSSr-RSSur)/p)/(RSSur/(n-p-1)),

F越大,表示去掉部分解釋變數後RSS相對原來大幅增加,說明去掉的解釋變數聯合顯著,表明至少有一個變數對被解釋變數是有解釋作用的。

問題二:在聯合顯著的變數(x1,x2,……xp)中如何選擇重要的變數?

從大到小,逐步剔除p值最大的變數,直至所剩變數均是顯著的。

同時結合AIC,BIC, adjusted R2指標判斷。

問題三:如何衡量模型對數據的擬合效果?

i.RSE

ii.R2 簡單回歸中,R2=cor(y,x)^2; 多元回歸中, R2=cor(y, y ?)^2

增加不顯著的解釋變數總會小幅提高R2,但會造成擬合過度。

問題四:兩類預測

i.對f的預測/對y的均值的預測confidence intervals---考慮reducible error

ii.對y的預測 prediction intervals---考慮reducible error和irreducible error

3.3.1當解釋變數為定性數據

注意:選擇哪個類別作為基對比組是任意的。

但係數和各自的p值大小受變數如何coding影響,故要考察某定性變數(表示為n-1個啞變數)是否顯著不能看t統計量和p值,而應該考察H0: β1=β2=0, 用F檢驗定性變數是否顯著。

3.3.2線性模型的擴展---擬合非線性關係(仍為線性模型)

i.放棄additive 假設:x1對y的影響不隨x2的大小變化

Y=β0+β1*X1+β2*X2+β3*X1*X2+ε

若β3的t統計量顯著不為0,則表明存在interaction effect

β3解釋為x2增加一單位,則x1對y的影響的變動單位數

根據hierarchical principle, 添加交互項後,即使x1,x2變得不顯著,x1*x2顯著,仍要包含x1,x2, 否則解釋變數(x1*x2)與誤差項(含x1,x2)相關。

ii.放棄linear 假設:x1對y的影響不隨x1的大小變化

Y=β0+β1*X1+β2*X12+ε

若R2大幅提高,則表明存在非線性關係

3.3.3檢測潛在問題

問題一:解釋變數與被解釋變數是非線性關係

檢測:(殘差圖紅線)由殘差與解釋變數(簡單)/擬合值(多元)關係判斷是否非線性,線性情況下兩者無明顯模式。

解決:對解釋變數變換,如log(x), sqrt(x), x^2

問題二:誤差項異方差

檢測:(殘差圖藍線)若出現漏斗型,則表明存在異方差

解決:對被解釋變數變換,如log(y), sqrt(y)

問題三:誤差項序列相關

檢測:追蹤殘差(代替誤差項)隨時間變化的模式

問題四:outliers(被解釋變數的極端值)

雖不會影響參數估計值,但會使得RSE增大,置信區間,p值,R2均受影響

檢測:標準化後殘差圖的縱坐標,一般大於3則為極端值。如,紅點20,紅點41.

問題五:high leverage points(解釋變數的極端值)

參數估計值都受影響

檢測:杠杠圖的橫坐標,一般大於(p+1)/n則為極端值,如紅點41.

問題六:多重共線性

變數間高度相關使得難以分離出各自對被解釋變數影響,所以造成含X3時X2不顯著,不含X3時X2顯著的情況,若因X2不顯著就剔除可能會因此丟掉重要解釋變數。

檢測:相關係數矩陣只能檢驗兩個變數間相關程度,但有可能兩兩不相關,三者卻相關的情形。故需要用

,計算每個解釋變數是否與其他變數高度相關。一般來說,VIF超過10表明存在多重共線性/

解決:選擇剔除兩個共線性變數中不重要的那個;或將兩個共線性變數各自標準化後取平均值合成一個新變數。

3.4回答七個重要問題

Y與x1,x2,……xp是否存在關係---F檢驗

哪些變數有顯著影響---t檢驗

是否線性關係

是否存在交互作用

是否有足夠強的關係---R2

每個變數具體效果---[β ?1-2*SE(β ?1), β ?1+2*SE(β ?1)]

Y平均值的預測

3.5比較線性回歸和KNN回歸

參數方法---線性回歸

非參方法---KNN回歸

K越小,說明f ?受某個yi的影響越大,因此只要某個樣本值一變,f ?就有較大變化,即高variance低bias,越容易擬合過度。

K越大,f ?越平整,flexibility越小。

理論上,只要參數方法選擇的函數形式充分接近於真實的f的形式,參數方法就比非參方法好。由於現實中的關係大多不是線性的,因此似乎只要選擇適當的K,KNN回歸就會比線性回歸好。但KNN回歸在解釋變數數量(eg:p=20)較大,樣本數據有限(eg:100)時,擬合效果會很差,因為在p維空間中可能需要很大的鄰域才能找到K個點。

故結合線性回歸的易解釋度高的優點,線性回歸廣泛使用。


推薦閱讀:

數據分析,讓你成為人群中的1%
Kaggle:電影數據分析
Numy基礎知識分享
不識廬山真面目,只緣身在此山中

TAG:機器學習 | 數據分析 | 計量經濟學 |