Day6-《The Introduction of Statistical Learning》學習筆記

第七章--超越線性模型

在線性模型框架下描述非線性關係

一個解釋變數:基底函數(多項式,階梯,多項式樣條);光滑樣條;局部回歸

多項式回歸---b_{2} x_{i} )是x_{i} 的高階項

階梯回歸---b_{2} x_{i} )是關於x_{i} 的階梯函數

多項式樣條回歸---b_{2} x_{i} )=h(x,zeta

光滑樣條回歸---min

局部回歸---min

多個解釋變數:廣義相加模型GAM

7.1多項式回歸

一般來說,d不會大於3或4,否則too flexible,擬合過度。

用兩倍標準差範圍衡量擬合誤差(虛線的範圍表示f^的95%置信區間)。其中C為估計係數eta ^的協方差矩陣,iota ^{T} =(1,x_{0}x_{0}^{2} x_{0}^{3} x_{0}^{4}

7.2階梯函數

若含有截距項,則少用一個虛擬變數。

除非有變數有明確的分界點(如定性變數:高中,大學,碩士),否則會丟失同一類別里的關係。

7.3基底函數

7.4樣條回歸

7.4.1分塊多項式

缺陷:不連續

7.4.2對分塊多項式添加約束變為多項式樣條回歸

添加約束1:連續

添加約束2,3:一階,二階連續(保證光滑)

每添加一個約束就會解放一個自由度。

要保證d階多項式光滑需要d-1階連續。

一般來說,對於有K個結的d階多項式樣條回歸,df=d+K+1。本例中(d=3,K=1),分塊多項式有(3+1)*2個自由度,保證每個結連續需要1個自由度,保證每個結光滑需要d-1個自由度(d-1階連續),故df=(d+1)*(K+1)-K*(1+d-1)=d+K+1。

若在邊界處(大於最大結,小於最小結)添加兩個約束條件保證線性,則得到邊界處更加穩定的自然多項式樣條回歸。

7.4.3樣條回歸的表達式

每個結用一個h(x,zeta )表示,

對於K=2,d=3的多項式樣條回歸來說,共需要估計6個係數。

y=eta _{0} +eta _{1} *x _{0} +eta _{2} *x_{0}^{2} +eta _{3} *x_{0}^{3} +eta _{4} *h(x,zeta _{1} )+eta _{5} *h(x,zeta _{2} )+epsilon

7.4.4選擇結的數量和位置

位置選擇:儘管在關係突變處添加一個結是最好的方法,但不易操作。通常的做法是先確定df,然後由軟體自動在分位數處添加結。

數量選擇:確定結的數量即確定df,一般根據不同的df對應的cross-validation error確定最優df。

7.4.5和多項式回歸的比較

多項式回歸通過增加高階項來更flexible,自然多項式樣條回歸通過增加結來更flexible,後者更穩定。

7.5光滑樣條

7.5.1光滑樣條概況

min

最小化兩部分:RSS和懲罰項。

一階導數代表斜率,二階導數代表斜率的變化。若為了完美擬合y而選擇參差不平的g(從而RSS較小),則懲罰項會較大(給定lambda )。

lambda 代表懲罰的力度。當lambda 
ightarrow infinite,g會完全光滑,即一條直線,g為最小二乘的y^。因此lambda 實質上代表bias與variance之間的權衡。

g(x)其實是縮減版本(由lambda 控制)的在每個樣本點上都設一個結的自然多項式樣條回歸。

7.5.2選擇光滑參數lambda

確定結的數量等價於確定df,g(x)有n個結,即有n個(名義)df。

光滑樣條回歸中lambda 會對n個參數施加限制,因此衡量光滑程度的是有效df,即df_{lambda }

df_{lambda } 的定義為:將g^拆分非某n*n矩陣和y,該矩陣的跡

光滑樣條回歸中無需選擇界的數量和位置,只要用cross-validation 確定最優lambda

7.6局部回歸

min

每個點賦予其他所有點的權重均不相同,離得近的點權重大,span以外的點權重為0.

span的作用相當於lambda ,決定著flexibility。span越小,越flexible,越參差不齊。

一般使用cross-validation確定最優span。

7.7廣義相加模型(GAM)

每個變數可以採用各自不同的函數形式,最後相加。

7.7.1用於回歸問題的GAM

7.7.2用於分類問題的GAM


推薦閱讀:

實現數據驅動的三道鴻溝
再戰『沃+』,百萬孵化獎金等你來拿!
啞變數在數據挖掘中的使用
剪刀石頭布的數據分析闖關之路——起跑線上的暢談
苟利富貴生死以,豈因數學避趨之

TAG:機器學習 | 數據分析 | 計量經濟學 |