Day6-《The Introduction of Statistical Learning》學習筆記
第七章--超越線性模型
在線性模型框架下描述非線性關係
一個解釋變數:基底函數(多項式,階梯,多項式樣條);光滑樣條;局部回歸
多項式回歸---()是的高階項
階梯回歸---()是關於的階梯函數
多項式樣條回歸---()=h(x,)
光滑樣條回歸---min
局部回歸---min
多個解釋變數:廣義相加模型GAM
7.1多項式回歸
一般來說,d不會大於3或4,否則too flexible,擬合過度。
用兩倍標準差範圍衡量擬合誤差(虛線的範圍表示f^的95%置信區間)。其中C為估計係數^的協方差矩陣,=(1,,,,)
7.2階梯函數
若含有截距項,則少用一個虛擬變數。
除非有變數有明確的分界點(如定性變數:高中,大學,碩士),否則會丟失同一類別里的關係。
7.3基底函數
7.4樣條回歸
7.4.1分塊多項式
缺陷:不連續
7.4.2對分塊多項式添加約束變為多項式樣條回歸
添加約束1:連續
添加約束2,3:一階,二階連續(保證光滑)
每添加一個約束就會解放一個自由度。
要保證d階多項式光滑需要d-1階連續。
一般來說,對於有K個結的d階多項式樣條回歸,df=d+K+1。本例中(d=3,K=1),分塊多項式有(3+1)*2個自由度,保證每個結連續需要1個自由度,保證每個結光滑需要d-1個自由度(d-1階連續),故df=(d+1)*(K+1)-K*(1+d-1)=d+K+1。
若在邊界處(大於最大結,小於最小結)添加兩個約束條件保證線性,則得到邊界處更加穩定的自然多項式樣條回歸。
7.4.3樣條回歸的表達式
每個結用一個h(x,)表示,
對於K=2,d=3的多項式樣條回歸來說,共需要估計6個係數。
y=+*+*+*+*h(x,)+*h(x,)+
7.4.4選擇結的數量和位置
位置選擇:儘管在關係突變處添加一個結是最好的方法,但不易操作。通常的做法是先確定df,然後由軟體自動在分位數處添加結。
數量選擇:確定結的數量即確定df,一般根據不同的df對應的cross-validation error確定最優df。
7.4.5和多項式回歸的比較
多項式回歸通過增加高階項來更flexible,自然多項式樣條回歸通過增加結來更flexible,後者更穩定。
7.5光滑樣條
7.5.1光滑樣條概況
min
最小化兩部分:RSS和懲罰項。
一階導數代表斜率,二階導數代表斜率的變化。若為了完美擬合y而選擇參差不平的g(從而RSS較小),則懲罰項會較大(給定)。
代表懲罰的力度。當infinite,g會完全光滑,即一條直線,g為最小二乘的y^。因此實質上代表bias與variance之間的權衡。
g(x)其實是縮減版本(由控制)的在每個樣本點上都設一個結的自然多項式樣條回歸。
7.5.2選擇光滑參數
確定結的數量等價於確定df,g(x)有n個結,即有n個(名義)df。
光滑樣條回歸中會對n個參數施加限制,因此衡量光滑程度的是有效df,即。
的定義為:將g^拆分非某n*n矩陣和y,該矩陣的跡
光滑樣條回歸中無需選擇界的數量和位置,只要用cross-validation 確定最優。
7.6局部回歸
min
每個點賦予其他所有點的權重均不相同,離得近的點權重大,span以外的點權重為0.
span的作用相當於,決定著flexibility。span越小,越flexible,越參差不齊。
一般使用cross-validation確定最優span。
7.7廣義相加模型(GAM)
每個變數可以採用各自不同的函數形式,最後相加。
7.7.1用於回歸問題的GAM
7.7.2用於分類問題的GAM
推薦閱讀:
※實現數據驅動的三道鴻溝
※再戰『沃+』,百萬孵化獎金等你來拿!
※啞變數在數據挖掘中的使用
※剪刀石頭布的數據分析闖關之路——起跑線上的暢談
※苟利富貴生死以,豈因數學避趨之