Day1-《The Introduction of Statistical Learning》-學習筆記
第二章 統計學習
2.1什麼是統計學習
2.1.1為什麼估計f
2.1.2如何估計f
2.1.3準確度與易解釋度之間的權衡
2.1.4監督學習與無監督學習
2.1.5回歸問題與分類問題
2.2評估模型擬合效果
2.2.1擬合效果的測量
2.2.2回歸問題下方差與bias之間的權衡
2.2.3分類問題下方差與bias之間的權衡
2.1.1為什麼估計f
i.為了預測(prediction)-對f估具體函數形式不感興趣,只追求f估逼近確定但未知的f,從而預測由f和誤差項共同決定的y,用f估代表y估,故更追求準確度。y估作為y的估計值,估計的準確度取決於兩項-reducible error(f估有多逼近f,通過選擇合適方法可以減少此估計誤差) 和irreducible error(random error term-來源於對y有影響但未被納入X的變數或測量誤差,即使f估完美複製f,y仍有未能被X解釋的部分)。
ii.為了推斷 (inference) -對f估具體形式感興趣,用估計的係數解釋predictors(X)對response(y)的影響,故更追求易解釋度。
2.1.2如何估計f
i. 參數方法(parametric methods)
首先假設f的函數形式,從而將估計f問題簡化為估計函數參數問題。
若函數形式設定得too restrictive, 則擬合不足,和真實的f相差太遠。
若函數形式設定得too flexible, 則過度擬合(overfitting),將由於誤差項的偶然影響當成f的影響。
ii. 非參方法(non-parametric method)
不假設f的形式,直接估計f。
由於未估計函數形式,故需要大量觀測樣本來估計大量參數。
仍然有overfitting問題。
2.1.3準確度與易解釋度之間的權衡
一般來說,用於預測,選擇高flexible(但不至於overfitting)低interpretability的函數形式;用於推斷則相反。
2.1.4監督學習與無監督學習
Supervised learning: 每個觀測值包含X和y,理解y與X關係,有y來監督預測或推斷的效果。
Eg:linearregression, logistic regression, GAM, boosting, SVM
Unsupervised learning: 只包含X,理解各變數之間關係,沒有y來監督學習的效果。
Eg:cluster analysis
2.1.5回歸問題與分類問題
一般來說,若y是定量數據,則為回歸問題;若y是定性數據,則為分類問題。
但回歸方法不一定用於回歸問題,如logistic regression 用於分類問題。多數方法既可用於分類問題也可用於回歸問題。
在統計學習中,一般將定性數據化為定量數據(啞變數),故數據原來定量還是定性不重要。
2.2.1擬合效果的測量
一般來說,test MSE 呈U型(U型的底部對應真實f的flexibility=degreeof freefom),但training MSE卻遞減。這意味著要使training MSE最小只需選擇最flexible的函數形式,但不能保證使test MSE最小。
當出現training MSE很小且testMSE很大時,意味著對數據過度擬合(過度尋求數據中的模式,從而把由誤差項偶然帶來的影響誤認為是真實f帶來的模式。當用測試集中數據來檢驗由訓練集的到的f估時,由於測試集中沒有訓練集中偶然因素的影響,故按f估得到的test MSE很大)。此時應使用less flexible的函數形式。
注意到,training MSE 總比testMSE 小;test MSE起碼大於var(error term)。
用cross-validation方法得到test MSE
2.2.2回歸問題下方差與bias之間的權衡
要最小化test MSE,要麼減少variance,要麼減少bias。
Variance是指用不同的訓練集得到不同f估的方差。若f估正確擬合了f,則不同訓練集得到的f估應該接近相等,即方差很小。若訓練集的微小改變帶來較大的f估方差,意味著擬合過度。一般來說,flexibility越高,越容易過度擬合,越容易高variance。
Bias是指估計的f與真實的f的偏差。一般來說,flexibility越低,越容易擬合不足,越容易高bias。
2.2.3分類問題下方差與bias之間的權衡
衡量指標:估計錯誤率
最理想的分類方法:貝葉斯分類法
可行的分類方法:K-Nearest Neighbors法
首先指定K,如K=3,意味著在某點(黑×)的鄰域內要包含3個訓練集的數據。
然後計算兩種類別(藍,橙)各自概率(2/3,1/3)。
由此判斷此點屬於藍色的概率更高,故屬於藍色。
一般來說,K越大,flexibility越小,越容易低variance高bias。
Training error rate 和test error rate 的關係與MSE指標下類似
註:圖表摘自教材
推薦閱讀: