Day1-《The Introduction of Statistical Learning》-學習筆記

第二章 統計學習

2.1什麼是統計學習

2.1.1為什麼估計f

2.1.2如何估計f

2.1.3準確度與易解釋度之間的權衡

2.1.4監督學習與無監督學習

2.1.5回歸問題與分類問題

2.2評估模型擬合效果

2.2.1擬合效果的測量

2.2.2回歸問題下方差與bias之間的權衡

2.2.3分類問題下方差與bias之間的權衡

2.1.1為什麼估計f

i.為了預測(prediction)-對f估具體函數形式不感興趣,只追求f估逼近確定但未知的f,從而預測由f和誤差項共同決定的y,用f估代表y估,故更追求準確度。y估作為y的估計值,估計的準確度取決於兩項-reducible error(f估有多逼近f,通過選擇合適方法可以減少此估計誤差) 和irreducible error(random error term-來源於對y有影響但未被納入X的變數或測量誤差,即使f估完美複製f,y仍有未能被X解釋的部分)。

ii.為了推斷 (inference) -對f估具體形式感興趣,用估計的係數解釋predictors(X)對response(y)的影響,故更追求易解釋度。

2.1.2如何估計f

i. 參數方法(parametric methods)

首先假設f的函數形式,從而將估計f問題簡化為估計函數參數問題。

若函數形式設定得too restrictive, 則擬合不足,和真實的f相差太遠。

若函數形式設定得too flexible, 則過度擬合(overfitting),將由於誤差項的偶然影響當成f的影響。

ii. 非參方法(non-parametric method)

不假設f的形式,直接估計f。

由於未估計函數形式,故需要大量觀測樣本來估計大量參數。

仍然有overfitting問題。

2.1.3準確度與易解釋度之間的權衡

一般來說,用於預測,選擇高flexible(但不至於overfitting)低interpretability的函數形式;用於推斷則相反。

2.1.4監督學習與無監督學習

Supervised learning: 每個觀測值包含X和y,理解y與X關係,有y來監督預測或推斷的效果。

Eg:linearregression, logistic regression, GAM, boosting, SVM

Unsupervised learning: 只包含X,理解各變數之間關係,沒有y來監督學習的效果。

Eg:cluster analysis

2.1.5回歸問題與分類問題

一般來說,若y是定量數據,則為回歸問題;若y是定性數據,則為分類問題。

但回歸方法不一定用於回歸問題,如logistic regression 用於分類問題。多數方法既可用於分類問題也可用於回歸問題。

在統計學習中,一般將定性數據化為定量數據(啞變數),故數據原來定量還是定性不重要。

2.2.1擬合效果的測量

一般來說,test MSE 呈U型(U型的底部對應真實f的flexibility=degreeof freefom),但training MSE卻遞減。這意味著要使training MSE最小只需選擇最flexible的函數形式,但不能保證使test MSE最小。

當出現training MSE很小且testMSE很大時,意味著對數據過度擬合(過度尋求數據中的模式,從而把由誤差項偶然帶來的影響誤認為是真實f帶來的模式。當用測試集中數據來檢驗由訓練集的到的f估時,由於測試集中沒有訓練集中偶然因素的影響,故按f估得到的test MSE很大)。此時應使用less flexible的函數形式。

注意到,training MSE 總比testMSE 小;test MSE起碼大於var(error term)。

用cross-validation方法得到test MSE

2.2.2回歸問題下方差與bias之間的權衡

要最小化test MSE,要麼減少variance,要麼減少bias。

Variance是指用不同的訓練集得到不同f估的方差。若f估正確擬合了f,則不同訓練集得到的f估應該接近相等,即方差很小。若訓練集的微小改變帶來較大的f估方差,意味著擬合過度。一般來說,flexibility越高,越容易過度擬合,越容易高variance。

Bias是指估計的f與真實的f的偏差。一般來說,flexibility越低,越容易擬合不足,越容易高bias。

2.2.3分類問題下方差與bias之間的權衡

衡量指標:估計錯誤率

最理想的分類方法:貝葉斯分類法

可行的分類方法:K-Nearest Neighbors法

首先指定K,如K=3,意味著在某點(黑×)的鄰域內要包含3個訓練集的數據。

然後計算兩種類別(藍,橙)各自概率(2/3,1/3)。

由此判斷此點屬於藍色的概率更高,故屬於藍色。

一般來說,K越大,flexibility越小,越容易低variance高bias。

Training error rate 和test error rate 的關係與MSE指標下類似

註:圖表摘自教材


推薦閱讀:

斷點回歸的stata操作
檢驗異方差

TAG:機器學習 | 數據分析 | 計量經濟學 |