Day4-《The Introduction of Statistical Learning》學習筆記

Day4-《The Introduction of Statistical Learning》學習筆記

來自專欄 讀書筆記第五章-重抽樣(resampling)方法

5.1交叉驗證法

5.1.1測試集方法

5.1.2 n組交叉驗證

5.1.3 k組交叉驗證

5.1.4 k組交叉驗證里bias 與variance的權衡

5.1.5分類問題里的交叉驗證

5.2自助法

5.1交叉驗證法

--(model assessment)得出關於MSE/Error rate的指標,衡量不同擬合方法的表現,最低線

--(model selection) 得出最優的flexible水平,最低線的最低點

5.1.1測試集方法

隨機將數據平分為訓練組和測試組,用訓練組得出擬合模型,用測試組檢驗模型擬合的MSE

缺陷:MSE不穩定,隨訓練組和測試組的不同樣本變化;

只有一半數據用於訓練,影響擬合模型效果

5.1.2 n組交叉驗證

第一次,(x1,y1)作為測試集,其餘{(x2,y2)……(xn,yn)}作為訓練組得出擬合模型,用測試集算出MSE1.

第二次,(x2,y2)作為測試集,其餘{(x1,y1)……(xn,yn)}作為訓練組得出擬合模型,用測試集算出MSE2.

同理,重複n次,可以算得CV(n)=1/n *sum_{i=1}^{n}{MSE_{i} }

優勢:MSE更加穩定,幾乎不隨訓練集測試集不同劃分而改變(因為各種分法只有一個樣本不同),低bias;

有更多樣本數據(n-1)可用於擬合模型

缺陷:高variance; 耗時麻煩

5.1.3 k組交叉驗證

將數據隨機分為k組

第一次,第一組作為測試集,其餘數據作為訓練集,得到MSE1

第二次,第二組作為測試集,其餘數據作為訓練集,得到MSE2

同理可得:CV(k)=1/k *sum_{i=1}^{k}{MSE_{i} }

一般來說,k取5或者10為宜。

5.1.4 k組交叉驗證里bias 與variance的權衡

n組交叉驗證法里各個訓練集只有一個樣本不同,因此MSEi高度相關,一旦樣本有微小改變,所有MSEi改變,從而得到的CV(n)有高variance。

k組交叉驗證法在bias 和variance 之間取得平衡,且比n組驗證更省時。

5.1.5分類問題里的交叉驗證

CV(n)=1/n *sum_{i=1}^{k}{Err_{i} } Err_{i} 為指示變數,當y_{i} !=y_{i} ^時取1.

5.2自助法

--衡量估計出來參數的準確程度,即SE(eta ^)。

對原始數據集進行B次重複有放回抽樣,得到B個和原數據集一樣大小的數據集Z1,Z2……ZB。

根據每個數據集算得要估計的參數(假設要估計平均數eta ),

eta _{1} =mean(Z1), eta _{2} =mean(Z2)……eta _{B} =mean(ZB)。

從而得到要估計的參數為ar{eta } =1/B *sum_{i=1}^{B}{eta _{i}  }

要估計參數的標準差 SE^(ar{eta } )=sqrt{1/(B-1) * sum_{i}^{B}{(eta_{i}-ar{eta} } )^2}

推薦閱讀:

excel分析工具庫
Python學習(一)
用Python進行基礎的數據分析
數據分析利器pandas初步學習(四)
如何用sklearn機器學習,來預測泰坦尼克號生存概率?

TAG:機器學習 | 數據分析 | 計量經濟學 |