Day4-《The Introduction of Statistical Learning》學習筆記
來自專欄 讀書筆記第五章-重抽樣(resampling)方法
5.1交叉驗證法
5.1.1測試集方法
5.1.2 n組交叉驗證
5.1.3 k組交叉驗證
5.1.4 k組交叉驗證里bias 與variance的權衡
5.1.5分類問題里的交叉驗證
5.2自助法
5.1交叉驗證法
--(model assessment)得出關於MSE/Error rate的指標,衡量不同擬合方法的表現,最低線
--(model selection) 得出最優的flexible水平,最低線的最低點
5.1.1測試集方法
隨機將數據平分為訓練組和測試組,用訓練組得出擬合模型,用測試組檢驗模型擬合的MSE
缺陷:MSE不穩定,隨訓練組和測試組的不同樣本變化;
只有一半數據用於訓練,影響擬合模型效果
5.1.2 n組交叉驗證
第一次,(x1,y1)作為測試集,其餘{(x2,y2)……(xn,yn)}作為訓練組得出擬合模型,用測試集算出MSE1.
第二次,(x2,y2)作為測試集,其餘{(x1,y1)……(xn,yn)}作為訓練組得出擬合模型,用測試集算出MSE2.
同理,重複n次,可以算得CV(n)=1/n *
優勢:MSE更加穩定,幾乎不隨訓練集測試集不同劃分而改變(因為各種分法只有一個樣本不同),低bias;
有更多樣本數據(n-1)可用於擬合模型
缺陷:高variance; 耗時麻煩
5.1.3 k組交叉驗證
將數據隨機分為k組
第一次,第一組作為測試集,其餘數據作為訓練集,得到MSE1
第二次,第二組作為測試集,其餘數據作為訓練集,得到MSE2
同理可得:CV(k)=1/k *
一般來說,k取5或者10為宜。
5.1.4 k組交叉驗證里bias 與variance的權衡
n組交叉驗證法里各個訓練集只有一個樣本不同,因此MSEi高度相關,一旦樣本有微小改變,所有MSEi改變,從而得到的CV(n)有高variance。
k組交叉驗證法在bias 和variance 之間取得平衡,且比n組驗證更省時。
5.1.5分類問題里的交叉驗證
CV(n)=1/n *,為指示變數,當!=^時取1.
5.2自助法
--衡量估計出來參數的準確程度,即SE(^)。
對原始數據集進行B次重複有放回抽樣,得到B個和原數據集一樣大小的數據集Z1,Z2……ZB。
根據每個數據集算得要估計的參數(假設要估計平均數),
=mean(Z1), =mean(Z2)……=mean(ZB)。
從而得到要估計的參數為=1/B *,
要估計參數的標準差 SE^()=
推薦閱讀:
※excel分析工具庫
※Python學習(一)
※用Python進行基礎的數據分析
※數據分析利器pandas初步學習(四)
※如何用sklearn機器學習,來預測泰坦尼克號生存概率?