機器學習筆記五--正則化
07-25
機器學習筆記五--正則化
來自專欄 daacheng的Python學習總結
正則化(Regularization)
一、過擬合問題(over-fitting)
機器學習通過大量的訓練集數據進行訓練,然後得到的模型,可以分為三種情況,欠擬合模型,過擬合模型,最合適的模型。
- 欠擬合:模型不能很好的適應訓練集數據,誤差太大,,只能適用訓練集中很小一部分數據。
- 過擬合:模型過於強調適用每一組原始數據,誤差基本上可以為0,但是如果用該模型去預測新的數據,表現卻並不是很好。也就是說過擬合模型只能很好的適應訓練集數據,而不能很好的適用於測試數據。
如何處理過擬合問題?
- 丟棄一些不能幫助我們正確預測的特徵,通過手工選擇保留哪些特徵,或是通過演算法自動選擇特徵。
- 正則化。保留所有的特徵,但是降低特徵的權重大小,也就是特徵對應的參數Θ。特徵權重變小了,特徵對結果的影響也就隨之變小了。
二、代價函數正則化
三、正則化線性回歸
推薦閱讀:
※[推薦演算法] 協同過濾NMF演算法--原理與應用
※你也也可以搭建自己的深度學習框架
※機器學習演算法實踐—K-Means演算法與圖像分割
※支持向量機