機器學習筆記五--正則化

機器學習筆記五--正則化

來自專欄 daacheng的Python學習總結

正則化(Regularization)

一、過擬合問題(over-fitting)

機器學習通過大量的訓練集數據進行訓練,然後得到的模型,可以分為三種情況,欠擬合模型,過擬合模型,最合適的模型。

  1. 欠擬合:模型不能很好的適應訓練集數據,誤差太大,,只能適用訓練集中很小一部分數據。
  2. 過擬合:模型過於強調適用每一組原始數據,誤差基本上可以為0,但是如果用該模型去預測新的數據,表現卻並不是很好。也就是說過擬合模型只能很好的適應訓練集數據,而不能很好的適用於測試數據。

如何處理過擬合問題?

  1. 丟棄一些不能幫助我們正確預測的特徵,通過手工選擇保留哪些特徵,或是通過演算法自動選擇特徵。
  2. 正則化。保留所有的特徵,但是降低特徵的權重大小,也就是特徵對應的參數Θ。特徵權重變小了,特徵對結果的影響也就隨之變小了。

二、代價函數正則化

三、正則化線性回歸

推薦閱讀:

[推薦演算法] 協同過濾NMF演算法--原理與應用
你也也可以搭建自己的深度學習框架
機器學習演算法實踐—K-Means演算法與圖像分割
支持向量機

TAG:機器學習 | Python |