簡單理解機器學習:正則化
05-16
參考文章:
機器學習中正則化項L1和L2的直觀理解 - CSDN博客機器學習損失函數、L1-L2正則化的前世今生 - CSDN博客李敏同學:機器學習的書能不能說人話啊,正則化是啥?
機器學習中很容易出現過擬合現象。尤其是模型複雜時。
過擬合,就是訓練出的模型參數,在測試集上表現良好,而在訓練集上一塌糊塗。
所謂「泛化能力」不夠強。
因為測試集和訓練集的差異大,
過擬合往往是由於訓練得出的模型係數過大,導致誤差在測試時放大,為了防止過擬合,需要使得係數到達最優時,儘可能小。
歷史上,人們引入了一個懲罰項來達到以上目的。
舉個例子,比如最簡單的線性回歸。
如果不明白這裡的公式,請參看:
質乎:筆記:簡單理解線性回歸
這個懲罰項就是正則化項。
歷史上有
L0正則化和L1正則化和L2正則化,或者L0範數和L1範數和L2範數。
L0:不為0的係數個數。
L1:係數的絕對值之和。
L2:係數的平方和。
事實上,有Lq:係數的q次方絕對值的和。
q越小,係數可以越小,泛化能力越強,但是訓練難度越越越大。
一般選用L2即可。
這裡為了調整速度和精度,
w=a*L2
a為懲罰係數或權重,可以知道,a越大,訓練速度越快,精度降低。
(這裡是連續正確期望值,起碼要達到100才能比上人類)
推薦閱讀:
※閑話國內大數據發展簡史&產業化落地
※還在與數據表格鬥毆?這12個數據可視化工具正準備來解放你
※如何對抗「大數據殺熟」?
※「七步走戰略」輕鬆搞定數據分析
※用時間序列的方法處理數據