EdX-Columbia機器學習課第6講筆記:稀疏線性回歸
05-09
引子:欠定線性等式 (underdetermined linear equations)
這裡考慮的是的問題。即數據集的維數大於樣本數。此時有無窮多個解滿足。在這些解中,佔據著一個重要的地位。如果把這個解加上一個的零空間中的向量,得到的新的權重仍然是原始問題的解。而因為,因此可以有無限多個。下面用兩種方法證明是這些解里範數最小的解,即分析法
令是的另一個解,因此,且有即正交於,這意味著Lagrange乘子法
為了求解稀疏回歸
普通最小二乘和嶺回歸通常只用於理想情況。現實問題中,通常有很多特徵,而其中只有一部分與相關,非常重要,而普通最小二乘和嶺回歸對所有特徵都是同等對待,重要的特徵會被不重要的特徵拉低通常來講,優化問題都可以抽象為公式前者說明模型對數據的近似有多好,後者使得最後的解不會那麼「重」。嶺回歸的懲罰項是,而這個懲罰項的特點是,如果很大,那麼縮小它能夠很快地縮小懲罰項;然而如果小,那麼縮小它的效果就不顯著。因此使用這個懲罰項的結果是所有特徵的權重都小了稀疏學習的目的是選出維特徵的一個子集作為模型,而篩掉其它維度的特徵,也就是把不重要的特徵權重設為0。常用線性懲罰項——引出了LASSOLASSO: Least Absolute Shrinkage and Selection Operator,使用正則項正則化可以推廣到正則化回歸,即
其中正則化是LASSO,正則化是嶺回歸當時,懲罰項只懲罰最大的那一項,當時,可以找到最優解,但是只能通過迭代方式解出(沒有解析解)當時,只能找到近似解,不過可以保證稀疏性當時,只記錄某一項是否為0,即推薦閱讀:
※機器學習入門之旅(三)線性模型之線性回歸與最小二乘法
※【線上直播】線性回歸——求解介紹及回歸拓展
※簡單線性回歸、邏輯回歸和泰坦尼克號的生存預測
※簡單線性回歸和邏輯回歸(五)
※機器學習入門(1):線性回歸