EdX-Columbia機器學習課第3講筆記:最小二乘II、嶺回歸
最小二乘法的概率解釋
對於多元高斯分布,假設協方差矩陣,概率密度為
假設,求解的最大似然,會得到什麼?實際上還是求解
即最小二乘和最大似然的解是一樣的
最大似然隱含的意思在於,誤差是獨立的高斯雜訊,等價於以下三種說法:
如果我們假設了有,根據此分布,我們可以計算最大似然解的期望,有
即最大似然估計是的一個無偏估計。但是要考慮到還有方差的存在,如果方差很大的話,即便期望是無偏的,也很可能會看到比較奇怪的值,因此需要對方差做一個判斷。
如果有,則
代入,有
即
因此可以計算的方差,即
由於且,而且是對稱矩陣,其逆也是對稱矩陣,因此。帶入到上面可知
由於且,即,因此
由於是標量可以提出來,因此上式可以化簡為
因此在如果我們假設滿足高斯分布,即,就有
如果太大,那麼就會敏感於的值,不利於用其做預測
嶺回歸
由於方差的存在,可能會變得很大,而這是我們所不希望看到的。因此可以在目標函數上加一個正則項來控制的大小,即類似下式這樣的形式:
其中是正則化參數,是懲罰函數,將引向所希望的性質。具體地,對於嶺回歸,有
其中對大的進行了懲罰。注意到目標函數的第二項和第一項之間存在著平衡關係,由控制。如果,則;如果,則
求解析解可得
使用嶺回歸之前需要對數據先做預處理:
對嶺回歸的進一步分析
可以通過奇異值分解SVD來進一步探索最小二乘法和嶺回歸之間的關係。SVD的核心理論是對於任何矩陣(假設),都可以將其分解為,其中
- 正交矩陣,即
- 非負對角矩陣,即且對有
- 正交矩陣,即
因此可以得出以下等式
因此的方差可以重寫為
如果對某個,特別小,那麼其逆會特別大,導致方差變大(這說明中的一些列有很高的相關性)
同時,對新的數據進行最小平方預測,結果為
也可以看出來如果很大,則預測結果會不穩定
可以推導出最小二乘得出的權重和嶺回歸得出的權重之間的關係:
由於對於兩個對稱矩陣有,因此
代入奇異值分解的結果,且考慮,有
其中
也可以把奇異值分解的結果帶入到的求解中
代入到上式,有
嶺回歸也可以看作是最小二乘的一個特例情況。如果如下定義,即
如果對這個回歸問題求解,則找到了原始回歸問題的
推薦閱讀:
※為什麼要使用向量化?(從時間上看)
※機器學習演算法
※技術宅如何進化為女裝大佬
※深入機器學習系列17-BFGS & L-BFGS
※過擬合與正則化
TAG:機器學習 |