機器學習演算法實踐-標準與局部加權線性回歸

01-27

前言

最近開始總結學習回歸相關的東東了，與分類的目標變數是標稱型不同，回歸是對連續型數據進預測。當然還是從最簡單的線性回歸開始，本文主要介紹無偏差的標準線性回歸和有偏局部加權線性回歸的理論基礎以及相應的Python實現。

標準線性回歸

標準線性回歸的理論知識很簡單，我們既可以寫出它的標量表達式也可以寫成矩陣的形式，其中矩陣的形式也可以通過投影矩陣進行推到得到。本部分就對標準線性回歸的表達式進行下簡單的推導。

給定一組數據其中包括特徵矩陣 $X$ , 目標變數向量 $y$ :

$y = left[ begin{matrix} y_1 y_2 : y_m end{matrix} right]$

$X = left[ begin{matrix} 1 & x_{11} & x_{12} & … & x_{1n} 1 & x_{21} & x_{22} & … & x_{2n} : & : & : & … & : & 1 & x_{n1} & x_{n2} & … & x_{nn} end{matrix} right]$

其中 $X$ 第一列為截距項，我們做線性回歸是為了得到一個最優回歸係數向量 $w$ 使得當我們給定一個 $x$ 能夠通過 $y=xw$ 預測 $y$ 的值。其中 $w = left[ begin{matrix} w_0 w_1 w_2 : w_n end{matrix} right]$ .

最小二乘法獲取回歸係數

那麼怎樣的 $w$ 才是最優的呢？在標準線性回歸中我們需要找到是誤差最小的 $w$ , 即預測的 $y$ 值與真實的 $y$ 值之間的差值，為了避免簡單累加造成的正負差值相互抵消，這裡採用了平方誤差:

$f(w) = sum_{i=1}^{m} (y_i - x_{i}^{T}w)^2$

對於上述式子 $f(w)$ 可以通過梯度下降等方法得到最優解。但是使用矩陣表示將會是的求解和程序更為簡單:

$f(w) = (y - Xw)^{T}(y - Xw)$

將 $f(w)$ 對 $w$ 求導可得:

$frac{partial f(w)}{partial w} = -2X^{T}(y - Xw)$

使其等於0，便可得到:

$X^{T}(y - Xw) = 0$

$X^{T}y = X^{T}Xw$

$hat{w} = (X^{T}X)^{-1}X^{T}y$

通過投影矩陣獲取回歸係數

除了通過最小平方差的方法推導得到 $w$ 的表達式，我們還可以通過投影矩陣(Projection Matrix)來得到。

我們知道如果我們能夠求得一個 $w$ 使得 $Xw = y$ 肯定是最好的，但是實際情況中 $y$ 一般並不在矩陣 $X$ 的列空間中，也就是此方程無解，於是我們希望通過將向量 $y$ 投影到 $X$ 的列空間中得到投影矩陣 $p$ , 然後求解 $Xw=p$ 來獲取一個最接近的一個解, 矩陣 $X$ 的投影矩陣形式為

$P = X(X^{T}X)^{-1}X^{T}$

於是得到 $y$ 在 $X$ 列空間的投影為 $Pcdot y = X(X^{T}X)^{-1}X^{T}y$

此時方程 $Xw = p$ 是有解的，得到最接近 $Xw = y$ 的解為: $hat{w} = (X^{T}X)^{-1}X^{T}y$

標準線性回歸的Python實現

通過矩陣形式我么可以很方便的通過Numpy的介面進行矩陣運算獲取線性回歸係數向量 $hat{w}$ , 實現如下:

def std_linreg(X, Y):n xTx = X.T*Xn if np.linalg.det(xTx) == 0:n print(xTx is a singular matrix)n returnn return xTx.I*X.T*Yn

通過對現有數據進行標準線性回歸併繪製回歸直線得到如下圖(完整代碼和數據見: https://github.com/PytLab/MLBox/tree/master/linear_regression)

w = [3.00774324, 1.69532264]n

局部加權線性回歸(Local Weighted Linear Regression)

上面的數據點是通過公式 $y=3+1.7x+0.1sin(30x)$ 添加雜訊生成的數據，而標準的線性回歸是一種無偏差估計，在計算所有點的時候都是無偏差的計算誤差並通過優化方法優化誤差，如果針對不同的點能夠對誤差進行調整便可以一定程度上避免標準線性回歸帶來的欠擬合現象。

也就是引入偏差來降低預測的均方誤差，本部分總結下局部加權線性回歸的方法。當我們獲取某個 $x$ 的預測值的時候，我們需要計算回歸係數 $w$ ，但是如果針對樣本中的數據，距離 $x$ 越近我們就給個越大的權重，如果距離越遠就給一個小的權重，這樣就會使得針對 $x$ 的預測值 $y_{predict}$ 能夠更貼合樣本數據。

當我們需要對數據點 $x$ 相應的目標值進行預測的時候，我們需要給樣本中的每個點賦予一個權重值 $w_i$ (為了區分權重和回歸係數，在這裡用 $theta$ 表示回歸係數， $w$ 表示權重), 那麼平方誤差的表達式就變成:

$f(theta) = sum_{i=1}^{m}w_{i}(y_i - x_{i}^{T}theta)^{2}$

通過矩陣可以表示成:

$f(theta) = (y - Xtheta)^{T}W(y - Xtheta)$

$f(theta)$ 對 $theta$ 求導等於0得到:

$frac{partial f(w)}{partial w} = -2X^{T}W(y - Xtheta) = 0$

$X^{T}Wy = X^{T}WXtheta$

$theta = (X^{T}WX)^{-1}X^{T}Wy$

通過上面的公式，對於任意給定的未知數據可以計算出對應的回歸係數 $theta$ ，並得到相應的預測值 $y_{predict}$ , 其中 $W$ 是一個對角矩陣，對角線上的元素 $w_{ii}$ 對應樣本點 $x_i$ 的權重值。

使用高斯核來賦值權重

那麼權重的表達式又是怎樣的呢，我們需要距離給定 $x$ 的樣本點的權重越高，LWRL使用核來對附近的點賦予更高的權重，最常用的是高斯核函數，對應表達式如下:

$w_{ii} = exp(frac{vert x_i - x vert}{-2k^2})$

通過公式可以看到如果 $x_i$ 距離xx的距離越小， $w_{ii}$ 就會越大，其中參數 $k$ 決定了權重的大小。 $k$ 越大權重的差距就越小， $k$ 越小權重的差距就很大，僅有局部的點參與進回歸係數的求取，其他距離較遠的權重都趨近於零。如果 $k$ 去進入無窮大，所有的權重都趨近於1， $W$ 也就近似等於單位矩陣，局部加權線性回歸變成標準的無偏差線性回歸，會造成欠擬合的現象；當k很小的時候，距離較遠的樣本點無法參與回歸參數的求取，會造成過擬合的現象。

LWLR的Python實現

本部分對局部加權線性回歸進行Python實現，對於給定數據求取相應回歸係數:

def lwlr(x, X, Y, k):n 局部加權線性回歸，給定一個點，獲取相應權重矩陣並返回回歸係數n n m = X.shape[0]n # 創建針對x的權重矩陣n W = np.matrix(np.zeros((m, m)))n for i in range(m):n xi = np.array(X[i][0])n x = np.array(x)n W[i, i] = exp((np.linalg.norm(x - xi))/(-2*k**2))n # 獲取此點相應的回歸係數n xWx = X.T*W*Xn if np.linalg.det(xWx) == 0:n print(xWx is a singular matrix)n returnn w = xWx.I*X.T*W*Yn return wn

我們對上部分使用的數據進行回歸併繪製回歸曲線:

1) 當k = 0.5, 基本上就是無偏差的標準線性回歸

Correlation coefficient: 0.9869292425124014n

2) 當k = 0.1, 可以較好的反應數據的潛在規律

Correlation coefficient: 0.997890402610583n

3) 當k = 0.03, 擬合的曲線較多的考慮了雜訊數據導致過擬合的現象

總結

本文總結了標準線性回歸以及局部加權線性回歸的基礎知識，並對兩張回歸方式給與了Python的實現。可見局部加權線性回歸在取得適當的 $k$ ，便可以較好的發現數據的內在潛質，但是局部加權線性回歸有個缺點就是類似kNN一樣，每計算一個點的預測值就需要利用所有數據樣本進行計算，如果數據量很大，計算量會是一個問題。

參考

《Machine Learning in Action》
如何通俗易懂地解釋「協方差」與「相關係數」的概念？