第二十一章 regression演算法——線性回歸&局部加權回歸演算法（上）

05-10

理論部分

回歸是統計學中最有力的工具之一。監督學習演算法分為分類演算法和回歸演算法兩種，其實就是根據類別標籤分布類型為離散型、連續性而定義的。顧名思義，分類演算法用於離散型分布預測，如KNN、決策樹、樸素貝葉斯、adaboost、SVM、Logistic回歸都是分類演算法；回歸演算法用於連續型分布預測，針對的是數值型的樣本，使用回歸，可以在給定輸入的時候預測出一個數值，這是對分類方法的提升，因為這樣可以預測連續型數據而不僅僅是離散的類別標籤。

回歸的目的就是建立一個回歸方程用來預測目標值，回歸的求解就是求這個回歸方程的回歸係數。預測的方法當然十分簡單，回歸係數乘以輸入值再全部相加就得到了預測值。

1，回歸的定義

回歸最簡單的定義是，給出一個點集D，用一個函數去擬合這個點集，並且使得點集與擬合函數間的誤差最小，如果這個函數曲線是一條直線，那就被稱為線性回歸，如果曲線是一條二次曲線，就被稱為二次回歸。

2，多元線性回歸

假定預測值與樣本特徵間的函數關係是線性的，回歸分析的任務，就在於根據樣本X和Y的觀察值，去估計函數h，尋求變數之間近似的函數關係。定義：

其中，n = 特徵數目；

xj = 每個訓練樣本第j個特徵的值，可以認為是特徵向量中的第j個值。

為了方便，記x0= 1，則多變數線性回歸可以記為：

，(θ、x都表示(n+1，1)維列向量)

3，廣義線性回歸

用廣義的線性函數

wj是係數，w就是這個係數組成的向量，它影響著不同維度的Φj(x)在回歸函數中的影響度，Φ(x)是可以換成不同的函數，這樣的模型我們認為是廣義線性模型，Φ(x)=x時就是多元線性回歸模型。

線性回歸的求解

說到回歸，常常指的也就是線性回歸。假設有連續型值標籤(標籤值分布為Y)的樣本，有X={x1,x2,...,xn}個特徵，回歸就是求解回歸係數θ=θ0, θ1,…,θn。那麼，手裡有一些X和對應的Y,怎樣才能找到θ呢？在回歸方程里，求得特徵對應的最佳回歸係數的方法是最小化誤差的平方和。這裡的誤差是指預測y值和真實y值之間的差值，使用該誤差的簡單累加將使得正差值和負差值相互抵消，所以採用平方誤差（最小二乘法）。平方誤差可以寫做：

在數學上，求解過程就轉化為求一組θ值使求上式取到最小值，那麼求解方法有梯度下降法、Normal Equation等等。梯度下降有如下特點：需要預先選定步長a、需要多次迭代、特徵值需要Scaling（統一到同一個尺度範圍）。因此比較複雜，還有一種不需要迭代的求解方式--Normal Equation，簡單、方便、不需要Feature Scaling。Normal Equation方法中需要計算X的轉置與逆矩陣，計算量很大，因此特徵個數多時計算會很慢，只適用於特徵個數小於100000時使用；當特徵數量大於100000時使用梯度法。另外，當X不可逆時就有嶺回歸演算法的用武之地了。

下面就概括一下常用的幾種求解演算法。

1，梯度下降法（Gradient Descent）

根據平方誤差，定義該線性回歸模型的損耗函數（Cost Function）為：

，（係數是為了方便求導展示，此處的係數也可以只是1/2，沒有m。）

線性回歸的損耗函數的值與回歸係數θ的關係是碗狀的，只有一個最小點。

2，Normal Equation（也叫普通最小二乘法）

Normal Equation演算法也叫做普通最小二乘法（ordinary least squares），其特點是：給定輸人矩陣X，如果XTX的逆存在並可以求得的話，就可以直接採用該方法求解。其求解理論也十分簡單：既然是是求最小誤差平方和，另其導數為0即可得出回歸係數。

矩陣X為（m，n+1）矩陣（m表示樣本數、n表示一個樣本的特徵數），y為（m，1）列向量。

上述公式中包含XTX, 也就是需要對矩陣求逆，因此這個方程只在逆矩陣存在的時候適用。然而，矩陣的逆可能並不存在，後面會討論處理方法。

3，局部加權線性回歸

線性回歸的一個問題是有可能出現欠擬合現象，因為它求的是具有最小均方誤差的無偏估計。顯而易見，如果模型欠擬合將不能取得最好的預測效果。所以有些方法允許在估計中引人一些偏差，從而降低預測的均方誤差。其中的一個方法是局部加權線性回歸（LocallyWeightedLinearRegression, LWLR )。在該演算法中，我們給待預測點附近的每個點賦予一定的權重.於是公式變為:

，W是（m,m）矩陣，m表示樣本數。

LWLR使用「核」（與支持向量機中的核類似）來對附近的點賦予更高的權重。核的類型可以自由選擇，最常用的核就是高斯核，高斯核對應的權重如下：

,k需要優化選擇.

局部加權線性回歸也存在一個問題，即增加了計算量，因為它對每個點做預測時都必須使用整個數據集，而不是計算出回歸係數得到回歸方程後代入計算即可。因此該演算法不被推薦。

標準回歸與局部加權回歸python2實現

from numpy import *#該函數打開一個用tab鍵分割的文本文件def loadDataSet(fileName): #general function to parse tab -delimited floats numFeat = len(open(fileName).readline().split( )) - 1 #get number of fields dataMat = []; labelMat = [] fr = open(fileName) for line in fr.readlines(): lineArr =[] curLine = line.strip().split( ) for i in range(numFeat): lineArr.append(float(curLine[i])) dataMat.append(lineArr) labelMat.append(float(curLine[-1])) return dataMat,labelMatdef standRegres(xArr,yArr):#該函數用來計算最佳擬合直線 xMat = mat(xArr); yMat = mat(yArr).T#讀入x和y並將它們保存到矩陣中 xTx = xMat.T*xMat if linalg.det(xTx) == 0.0:#判斷行列式是否為0，直接調用numpy的linalg線性代數的庫來計算行列式 print "This matrix is singular, cannot do inverse" return ws = xTx.I * (xMat.T*yMat)#行列式非0，計算係數並返回 return wsdef lwlr(testPoint,xArr,yArr,k=1.0):#局部加權線性回歸函數 xMat = mat(xArr); yMat = mat(yArr).T m = shape(xMat)[0] weights = mat(eye((m)))#創建對角權重矩陣 for j in range(m): #next 2 lines create weights matrix遍曆數據集 diffMat = testPoint - xMat[j,:] # weights[j,j] = exp(diffMat*diffMat.T/(-2.0*k**2))#計算每個樣本點對應的權重值 xTx = xMat.T * (weights * xMat) if linalg.det(xTx) == 0.0: print "This matrix is singular, cannot do inverse" return ws = xTx.I * (xMat.T * (weights * yMat))#估計最優回歸係數 return testPoint * wsdef lwlrTest(testArr,xArr,yArr,k=1.0): #loops over all the data points and applies lwlr to each one m = shape(testArr)[0] yHat = zeros(m) for i in range(m): yHat[i] = lwlr(testArr[i],xArr,yArr,k)#lwlrtest函數主要用於調用lwlr函數 return yHatdef lwlrTestPlot(xArr,yArr,k=1.0): #same thing as lwlrTest except it sorts X first yHat = zeros(shape(yArr)) #easier for plotting xCopy = mat(xArr) xCopy.sort(0) for i in range(shape(xArr)[0]): yHat[i] = lwlr(xCopy[i],xArr,yArr,k) return yHat,xCopy if __name__=="__main__": dataMat,labelMat=loadDataSet(C:UsersHZFDesktopmachinelearninginactionCh08ex0.txt) #print (mat(dataMat[0:2]))[:,1] #print (mat(labelMat[0:2])).T[:,0] import matplotlib.pyplot as plt#導入matplotlib庫用於畫散點圖進行比較 fig=plt.figure() ax=fig.add_subplot(111)#add_subplot(111)函數也可寫成add_subplot(1,1,1)，意思是將畫布分布在1行1列從左到右從上到下的第一個模塊 ws=standRegres(dataMat,labelMat)#計算係數向量 #print ws yHat=(mat(dataMat))*ws#計算最優回歸值 #以下代碼是標準線性回歸的散點圖與最佳擬合的圖像 #ax.scatter((mat(dataMat))[:,1].flatten().A[0],(mat(labelMat)).T[:,0].flatten().A[0])#數據集散點圖 #xCopy=(mat(dataMat)).copy() #xCopy.sort(0)#對點按照升序排序 #yHat=xCopy*ws#畫最佳擬合直線 #ax.plot(xCopy[:,1],yHat) #plt.show() pc=corrcoef(yHat.T,labelMat)#計算yHat與labelMat的相關係數，即相關矩陣 #print pc #ws=lwlr(dataMat[0],dataMat,labelMat,k=1.0) yHat=lwlrTest(dataMat,dataMat,labelMat,0.02) print yHat #以下代碼是局部線性回歸的散點圖與最佳擬合的圖像 srtInd=(mat(dataMat))[:,1].argsort(0) xSort=(mat(dataMat))[srtInd][:,0,:] ax.plot(xSort[:,1],yHat[srtInd]) ax.scatter((mat(dataMat))[:,1].flatten().A[0],(mat(labelMat)).T.flatten().A[0],s=2,c=red) plt.show()

以上就是標準回歸（線性回歸）與局部加權回歸演算法的理論與python2實現過程（主要是針對最小二乘與局部加權的實現），會儘快補充這兩種演算法的應用與其他回歸演算法！

參考文獻

1、機器學習經典演算法詳解及Python實現--線性回歸（Linear Regression）演算法

2、《機器學習實戰》（書）