機器學習入門筆記1

監督學習

part1.線性回歸(回歸:預測變數與函數的關係,線性回歸即預測線性關係)

以預測房價price為例,考慮兩個屬性:area,rooms.用x=(x1,x2)二維向量表示,以一個房子為一個實例。

房價函數:

損失函數(cost function):

(#1/2是為了方便計算,求偏導時消掉2。)

1.LMS演算法(最小均方演算法)

目標函數J(θ)是一個凸函數(convex),因此採用梯度下降法(gradient descent) ,對參數更新:

其中, α is called the learning rate

所以,對單個實例的訓練集

對整個訓練集的每個實例:

可以看出,每個實例進行一次更新,就要計算所有的實例error,這是批量梯度下降 (batch gradient descent)。

另一種方法是每個實例進行一次更新,只需從訓練集中挑一個實例error,這就是隨機梯度下降( stochastic gradient descent ).

一般來說,隨機梯度下降法收斂的速度更快。

2.The normal equations(我稱之為矩陣法)

2.1矩陣相關知識

(1)矩陣偏導:

例如,

#注意,矩陣偏導和偏導對象維數相同。

(2)矩陣的跡(trace)

矩陣的跡一般用於求偏導時進行簡化。

2.2 Least squares revisited(類似於LMS)

輸入:(一個矩陣,每個分量為一個實例)

輸出:(一個向量)

模型:

考慮

令損失函數J(θ):

為使J極小化,我們令偏導為0,且J本身為凸函數,所以求得的點為極小值點。

這就是normal equation:

得參數:

3.probablistic interpretation

損失函數極小化等價於概率最大化。(具體推導見吳恩達課件notes1)

4.LWR(locally weighted regression)

左圖欠擬合,最高項為x;右圖過擬合,最高項為x^5;中間圖擬合最好:

為防止欠擬合(underfitting)和過擬合(overfitting)的現象,對每個實例加權。

原來是:

加權後:

其中,x是待測數據,|x(i)-x|越大,說明x(i)與x差別很大,w(i)越小—>0,說明參考價值不大;

|x(i)-x|越小,w(i)越大—>1.說明x(i)與x相似,對x預測的參考價值大。


結尾:本人剛入門,筆記大部分來自《斯坦福大學公開課 :機器學習課程》的課件,歡迎各位指正批評,共勉!

下期筆記:Part 2 Classi?cation and logistic regression(分類和對數幾率回歸)

推薦閱讀:

什麼是RNN
反向傳播演算法和梯度下降理解
數據很少如何完成機器學習?
第十期 | 情報分享之數據科學競賽專題篇(含講解及代碼)

TAG:機器學習 | 吳恩達AndrewNg |