機器學習入門筆記1
監督學習
part1.線性回歸(回歸:預測變數與函數的關係,線性回歸即預測線性關係)
以預測房價price為例,考慮兩個屬性:area,rooms.用x=(x1,x2)二維向量表示,以一個房子為一個實例。
房價函數:
損失函數(cost function):
(#1/2是為了方便計算,求偏導時消掉2。)
1.LMS演算法(最小均方演算法)
目標函數J(θ)是一個凸函數(convex),因此採用梯度下降法(gradient descent) ,對參數更新:
其中, α is called the learning rate
所以,對單個實例的訓練集
對整個訓練集的每個實例:
可以看出,每個實例進行一次更新,就要計算所有的實例error,這是批量梯度下降 (batch gradient descent)。
另一種方法是每個實例進行一次更新,只需從訓練集中挑一個實例error,這就是隨機梯度下降( stochastic gradient descent ).
一般來說,隨機梯度下降法收斂的速度更快。
2.The normal equations(我稱之為矩陣法)
2.1矩陣相關知識
(1)矩陣偏導:
例如,
#注意,矩陣偏導和偏導對象維數相同。
(2)矩陣的跡(trace)
矩陣的跡一般用於求偏導時進行簡化。
2.2 Least squares revisited(類似於LMS)
輸入:(一個矩陣,每個分量為一個實例)
輸出:(一個向量)
模型:
考慮
令損失函數J(θ):
為使J極小化,我們令偏導為0,且J本身為凸函數,所以求得的點為極小值點。
這就是normal equation:
得參數:
3.probablistic interpretation
損失函數極小化等價於概率最大化。(具體推導見吳恩達課件notes1)
4.LWR(locally weighted regression)
左圖欠擬合,最高項為x;右圖過擬合,最高項為x^5;中間圖擬合最好:
為防止欠擬合(underfitting)和過擬合(overfitting)的現象,對每個實例加權。
原來是:
加權後:
其中,x是待測數據,|x(i)-x|越大,說明x(i)與x差別很大,w(i)越小—>0,說明參考價值不大;
|x(i)-x|越小,w(i)越大—>1.說明x(i)與x相似,對x預測的參考價值大。
結尾:本人剛入門,筆記大部分來自《斯坦福大學公開課 :機器學習課程》的課件,歡迎各位指正批評,共勉!
下期筆記:Part 2 Classi?cation and logistic regression(分類和對數幾率回歸)推薦閱讀:
※什麼是RNN
※反向傳播演算法和梯度下降理解
※數據很少如何完成機器學習?
※第十期 | 情報分享之數據科學競賽專題篇(含講解及代碼)
TAG:機器學習 | 吳恩達AndrewNg |