筆記:簡單理解線性回歸

線性回歸

什麼是線性?一次即為線性。

y=w*x+b

什麼是線性回歸?用自變數的一次來預測因變數。

我們建立一個線性模型:

y=w1*x1+w2*x2+w3*x3+.......+wn*xn+b

比如:y工資=w1*學歷+w2*工作經驗+w3*技術能力+.......+wn*xn+基本工資

預測的y值和實際值y_有差距。

現在有一組工資樣本,100份數據,於是有100組預測y值和實際y_值和誤差ε.

誤差=實際-預測

ε[1]=y_[1]-y[1]

ε[2]=y_[2]-y[2]

……

ε[100]=y_[100]-y[100]

為了好看,ML學者使用參數矩陣θ,並且把常數項(ML學者會叫它偏置項)併入

它就是b

於是可以好看地寫成:(i是樣本編號)

假設ε誤差出現的概率符合特殊的高斯分布(正態分布),即模型正確,大多數誤差接近0.

然後帶入,好看複雜化

裡面的σ是標準差,這裡不用關心。

然後我們希望所有誤差概率總體越大越好(這樣所有樣本誤差都在0附近)

為了好聽,ML學者取了個名字,叫似然函數,它越大越好。

乘法似然

(李敏同學:為什麼不用加法呢……乘法來個0怎麼辦??)

ML學者:……

聰明的ML學者弄出了對數似然(變成加法)……又以e為底去掉了煩人的指數部分……

(無力吐槽……)然後「驚喜」發現這就是最小二乘法誒!!

其實簡單觀察一樣能得到:目標函數,目標函數值越小,似然函數值越大,模型符合越好。

為了好看和便於運算ML學者把x,y都變成矩陣(行標列標分別是特徵和樣本編號),θ是個行/列向量。

然後就是線性代數沒學過部分了,求出偏導的最小值(二次嘛,一定會有的)。

這說明如果數據符合線性回歸模型,必能直接求出求出使模型誤差最小準確的所有θ


推薦閱讀:

嶺回歸-定義與歷史
嶺回歸-最小二乘估計
機器學習:線性回歸
簡單線性回歸與機器學習基礎

TAG:機器學習 | 線性回歸 | 如何通俗易懂地解釋X |