機器學習入門筆記2

監督學習

Part 2.classification and logistic regression(分類和對數幾率回歸)

5.logistic regression(周志華《機器學習》翻譯為對數幾率回歸)

回歸問題中的輸出值y為離散的值,即分類問題。這裡,我們只討論二分類問題。

前面我們討論了線性回歸,輸出的y值是連續的,因此易於優化。但當y的值為0或1時,如何轉化為線性回歸的模型?

我們先了解一下logistic function

其圖像為S型,上下限為(0,1),關於(0,0.5)中心對稱。

因此,模型 hypotheses hθ(x)為:

怎麼優化? how do we ?t θ for it?

利用概率最大化:

y=1和y=0的概率:

將其合為一個式子:

則概率函數:將所有實例的概率密度都乘起來,使其最大化。

為方便求導,取對數:

(其中用到了g(z)=(1-g(z))g(z))

隨機梯度上升法(stochastic gradient ascent rule)

將偏導帶入:

為什麼選logistic function?—將在part 4回答

6.感知機

感知機很難利用概率最大化來實現優化。具體在學習理論里談到。

7.另一種概率最大化演算法:

首先了解牛頓法,要求方程的根θ

根據f的泰勒一階展開式,有

從左圖到右圖,直線與x軸的交點逐漸靠近根

現在將其應用到概率最大化,前面得到

顯然為凹函數,極值點為極大值。因此只要令 f(θ) = ?′(θ)=0,求得θ。

但是,θ一般為向量:

H是為n階Hessian矩陣,

Note:牛頓法一般比批量梯度法快,但是當n很大時,求Hessian逆矩陣計算量很大,因此就有了擬牛頓法

擬牛頓法思路:用一個G矩陣代替H的逆矩陣。具體見《統計學習方法》附錄B,或自行百度。


結尾:本人剛入門,筆記大部分來自《斯坦福大學公開課 :機器學習課程》的課件,歡迎各位指正批評,共勉!

上期:part1.線性回歸

下期:part 3.Generalized Linear Models(GLM:廣義線性模型)


推薦閱讀:

TAG:機器學習 | 吳恩達AndrewNg |