機器學習系列-Logistic回歸：我看你像誰（下篇）

01-25

作者：向日葵

Logistic回歸

書接上回，在我們有了最小二乘法與極大似然估計做基礎之後，這樣我們就做好了Logistic回歸的準備，漸漸的進入到我們的主題Logistic回歸。很多都屬於分類的問題了，郵件（垃圾郵件/非垃圾郵件），腫瘤（良性/惡性）。二分類問題，可以用如下形式來定義它： y∈{0,1},其中0屬於負例，1屬於正例。現在來構造一種狀態，一個向量來代表腫瘤（良性/惡性）和腫瘤大小的關係。

Sigmoid 函數在有個很漂亮的「S"形，如下圖所示（引自維基百科）：

綜合上述兩式，我們得到邏輯回歸模型的數學表達式：

Cost函數和J函數如下，它們是基於最大似然估計推導得到的。

下面詳細說明推導的過程：

最大似然估計就是求使l(θ)取最大值時的θ，其實這裡可以使用梯度上升法求解，求得的θ就是要求的最佳參數。但是，在Andrew Ng的課程中將J(θ)取為下式，即：

梯度下降法求的最小值

向量化Vectorization

Vectorization是使用矩陣計算來代替for循環，以簡化計算過程，提高效率。如上式，Σ(...)是一個求和的過程，顯然需要一個for語句循環m次，所以根本沒有完全的實現vectorization。

下面介紹向量化的過程：約定訓練數據的矩陣形式如下，x的每一行為一條訓練樣本，而每一列為不同的特稱取值：

Logistic回歸的推導過程，採用的是極大似然法和梯度下降法取得各個參數的迭代過程。以後很多公式的推導也是類似這個過程，機器學習的過程大部分的演算法都歸結到概率論，如果概率論不是很熟，可以繼續溫習一下。所以很多人都在總覺，機器學習的問題，歸宗到底就是概率論的問題。而採用極大似然的演算法，其中隱藏著一個道理：求出來的參數會是最符合我們觀察到的結果，實驗數據決定了我們的參數。