邏輯回歸之損失函數與最大似然估計

05-24

邏輯回歸之損失函數與最大似然估計

來自專欄機器學習之路

邏輯回歸中有兩個經典的問題：

1、為什麼選用下面的公式作為邏輯回歸的損失函數；

2、邏輯回歸中為什麼使用sigmoid函數

這篇文章簡述了問題1的答案，簡而言之，邏輯回歸的損失函數是通過最大似然估計推導得出的。

文章來源：https://www.zhihu.com/question/65350200

機器學習的損失函數是人為設計的，用於評判模型好壞（對未知的預測能力）的一個標準、尺子，就像去評判任何一件事物一樣，從不同角度看往往存在不同的評判標準，不同的標準往往各有優劣，並不衝突。唯一需要注意的就是最好選一個容易測量的標準，不然就難以評判了。

其次，既然不同標準並不衝突，那使用最小二乘作為邏輯回歸的損失函數當然是可以，那這裡為什麼不用最小二乘而用最大似然呢？請看一下最小二乘作為損失函數的函數曲線：

最小二乘作為邏輯回歸模型的損失函數，theta為待優化參數

以及最大似然作為損失函數的函數曲線（最大似然損失函數後面給出）：

最大似然作為邏輯回歸模型的損失函數，theta為待優化參數

很顯然了，圖2比圖1展現的函數要簡單多了，很容易求到參數的最優解（凸函數），而圖1很容易陷入局部最優解（非凸函數）。這就是前面說的選取的標準要容易測量，這就是邏輯回歸損失函數為什麼使用最大似然而不用最小二乘的原因了。

以上是這個問題的答案，下面來推一下邏輯回歸中最大損失函數到底是怎麼來的，因為我看到很多地方只是說了一下用到最大似然的方法，就直接給出了最終的形式，還看到有書裡面過程搞錯了，也給出了最終的正確形式。

既然是最大似然，我們的目標當然是要最大化似然概率了：

對於二分類問題有：

用一個式子表示上面這個分段的函數為：(記得寫成相乘的形式)：

代入目標函數中，再對目標函數取對數，則目標函數變為：

如果用hθ(xi)表示p0，1 - hθ(xi)表示p1，將max函數換成min，則得到最終形式：