關於二元Logistics回歸的損失函數的推導?

在二元logistic回歸中,可以應用最大似然法來估計參數,那麼寫出對應的對數似然函數為:

sum_{i}^{N}{y_ilog(p)+(1-y_i) log(1-p)}

其中y_i in (0,1)

最小化上式就可以得到對應的p,

p = frac{1}{1+exp({-f})}f(x)  = w*x,py_i = 1時的概率 。

但是今天看了一篇文獻http://docs.salford-systems.com/GreedyFuncApproxSS.pdf,上面說到二元logistic回歸的損失函數為:

log(1+exp(-2yf))

其中f = frac{1}{2} [frac{p}{1-p}] =  w*x,且此時y_i in (-1,1)

我搜了一下,http://people.csail.mit.edu/torralba/courses/6.869/lectures/lecture6/boosting.pdf在這課件上發現從第一種損失函數推導到第二種損失函數需要進行如下兩個變換:

1.令y^* = 2y-1,從而將範圍從(0,1)變換到(-1,1)。

2.令p = frac{exp(f)}{exp(f)+exp(-f)}

我的問題有兩個:

1.把上面兩個變換代入第一個損失函數,推導不到第二個損失函數,有沒有大神可以寫一下推導過程。

2. 為什麼要令p = frac{exp(f)}{exp(f)+exp(-f)}?在Logistic回歸中p = frac{1}{1+exp({-f})}p = frac{exp(f)}{exp(f)+exp(-f)}有什麼區別?


謝邀。

先糾正樓主兩個錯誤。首先,題主兩個y_i的取值範圍寫錯了,他們都不是連續值而是離散值,所以應該寫作y_iin{0,1}y_iin{-1,1}。這是因為我們處理的是二值分類問題,有的時候不注意確實很令人迷惑。其次,我稱呼這個sum_{i=1}^Ny_iln p+(1-y_i)ln p為函數A,要注意的是他是對數似然函數,所以應該求最大值,而不是最小值。如果前面加個符號,那出除了一個常數外等價於交叉熵,這時候才求最小值。

現在回答題主的問題。

1. 公式推導:

我稱呼ln(1+exp(-2yf))為損失函數B,那麼損失函數B是跟前面的函數A不完全等價,兩個原因。第一,損失函數B對應的是單個實例的損失函數,少了個求和或者是說是期望的符號。第二,原文里寫了損失函數B是"negative binomial likelihood",所以有個正負號的差別。

這樣的話,設y^*=2y-1,那麼

egin{aligned} yln p+(1-y)ln(1-p)\ =mathbb{I}(y=1)lnleft(frac{e^f}{e^f+e^{-f}}
ight)+mathbb{I}(y=0)ln(1-frac{e^f}{e^f+e^{-f}})\ =mathbb{I}(y^*=1)lnleft(frac{1}{1+e^{-2f}}
ight)+mathbb{I}(y^*=-1)lnleft(frac{1}{e^{2f}+1}
ight)\ =-ln(1+exp(-2y^*f)) end{aligned}

其中

mathbb{I}(A)=left{ egin{array}{ll} 1  	ext{如果}A	ext{為真}\ 0  	ext{如果}A	ext{為假} end{array} 
ight.

2. p取值差別

其實差不多,因為

p=frac{e^f}{e^f+e^{-f}}=frac{1}{1+e^{-2f}},跟frac{1}{1+e^{-t}}相比只是個係數差別罷了。


推薦閱讀:

請教一道無限情況的貝葉斯公式問題?
概率論中「矩」(moment)的實際含義是什麼,高階矩表示數據的哪些狀態?
如何推導指數分布的概率密度曲線?
有了方差為什麼需要標準差?

TAG:數學 | 統計學 | 機器學習 | Logistic回歸 |