標籤:

怎麼從通俗意義上理解邏輯回歸的損失函數?

跟組裡同事介紹LR,被問到一個問題,談到邏輯回歸的對數損失函數,問有沒有和平方損失函數一樣,差值就是需要最小化的目標這種理解。對於logloss,貌似只能從最大釋然函數中推出,不能給出直觀的含義。有人能給出logloss通俗意義上的解釋嗎?


邏輯回歸模型參數的求解,一般通過極大似然估計,也就得到了logloss。至於logloss,個人覺得有一個稍微有點物理意義的解釋:可以把logloss分解成真實分布的熵+真實分布與預測分布的相對熵(KL散度),前半部分是固定的,所以最小化logloss相當於在最小化真實分布與預測分布之間的差異。


首先,要明確邏輯似地回歸為什麼要用似然函數方程來求極值。我覺得很大一部分原因在於邏輯斯蒂回歸模型本質上是一個「概率模型」。具體可以參看《統計學習方法》中,關於邏輯斯蒂回歸的介紹。我們簡單拎出幾個公式來說明它的物理含義。【純屬個人意見,如有不當,請指正。】

邏輯斯蒂回歸模型中,我們用到了一個叫Sigmoid曲線,它Logistic曲線。具體的公式如下:

F(x) = P(X le x) = frac{1}{1+ e^{-(x-mu)/gamma}}

在斯坦福大學,吳恩達中的視頻教程里,命名為Sigmoid函數,公式如下:

P(Y = 1 | x) = frac{1}{1+e^{-z}} ,其中z = wcdot x^T,w = (w_1,w_2,...,w_n),x = (x_1,x_2,...,x_n)

給出Sigmoid曲線為:

你會發現,Sigmoid函數和書中定義的Logistic曲線其實一個函數模型。而在吳恩達的視頻中,他直接「湊出」了一個CostFunction,也就是題主所提到的CostFunction。

那麼它是怎麼來的呢?剛才說過邏輯斯蒂回歸模型其實概率模型,因為在描述該分類時,我們其實是以概率來衡量的。從Logistic曲線就能看出,無論橫坐標取什麼值,它的值總是在[0,1]之間變化,它的物理含義很明確,指單個樣例,在條件x下,出現的【概率】。我們還要時刻注意一點,橫坐標【x】的物理含義是什麼?要知道這個,我們需要拿出一個實際的生物模型,它在生物學中有廣泛的應用。如下圖所示:

這是草履蟲密度的分布圖,你會發現它的擬合曲線即為我們定義的Logistic曲線或Sigmoid曲線,呵呵,怎麼那麼巧呢。簡單解釋下該圖的物理內涵,剛開始,種群的數量非常少,繁殖的速度會比較慢。隨著數量的增加,繁殖速度越來越快,然後,會因為食物不足,有天敵出現等原因,增速開始下降,最後穩定在一個範圍內。Logistic曲線非常好的描述了這個變化規律。

所以總結一下,就是,該曲線可以作為種群達到【穩定狀態】的分布曲線。當橫坐標的「條件」非常苛刻時,如【0-5】分鐘內,草履蟲相比去其他物種出現的概率小之又小,而在15分鐘後,草履蟲穩定了自己的狀態,那麼我們就認為在當前條件下,【草履蟲種群】出現的概率為1。Ok,回到真正的邏輯斯蒂回歸模型,去做分類時,我們是否一樣可以有這樣的認知?

現在假設我們有待分類的數據,分為種群【A類】和【B類】,那麼不管是A類還是B類中的單個樣本,它出現的概率我們都可以用Logistic曲線來描述。如在A類中,某個樣本的概率為:

P(Y = A | x_0 ) = frac{1}{1 + e ^{-z_0}}

針對A類中的某個樣本x_o ,當它達到條件「z_0 」時,出現的概率為P(Y = A | x_0) 。這裡條件z_0 怎麼理解呢?對比下,草履蟲的條件,時間【t】是不是有一些新的認識了?它的概率其實對之前所有條件的累加,而非單個點的概率,所以更準確的A類某個樣例的概率為:

P(Y = A |-infty le x_0 le z_0) = frac{1}{1+ e^{-z_0}}

條件z_0 是涵蓋了之前所有條件的隨機變數!!!目前我所能想到的富含這種特徵的隨機變數也就是時間了。所以邏輯斯蒂回歸模型中對特徵向量的選取還是有一定講究的,最好能夠隨時間發生變化的量,而且隨著時間趨於穩定的特徵量(或者說是符合Logistic曲線的特徵量),才能達到很好的分類效果。【純屬個人猜測,還未實際驗證(┬_┬)】

好了,接下來的事情就簡單了,因為對於數據樣本中,所有單個樣本都對應於一個概率,那麼我們可以用概率模型就能描述這個分類過程了。此處用的核心思想便是【貝葉斯哲學】,所謂透過現象看本質,P(	heta | X) = frac{P(	heta)P(X| 	heta)}{P(X)} ,我們不去考慮模型參數	heta 的先驗概率和出現該數據分布P(X)本身的概率,那麼就有:

P(	heta | X) sim P(X|	heta) ,此處	heta 表示模型參數,而X便是所有數據樣本(表象)

所以有了貝葉斯公式,我們只需要求解等式右邊即可,而等式右邊的公式,無非就是所有樣本出現A類或B類概率的乘積:

P(Y = 1| x ) = pi(x), P(Y = 0 | x) = 1 - pi (x)

似然函數為:

prod_{i=1}^N[pi(x_i)]^{y_i}[1-pi(x_i)]^{1-y_i}

有了似然函數,用log求其對數似然函數的極值,就能求解出參數	heta

egin{align*} L(w)  = sum_{i = 1}^N[y_ilogpi(x_i)+ (1-y_i)log(1-pi(x_i))]\ = sum_{i=1}^N[y_ilog(frac{pi(x_i)}{1-pi(x_i)})+log(1-pi(x_i))]\ =sum_{i=1}^N[y_i(wcdot x_i) - log (1+ exp(wcdot x_i))] end{align*}

對L(w)求極大值,得到w的估計值。這樣,問題就變成了以對數似然函數為目標函數的最優化問題。邏輯斯蒂回歸學習中通常採用的方法是梯度下降法及擬牛頓法。


自己的理解,哈哈,這個問題的原因肯定是這樣的


個人感覺可以如下直白理解, 一條樣本記錄分類為1,但是這條記錄經過sigmoid函數變成了 0.8,這個時候是不是損失了0.2,這也就是所謂損失,另一條樣本記錄分類為0 ,但是經過sigmoid函數變成了0.3 這個時候是不是損失了0.3,如果函數的求解結果為相加的話,0.2+0.3=0.5 這個就是損失對應的值,但是最大似然函數是相乘,也就是 0.8 * (1-0.3)= 0.56,但是其實應該是1*1=1 ,是不是損失了0.44?這個損失我怎麼算 ,就是總損失函數 1-Pi (h({	heta })) ,但是單個的損失函數咋算呢?如果認為單個損失函數為 1-0.8 也就是 1- h(xi) ,累積最小總損失就是求單個損失的累乘最小。 上面是說不進行log處理的情況下,log處理後呢我們有 0.8 * (1-0.3) 轉換成了 log0.8 + log(1-0.3) ,沒損失的情況下為 log1 + log1 = 0, 此時呢 log0.8 + log0.7 = -0.25 這就是損失。 此時看到是一個負值是吧,如果前面加-號,此時也就是損失值,也就是說損失了0.25,單個損失了多少呢?- log0.8 = 0.0969 - log0.7=-0.154,我們只需求每個損失之和就好了。這樣是不是理解了。為了說明損失過程,邏輯回歸的說明回答上有些欠全面,希望此回答對看到這個問題的有所幫助


h(x)得出的結果可以理解為概率p,即:

h(x1)對應在x=x1條件下,y=y1的概率為p1,

h(x2)對應在x=x2條件下,y=y2的概率為p2

。。。。。。。

h(xn)對應在x=xn條件下,y=yn的概率為pn

那麼對於既定的樣本(X,Y),h(x)是什麼函數的情況下最理想呢?

就是該函數令p1*p2*p3*......*pn為最大值時

而損失函數一般是每條數據的損失之和,為了把積變為和,就取了對數

再加個負號是為了讓最大似然值和最小損失對應起來。

此處感謝 @王贇 Maigo 在另一個問題的回答

對數損失函數是如何度量損失的? - 機器學習 - 知乎

------

附百度百科對似然和概率區別的描述

在教科書中,似然常常被用作「概率」的同義詞。但是在統計學中,二者有截然不同的用法。概率描述了已知參數時的隨機變數的輸出結果;似然則用來描述已知隨機變數輸出結果時,未知參數的可能取值。例如,對於「一枚正反對稱的硬幣上拋十次」這種事件,我們可以問硬幣落地時十次都是正面向上的「概率」是多少;而對於「一枚硬幣上拋十次,落地都是正面向上」這種事件,我們則可以問,這枚硬幣正反面對稱的「似然」程度是多少

我不是很理解似然,下面這題答案是什麼,如何理解?請大神解析

硬幣正反面對稱的「似然」程度。。。。這說法好奇怪。。

「一枚硬幣上拋十次,落地都是正面向上」這種事件,這枚硬幣正反面對稱的「似然」程度是多少? - 數學 - 知乎


平方損失的話不是絕對不可以,只不過接近0和1的地方梯度極小,不容易學習,所以使用交叉熵解決這個問題…


學渣強答一波吧。

最小二乘算平方和一般都是解決線性損失的,這種對數回歸分類模型的參數估計一般都是用似然函數就是交叉熵來梯度下降或者牛頓法而不是用殘差,反正我是這麼理解的。。。。

老師之前講參數估計也就是最大似然和樸素貝葉斯這倆


也沒啥太直觀的解釋吧,概率取個log什麼的,好多都是從資訊理論借過來的一些概念和方法。


推薦閱讀:

Metropolis Hasting演算法如何推導出Gibbs Sampling?
模式識別與智能系統專業研究生找工作好找么?
adaboost的樣本權值如何對弱分類器產生影響?
凸優化書籍推薦?

TAG:機器學習 |