Logit模型和Logistic模型有什麼區別?

之前在《Logit究竟是個啥?——離散選擇模型之三》一文中提過,Logit應該理解成Log-it,這裡的it指的是Odds(「勝率」,等於P/1-P)。一個Logit變換就是從概率P到的過程,如下圖所示:

當我們討論Logit的模型時候,指的是下面這種形式:

logleft( frac{P}{1-P} right)=β_0+β_1 x_1+β_2 x_2+?+β_n x_n ;;;; (1)

注意,等號的右邊是自變數的線性組合

我記得以前在學《數學建模》的時候,有一個人口增長模型:(1)如果沒有資源限制的話,人口隨時間的變化率 frac{dN}{dt} 和總人口的數量(N)呈線性關係(人口越多,繁殖的越快)——這就是指數增長模型(Exponential Growth,見下圖左側)。(2)實際情況下,由於受到環境、資源等各方面的限制,人口變化曲線一般呈S-型——起初人口數量較少的時候增長率較低,然後隨著時間的推移逐漸增加;當達到資源限制的瓶頸(K)的時候,增長率又下降至零——我們把這種非線性的S-型增長模型稱之為 Logistic Growth,如下圖右側所示。

求解上圖右側(Logistic Growth)對應的微分方程 frac{dN}{dt} = r frac{K-N}{K}N 。令 y=frac{N}{K} 可得:

frac{dy}{dt}=ry(1-y)

結合初始條件 t=t_0y=y_0 ,可以得到微分方程的解為:

y(t)=frac{1}{1+left( frac{1}{y_0}-1 right)e^{-rt}}

由於人口數量N總是小於閾值K(在 t_0 時刻的人口數量 N_0 小於K),所以 y_0=frac{N_0}{K}<1 ,故而 left( frac{1}{y_0} -1 right) 是一個大於0的數。我們總能找到一個常數 r_0 使得 left( frac{1}{y_0} -1 right) =e^{-r_0} 成立。這樣上式就可以簡化為:

y(t)=frac{1}{1+e^{-r_0-rt}}

更進一步:用 beta_0 替換 r_0beta 替換 r ,然後再把自變數換成 x ,可以得到一個看起來更加舒服的式子:

y=frac{1}{1+e^{-left( beta_0+beta x right)}} ;;;; (2)

(2)式即為Logistic函數。有沒有覺得這個式子很眼熟?

對於(1)式的Logit模型,只考慮一個自變數時:

logleft( frac{P}{1-P} right)=beta_0+beta_1 x_1

兩邊同時做指數運算(求e次方):

frac{P}{1-P}=e^{beta_0+beta_1 x_1 }

然後整理可得:

P=frac{1}{1+e^{- left( beta_0+beta_1 x_1 right)}} ;;;; (3)

(2)、(3)不是一樣的么?

所以,Logit 模型和Logistic模型是一回事。

當我們說Logit模型 的時候,一般指的就是這個式子:

logleft( frac{P}{1-P} right)=beta_0+beta_1 x_1

當我們說Logistic模型 的時候,一般指的是這個式子:

P=frac{1}{1+e^{- left( beta_0+beta_1 x_1 right)}}

小結一下:

(1)Logit模型的左側是Odds的對數,而Logistic模型的左側是概率。

(2)Logit模型的右側是一個線性結構,而Logistic模型的右側是非線性的。

(3)二者可以相互轉化。

題外話:Logit模型是基於效用理論(可以參見上一篇文章:效用最大化準則:離散選擇模型的核心(Probit篇)——離散選擇模型之七)推導出來的,而Logistic函數可以通過求解微分方程得到。兩者最後竟然異曲同工——不得不承認數學的神奇!


推薦閱讀:

Logistic regression是否能在大量有歧義的樣本中很好的學習到其概率分布?

TAG:离散选择模型 | Logistic回归 | logisticregression |