廣義線性模型(GLM)中的Binomial分布的連接函數為什麼是logit?

我看的是Wiki,鏈接如下:

Generalized linear model

y~Binomial的時候,要用Logit函數作為連接函數進行變換,但是,使我疑惑的一點是,Binomial分布的Support是非負整數,但是Logit函數可接受的Support在(0,1),這讓我很困擾啊!這樣怎麼輸入呢?

PS:

1,就目前我閱讀資料以後,我的理解是GLM就是把y的值域拓展到R上方便回歸,這麼說對嗎?

2,Logistic Regression為什麼會是分類演算法?

如果問了個傻問題請大家見諒。


Probit 與 Logit 都可以,二者得到的預測線通常很接近。Logit 比 Probit 有更多好處,所以是預設的選項。具體的好處比如——

  • Logit 得到自變數每增加一個單位,因變數的是非比 (Odds) 改變為若干倍數,這個倍數就叫 Odds Ratio,Probit 的結果沒有這樣符合生活語言的表達方式
  • Logit 能更穩健地利用尾部的數據
  • 在電腦不夠普及的年代,Logit 的計算量小很多
  • Logit 可以由 最大墒原理推導 (pdf)

Probit 與正態分布的推導關係

從教學角度,Probit 比 Logit 更容易理解如何從標準差固定為1的正態分布 LM 的 varepsilon_iequiv (Y_i-eta x_i) sim Normal(0,1) 推廣到Probit 二項分布的 GLM D_iequiv(0 le Y_i)=(-varepsilon_i le eta x_i) sim Binomial(Probit^{-1}(eta x_i))

Logit 與正態分布的推導關係

在連續的 X 與二水平的 D 都是隨機數的時候,從 X | D=0 服從正態分布 Normal(mu_0,1)X | D=1 服從正態分布 Normal(mu_1,1) 也可以推導出 D | X 服從 Binomial(Logit^{-1}(eta_0+eta_1 X))

Prleft(D=1|x
ight)=frac{fleft(X=x|D=1
ight)	imes Prleft(D=1
ight)}{fleft(X=x|D=1
ight)	imes Prleft(D=1
ight)+fleft(X=x|D=0
ight)	imes Prleft(D=0
ight)}=frac{1}{1+frac{Prleft(D=0
ight)}{Prleft(D=1
ight)}	imesfrac{fleft(X=x|D=0
ight)}{fleft(X=x|D=1
ight)}}=frac{1}{1+expleft[-left(eta_{0}+eta_{1}x
ight)
ight]}eta_{1}=mu_{1}-mu_{0};;eta_{0}=frac{mu_{0}^{2}-mu_{1}^{2}}{2}+logfrac{Prleft(D=1
ight)}{Prleft(D=0
ight)}

圖示幫助理解從 LM 如何推廣到 GLM

下圖每個點表示橫軸教育年限個案匯總平均的樣本點贊率(在0~1之間)。Logit (或者 Probit,或者任何其它的 link 函數)可以把縱軸映射為 -infty sim infty ,同時把該模型的預測線捋直。圖上每個點如果能按樣本量縮放圖標效果會更好。延伸閱讀:Binomial預測與道德譴責 - 知乎專欄


Binomial 分布和 Bernoulli 分布在 GLM 中的表示形式是一樣的。

Binomial 分布是重複 n 次的 Bernoulli 實驗。假設每次的成功概率是 p。

Binomial 分布和 Bernoulli 分布在 GLM 中的連接函數都是:

	heta ^{T} x=ln(frac{p}{1-p} )

一邊是自變數的線性組合,一邊是伯努利實驗的成功概率 p,而不是你說的「Binomial分布的Support是非負整數」,既然是概率 p,就跟「Logit函數可接受的Support在(0,1)」沒有矛盾了。

PS:

1、GLM 是通過連接函數,把自變數線性組合和因變數的概率分布連起來,該概率分布可以是高斯分布、二項分布、多項式分布、泊松分布、伽馬分布、指數分布、貝塔分布和 Dirichlet 分布,所以被稱作廣義線性模型。供參考。

2、Logistic 回歸為什麼會是分類演算法?

這裡要理解回歸的含義。這裡的回歸併不是回歸到具體的 1 或 0 值,而是伯努利實驗的成功概率 p,這個 p 會隨著數據集的訓練而回歸到真正的值。

對於不同的 x,因變數 y 的期望 p 也不一樣。

也可以認為,回歸是到自變數線性組合 	heta ^{T} x 的參數 	heta ,我們假定 	heta 是一個未知常向量,隨著訓練數據集不斷校正 	heta ,最終 	heta 會回歸到定值。


推薦閱讀:

如何計算空方格數的期望?
怎麼理解互斥事件和相互獨立事件?
石頭剪子布隨機消去,最後剩餘各情況的概率如何求解?
如何理解函數可以看成是一個無限維的向量?
房間內有 100 人,每人有 100 塊,每分鐘隨機給另一個人 1 塊,最後這個房間內的財富分布怎樣?

TAG:數學 | 統計 | 數學模型 | 概率論 | 一般線性模型 |