廣義線性模型（GLM）中的Binomial分布的連接函數為什麼是logit？

01-21

我看的是Wiki，鏈接如下：
Generalized linear model
y~Binomial的時候，要用Logit函數作為連接函數進行變換，但是，使我疑惑的一點是，Binomial分布的Support是非負整數，但是Logit函數可接受的Support在(0,1)，這讓我很困擾啊！這樣怎麼輸入呢？

PS：
1，就目前我閱讀資料以後，我的理解是GLM就是把y的值域拓展到R上方便回歸，這麼說對嗎？
2，Logistic Regression為什麼會是分類演算法？
如果問了個傻問題請大家見諒。

Probit 與 Logit 都可以，二者得到的預測線通常很接近。Logit 比 Probit 有更多好處，所以是預設的選項。具體的好處比如——

Logit 得到自變數每增加一個單位，因變數的是非比 (Odds) 改變為若干倍數，這個倍數就叫 Odds Ratio，Probit 的結果沒有這樣符合生活語言的表達方式
Logit 能更穩健地利用尾部的數據
在電腦不夠普及的年代，Logit 的計算量小很多
Logit 可以由最大墒原理推導 (pdf)

Probit 與正態分布的推導關係

從教學角度，Probit 比 Logit 更容易理解如何從標準差固定為1的正態分布 LM 的 $varepsilon_iequiv (Y_i-eta x_i) sim Normal(0,1)$ 推廣到Probit 二項分布的 GLM $D_iequiv(0 le Y_i)=(-varepsilon_i le eta x_i) sim Binomial(Probit^{-1}(eta x_i))$ 。

Logit 與正態分布的推導關係

在連續的 X 與二水平的 D 都是隨機數的時候，從 X | D=0 服從正態分布 $Normal(mu_0,1)$ 、X | D=1 服從正態分布 $Normal(mu_1,1)$ 也可以推導出 D | X 服從 $Binomial(Logit^{-1}(eta_0+eta_1 X))$

$Prleft(D=1|x ight)=frac{fleft(X=x|D=1 ight) imes Prleft(D=1 ight)}{fleft(X=x|D=1 ight) imes Prleft(D=1 ight)+fleft(X=x|D=0 ight) imes Prleft(D=0 ight)}$ $=frac{1}{1+frac{Prleft(D=0 ight)}{Prleft(D=1 ight)} imesfrac{fleft(X=x|D=0 ight)}{fleft(X=x|D=1 ight)}}=frac{1}{1+expleft[-left(eta_{0}+eta_{1}x ight) ight]}$ $eta_{1}=mu_{1}-mu_{0};;eta_{0}=frac{mu_{0}^{2}-mu_{1}^{2}}{2}+logfrac{Prleft(D=1 ight)}{Prleft(D=0 ight)}$

圖示幫助理解從 LM 如何推廣到 GLM

下圖每個點表示橫軸教育年限個案匯總平均的樣本點贊率（在0～1之間）。Logit （或者 Probit，或者任何其它的 link 函數）可以把縱軸映射為 $-infty sim infty$ ，同時把該模型的預測線捋直。圖上每個點如果能按樣本量縮放圖標效果會更好。延伸閱讀：Binomial預測與道德譴責 - 知乎專欄