廣義線性模型(GLM)中的Binomial分布的連接函數為什麼是logit?
01-21
我看的是Wiki,鏈接如下:
Generalized linear modely~Binomial的時候,要用Logit函數作為連接函數進行變換,但是,使我疑惑的一點是,Binomial分布的Support是非負整數,但是Logit函數可接受的Support在(0,1),這讓我很困擾啊!這樣怎麼輸入呢?PS:
1,就目前我閱讀資料以後,我的理解是GLM就是把y的值域拓展到R上方便回歸,這麼說對嗎?2,Logistic Regression為什麼會是分類演算法?如果問了個傻問題請大家見諒。
Probit 與 Logit 都可以,二者得到的預測線通常很接近。Logit 比 Probit 有更多好處,所以是預設的選項。具體的好處比如——
- Logit 得到自變數每增加一個單位,因變數的是非比 (Odds) 改變為若干倍數,這個倍數就叫 Odds Ratio,Probit 的結果沒有這樣符合生活語言的表達方式
- Logit 能更穩健地利用尾部的數據
- 在電腦不夠普及的年代,Logit 的計算量小很多
- Logit 可以由 最大墒原理推導 (pdf)
Probit 與正態分布的推導關係
從教學角度,Probit 比 Logit 更容易理解如何從標準差固定為1的正態分布 LM 的 推廣到Probit 二項分布的 GLM 。
Logit 與正態分布的推導關係
在連續的 X 與二水平的 D 都是隨機數的時候,從 X | D=0 服從正態分布 、X | D=1 服從正態分布 也可以推導出 D | X 服從
圖示幫助理解從 LM 如何推廣到 GLM
下圖每個點表示橫軸教育年限個案匯總平均的樣本點贊率(在0~1之間)。Logit (或者 Probit,或者任何其它的 link 函數)可以把縱軸映射為 ,同時把該模型的預測線捋直。圖上每個點如果能按樣本量縮放圖標效果會更好。延伸閱讀:Binomial預測與道德譴責 - 知乎專欄
Binomial 分布和 Bernoulli 分布在 GLM 中的表示形式是一樣的。
Binomial 分布是重複 n 次的 Bernoulli 實驗。假設每次的成功概率是 p。Binomial 分布和 Bernoulli 分布在 GLM 中的連接函數都是:一邊是自變數的線性組合,一邊是伯努利實驗的成功概率 p,而不是你說的「Binomial分布的Support是非負整數」,既然是概率 p,就跟「Logit函數可接受的Support在(0,1)」沒有矛盾了。
PS:1、GLM 是通過連接函數,把自變數線性組合和因變數的概率分布連起來,該概率分布可以是高斯分布、二項分布、多項式分布、泊松分布、伽馬分布、指數分布、貝塔分布和 Dirichlet 分布,所以被稱作廣義線性模型。供參考。2、Logistic 回歸為什麼會是分類演算法?這裡要理解回歸的含義。這裡的回歸併不是回歸到具體的 1 或 0 值,而是伯努利實驗的成功概率 p,這個 p 會隨著數據集的訓練而回歸到真正的值。
對於不同的 x,因變數 y 的期望 p 也不一樣。也可以認為,回歸是到自變數線性組合 的參數 ,我們假定 是一個未知常向量,隨著訓練數據集不斷校正 ,最終 會回歸到定值。推薦閱讀:
※如何計算空方格數的期望?
※怎麼理解互斥事件和相互獨立事件?
※石頭剪子布隨機消去,最後剩餘各情況的概率如何求解?
※如何理解函數可以看成是一個無限維的向量?
※房間內有 100 人,每人有 100 塊,每分鐘隨機給另一個人 1 塊,最後這個房間內的財富分布怎樣?