廣義線性模型(Generalized Linear Model)

概要:

本文將會 說明 線性回歸和邏輯回歸都是廣義線性模型的一種特殊形式,介紹廣義線性模型的一般求解步驟。 利用廣義線性模型推導 出 多分類的Softmax Regression。

線性回歸中我們假設:

邏輯回歸中我們假設:

其實它們都只是 廣義線性模型 (GLMs) 的特例。提前透露:有了廣義線性模型下 我們只需要把 符合指數分布的一般模型 的參數 轉換成它對應的廣義線性模型參數,然後 按照 廣義線性模型的 求解步驟 即可輕鬆求解問題。

指數分布族( The exponential family)

首先我們定義一下什麼是指數分布族,它有如下形式:

簡單介紹下其中的參數 (看不懂沒關係)

  • eta 是 自然參數 ( natural parameter )

  • T(y) 是充分統計量( su?cient statistic ) (一般情況下 T(y) = y

  • a(eta) 是 log partition function ( e^{ - a(eta)} 充當正規化常量的角色,保證 sum p(y; eta)  = 1

也就是所 T,a, b 確定了一種分布,eta 是 該分布的參數。

選擇合適的 T, a,b 我們可以得到 高斯分布 和 Bernoulli 分布。

Bernoulli分布的指數分布族形式:

=>

即:在如下參數下 廣義線性模型是 Bernoulli 分布

eta = log( phi / (1- phi)) Rightarrow  phi  = 1/(1 + e^{-eta})

Gaussian 分布的指數分布族形式

在線性回歸中,sigma 對於模型參數 	heta 的選擇沒有影響,為了推導方便我們將其設為1:

得到 對應的參數:

用廣義線性模型進行建模:

想用 廣義線性模型對一般問題進行建模首先需要明確幾個 假設:

  1. y | x;θ sim ExponentialFamily(eta) y的條件概率屬於指數分布族
  2. 給定x 廣義線性模型的目標是 求解 T(y) | x , 不過由於 很多情況下 T(y) = y 所以我們的目標變成了 y | x , 也即 我們希望擬合函數為  h(x) = E[y|x] ( 備註: 這個條件在 線性回歸 和 邏輯回歸中都滿足, 例如 邏輯回歸中 hθ(x) = p(y = 1|x;	heta) = 0 cdot p(y = 0|x; 	heta) + 1 cdot  p(y = 1|x; 	heta) = E[y|x;	heta]) )
  3. 自然參數 eta 與 x是線性關係 : eta = 	heta ^T x ( eta 為向量時 eta_{i} = 	heta_{i} ^T x )

有了如上假設 就可以 進行建模和求解了:

具體參考下面例子。

廣義線性模型 推導出 線性回歸:

step1: y | x;θ sim N( mu , 	heta)

step2: 由假設2  h(x) = E[y|x] 得到:

廣義線性模型 推導出 邏輯回歸

step1: y|x;	heta sim Bernoulli(phi)

step2: 與上面同理

廣義線性模型推導出 Softmax Regression (多分類演算法 ):

【step1】:

y有多個可能的分類: y in   left{   1,2,...,k  
ight}

每種分類對應的概率: phi_{1}, phi_{2}, cdots ,phi_{k},  但是 由於 sum _{i =1}^{k}{phi_{i}} = 1 , 所以一般 用 k-1個參數 phi_{1}, phi_{2}, cdots ,phi_{k-1},  其中 phi_{i} = p(y = i; phi) ; , p(y = k; phi) = 1 - sum _{i=1}^{ k-1} {phi_{i}}

為了將 多項分布 表達為 指數族分布:

  • 定義  T(y) in  R^{k-1} ,它不再是 一個數 而是一個變數

  • 引進指示函數:  1 left{ cdot 
ight}  1left{ True 
ight}  = 1 ; , 1left{ False 
ight}  = 0

  •  E[(T(y))i] = P(y = i) = phi_{i}

得到它的指數分布族形式 以及 各個對應參數為:

求出 phi_{i} :

=>

也即:

至此我們就可以利用廣義線性模型進行求解:

【step2】

可見 擬合函數的輸出結果是 每一種分類對應的概率 所組成的向量。

接下了只需要根據 最大似然法擬合參數即可:

可以用梯度上升或著牛頓法。
推薦閱讀:

求一條直線使得這條直線到給定點集距離的平方和最小。應該怎麼推導?
請問為何「E(XY)=E(X)E(Y)」或者「相關係數=0」等價於「變數之間沒有線性關係」?有沒有幾何解釋呢?
在進行 OLS 估計時,為了滿足 BLUE 條件,為什麼會有 X 取值要在重複抽樣時固定的前提?

TAG:机器学习 | 线性回归 | 指数分布 |