廣義線性模型(GLIM)

廣義線性模型(GLIM)

來自專欄一個港碩的日常

1 從簡單線性回歸說起

大多數人入門回歸模型,應該是從最簡單的一元線性回歸模型 y = ax+b 開始的,或者更通用一些: y = xeta 。一些材料在描述這個模型時,會用直線擬合來簡要類比這個模型的意義,用輸入是x軸,輸出是y軸這樣的模式來理解該回歸模型。單單從這個模型上來看,這樣的類比是沒錯的。但放到廣義線性模型的框架中,太執著於y是輸出,或者單純地  ax+b 是輸入,在更泛化地討論線性模型時,可能會陷入一些小小的誤區。

對於簡單線性回歸,我們有一個前提就是 y sim N(mu,sigma^2) 。y既然是一個隨機變數,如何跟右端的線性加和取等號呢? 實際上,這裡的函數關係是 E(y) = xeta ,而 E(y) = mu ,因此,我們訓練簡單一元線性回歸,實際上是在求輸入的影響因子與輸出模型的期望之間的線性關係。這就是我個人對廣義線性模型的概括。

2 廣義線性回歸模型三要素

  1. 假定一個輸出服從的指數分布族 首先要明確輸出值的分布,有什麼樣的特點(樣本均值與樣本方差的數值關係)。從樣本數據特徵出發,假設隨機變數的真實分布。
  2. 線性預測因子(linear predictor) 選取影響因子,組成一個線性關係,也就是 xeta
  3. 連接函數(link function)描述影響因子線性組合的值,與輸出之間的關係。

所以描述廣義線性模型,實際上就是描述了上三者在指數分布族、影響因子線性組合、連接函數三個空間中的一種組合。不嚴格地說,「廣義」「線性」模型,線性體現在線性預測因子上,廣義體現在指數分布族上。

2.1 為什麼要有連接函數以及連接函數怎麼選取

連接函數簡單地說是因為等式右端 xeta 其值域是實數域, 而右端的 E(y) 不一定是什麼。比如若y選擇服從泊松分布,泊松分布的期望是大於0的,因此直接用不合適。

所以連接函數的選取首選要考慮值域的關係。其次,每個分布的概率密度函數中都含有連接函數的「秘密」。所有指數分布族的分布,包括正態分布,泊松分布,二項分布,伽馬分布等,都可以寫成一個統一的函數形式。其中的一個分量可以取反函數從而得到原始的連接函數(Canonical link function)。比如正態分布的原始連接函數是 	heta = x ,反應在模型上與期望就是直接取等;泊松分布的原始連接是 	heta = log(x) ,因此反應在模型上, E(y) = e^{xeta}

3 隨便整一個線性模型

綜上,我們就可以在指數分布族下整出任何一種廣義線性模型。首先在指數分布族中選取分布,其次選取連接函數在分布期望與線性預測因子之間建立函數關係;然後通過構造最小二乘或求解極大似然得到模型。

4 分清 樣本推斷與廣義線性模型的區別

其實這兩個東西沒有大關係。但在剛開始學習時可能會有一點confusing。我們的訓練結果是輸出分布的期望與輸入因子的線性關係,反過來說,因為期望是分布族的參數之一,因此每個不同的輸入,得到的分布的概率密度函數其實是不一樣的!訓練回歸模型的樣本,對輸出列做統計推斷是沒有意義的,因為輸出列每一個值所服從的分布的參數,由影響因子不同而不同,並不是獨立同分布的。

又或者說,當影響因子一定(沒有更多的隨機干擾),我們來做N次試驗,通過N次試驗可以推斷出在當前固定的影響因子下,樣本期望是什麼,從而推斷分布期望。而回歸模型的任務是當影響因子不斷變化時,我們的分布會隨之如何改變。


推薦閱讀:

TAG:模型 | 自然科學 | 數學 |