廣義線性模型（GLIM）

10-14

廣義線性模型（GLIM）

來自專欄一個港碩的日常

1 從簡單線性回歸說起

大多數人入門回歸模型，應該是從最簡單的一元線性回歸模型 $y = ax+b$ 開始的，或者更通用一些: $y = xeta$ 。一些材料在描述這個模型時，會用直線擬合來簡要類比這個模型的意義，用輸入是x軸，輸出是y軸這樣的模式來理解該回歸模型。單單從這個模型上來看，這樣的類比是沒錯的。但放到廣義線性模型的框架中，太執著於y是輸出，或者單純地 $ax+b$ 是輸入，在更泛化地討論線性模型時，可能會陷入一些小小的誤區。

對於簡單線性回歸，我們有一個前提就是 $y sim N(mu,sigma^2)$ 。y既然是一個隨機變數，如何跟右端的線性加和取等號呢？實際上，這裡的函數關係是 $E(y) = xeta$ ，而 $E(y) = mu$ ，因此，我們訓練簡單一元線性回歸，實際上是在求輸入的影響因子與輸出模型的期望之間的線性關係。這就是我個人對廣義線性模型的概括。

2 廣義線性回歸模型三要素

假定一個輸出服從的指數分布族首先要明確輸出值的分布，有什麼樣的特點（樣本均值與樣本方差的數值關係）。從樣本數據特徵出發，假設隨機變數的真實分布。
線性預測因子（linear predictor）選取影響因子，組成一個線性關係，也就是 $xeta$ 。
連接函數（link function）描述影響因子線性組合的值，與輸出之間的關係。

所以描述廣義線性模型，實際上就是描述了上三者在指數分布族、影響因子線性組合、連接函數三個空間中的一種組合。不嚴格地說，「廣義」「線性」模型，線性體現在線性預測因子上，廣義體現在指數分布族上。

2.1 為什麼要有連接函數以及連接函數怎麼選取

連接函數簡單地說是因為等式右端 $xeta$ 其值域是實數域，而右端的 $E(y)$ 不一定是什麼。比如若y選擇服從泊松分布，泊松分布的期望是大於0的，因此直接用不合適。

所以連接函數的選取首選要考慮值域的關係。其次，每個分布的概率密度函數中都含有連接函數的「秘密」。所有指數分布族的分布，包括正態分布，泊松分布，二項分布，伽馬分布等，都可以寫成一個統一的函數形式。其中的一個分量可以取反函數從而得到原始的連接函數（Canonical link function）。比如正態分布的原始連接函數是 $heta = x$ ，反應在模型上與期望就是直接取等；泊松分布的原始連接是 $heta = log(x)$ ,因此反應在模型上， $E(y) = e^{xeta}$ 。

3 隨便整一個線性模型

綜上，我們就可以在指數分布族下整出任何一種廣義線性模型。首先在指數分布族中選取分布，其次選取連接函數在分布期望與線性預測因子之間建立函數關係；然後通過構造最小二乘或求解極大似然得到模型。

4 分清樣本推斷與廣義線性模型的區別

其實這兩個東西沒有大關係。但在剛開始學習時可能會有一點confusing。我們的訓練結果是輸出分布的期望與輸入因子的線性關係，反過來說，因為期望是分布族的參數之一，因此每個不同的輸入，得到的分布的概率密度函數其實是不一樣的！訓練回歸模型的樣本，對輸出列做統計推斷是沒有意義的，因為輸出列每一個值所服從的分布的參數，由影響因子不同而不同，並不是獨立同分布的。

又或者說，當影響因子一定（沒有更多的隨機干擾），我們來做N次試驗，通過N次試驗可以推斷出在當前固定的影響因子下，樣本期望是什麼，從而推斷分布期望。而回歸模型的任務是當影響因子不斷變化時，我們的分布會隨之如何改變。

廣義線性模型（GLIM）

1 從簡單線性回歸說起

2 廣義線性回歸模型三要素

2.1 為什麼要有連接函數以及連接函數怎麼選取

3 隨便整一個線性模型

4 分清 樣本推斷與廣義線性模型的區別

4 分清樣本推斷與廣義線性模型的區別