廣義線性模型(GLIM)
來自專欄一個港碩的日常
1 從簡單線性回歸說起
大多數人入門回歸模型,應該是從最簡單的一元線性回歸模型 開始的,或者更通用一些: 。一些材料在描述這個模型時,會用直線擬合來簡要類比這個模型的意義,用輸入是x軸,輸出是y軸這樣的模式來理解該回歸模型。單單從這個模型上來看,這樣的類比是沒錯的。但放到廣義線性模型的框架中,太執著於y是輸出,或者單純地 是輸入,在更泛化地討論線性模型時,可能會陷入一些小小的誤區。
對於簡單線性回歸,我們有一個前提就是 。y既然是一個隨機變數,如何跟右端的線性加和取等號呢? 實際上,這裡的函數關係是 ,而 ,因此,我們訓練簡單一元線性回歸,實際上是在求輸入的影響因子與輸出模型的期望之間的線性關係。這就是我個人對廣義線性模型的概括。
2 廣義線性回歸模型三要素
- 假定一個輸出服從的指數分布族 首先要明確輸出值的分布,有什麼樣的特點(樣本均值與樣本方差的數值關係)。從樣本數據特徵出發,假設隨機變數的真實分布。
- 線性預測因子(linear predictor) 選取影響因子,組成一個線性關係,也就是 。
- 連接函數(link function)描述影響因子線性組合的值,與輸出之間的關係。
所以描述廣義線性模型,實際上就是描述了上三者在指數分布族、影響因子線性組合、連接函數三個空間中的一種組合。不嚴格地說,「廣義」「線性」模型,線性體現在線性預測因子上,廣義體現在指數分布族上。
2.1 為什麼要有連接函數以及連接函數怎麼選取
連接函數簡單地說是因為等式右端 其值域是實數域, 而右端的 不一定是什麼。比如若y選擇服從泊松分布,泊松分布的期望是大於0的,因此直接用不合適。
所以連接函數的選取首選要考慮值域的關係。其次,每個分布的概率密度函數中都含有連接函數的「秘密」。所有指數分布族的分布,包括正態分布,泊松分布,二項分布,伽馬分布等,都可以寫成一個統一的函數形式。其中的一個分量可以取反函數從而得到原始的連接函數(Canonical link function)。比如正態分布的原始連接函數是 ,反應在模型上與期望就是直接取等;泊松分布的原始連接是 ,因此反應在模型上, 。
3 隨便整一個線性模型
綜上,我們就可以在指數分布族下整出任何一種廣義線性模型。首先在指數分布族中選取分布,其次選取連接函數在分布期望與線性預測因子之間建立函數關係;然後通過構造最小二乘或求解極大似然得到模型。
4 分清 樣本推斷與廣義線性模型的區別
其實這兩個東西沒有大關係。但在剛開始學習時可能會有一點confusing。我們的訓練結果是輸出分布的期望與輸入因子的線性關係,反過來說,因為期望是分布族的參數之一,因此每個不同的輸入,得到的分布的概率密度函數其實是不一樣的!訓練回歸模型的樣本,對輸出列做統計推斷是沒有意義的,因為輸出列每一個值所服從的分布的參數,由影響因子不同而不同,並不是獨立同分布的。
又或者說,當影響因子一定(沒有更多的隨機干擾),我們來做N次試驗,通過N次試驗可以推斷出在當前固定的影響因子下,樣本期望是什麼,從而推斷分布期望。而回歸模型的任務是當影響因子不斷變化時,我們的分布會隨之如何改變。
推薦閱讀: