泊松回歸模型和對數線性模型的區別是什麼?

服從泊松分布的回歸模型是泊松回歸模型,但同時也是對數線性模型?兩者有什麼區別呢???


ln E(Y|X)
e  E(ln Y|X)


結論:兩者對因變數的分布假設和參數估計方法不一樣。

具體來講,泊松回歸模型常常應用於因變數是計數變數(count variable)的情形,比如專利數據、生育數據和人犯數據等。這類變數一般只能取有限範圍內的非負整數,可能還存在很多為零的數據。而零是不能直接被取對數的,這就給應用對數線性模型帶來了障礙。於是,我們轉而估計以下這個非線性方程:E(Y|X)=e^{Xeta}

當然,如果不存在零數據,我們可以使用對數線性模型;或者在有零變數存在時,也可以直接使用線性回歸進行最小二乘估計。但這麼做的問題在於,估計結果可能會存在非常嚴重的異方差。

事實上,當因變數滿足正態分布,且為連續變數,取值範圍較大時,使用最小二乘估計才是最合適的。但這種計數數據往往很難具有正態特性。當然,當樣本足夠大的時候,對非正態分布的因變數使用最小二乘估計,仍然有可能得到漸進一致的估計結果,但異方差的問題仍然沒有得到解決。

所以,我們考慮使用極大似然估計法,並假設因變數符合泊松分布。

即,lambda_i=E(y_i|x_i)=e^{x_i^{

當然,泊松分布也是一個很強的假設,它要求因變數的期望等於方差。好在即便因變數不滿足泊松分布,只要樣本數量足夠大,並不妨礙我們得到漸進一致的估計值。而且,當我們不太確定是否滿足泊松分布時,我們還可以採用估計效果更好的准泊松分布模型。

估計出結果之後,我們可以進行過度分散(overdispersion)檢驗,即檢驗在下式中,sigma^2 的大小。Var(Y|X)=sigma^2E(Y|X)

如果我們發現 sigma^2>1 ,說明存在過度分散,此時,我們需要對標準誤進行調整。當然,當方差不等於期望時,更合適的模型是負二項分布模型。只是這個模型在估計中常常出現不收斂的問題,給我們的應用帶來了挑戰。

參考:Introductory Econometrics: A Modern Approach, Jeffrey Wooldridge

@DYG愛咖啡 @Verano 敬請指正!

溫馨提示,點贊了才能收藏喔。當然,你強行收藏我也約束不了你,但我會不開心的~


No matter whether the dependent variable y follows a Poisson distribution or not, as long as the conditional mean model is correct, the so-called Pseudo Poisson maximum likelihood (PPML) will delivery a consistent estimator.

Given the conditional mean model, nonlinear least squares (NLS) is also consistent. A natural question is: why do we prefer PPML to NLS? My argument is that, PPML"s optimization for the linear index is globally convex, while NLS is not. It implies that the numerical optimization of PPML will be easier and more robust than that of NLS.


推薦閱讀:

SPSS、Stata與Eviews在處理數據時各有什麼優勢?尤其是對數據的範圍及多少。?
請問有沒有不同於RFM的會員分析模型?
同一個模型兩組不同樣本下,回歸係數間的差異性檢驗??( 非虛擬變數,stata方法)
不會時間序列,但是像用R來建Arima模型,可能嗎??
有哪些有趣的工具變數?

TAG:統計 | 統計數據 | 計量經濟學 | R編程語言 |