線性回歸中,殘差的和為什麼等於0?這個假設的依據是什麼?


殘差和為0不是一個假設,而是OLS定義下的一階條件(first order condition)。當然還有一個條件是自變數中含有截距項

證明如下:

OLS的目標函數為最小化殘差平方和(SSR,sum of squared residuals),即

min sum_{i=1}^{n}{hat{u} _{i}^{2} } =sum_{i=1}^{n}(y_{i}-hat{eta }_{0}- hat{eta }_{1}cdot x_{1}-...-hat{eta }_{k}cdot x_{k})^{2}

為此,我們對該式分別關於hateta _{0} hateta _{1} 、....hateta _{k} 求導,並逐個使導數為0。當然要得到題主想要的結論,我們對beta1到betak都不關心,只考慮對beta0求導的結果。

為了方便,我們令

y_{i}-hat{eta }_{0}- hat{eta }_{1}cdot x_{1}-...-hat{eta }_{k}cdot x_{k}=hat{u} _{i}

則根據鏈式法則,我們有

frac{dsum_{i}^{n}{hat{u} _{i}^{2}}}{dhateta _{0} } =sum_{i}^{n}(frac{dhat{u} _{i}^{2}}{dhat{u} _{i}} cdot frac{dhat{u} _{i}}{dhateta _{0}} ) (式子1)

又有

frac{dhat{u} _{i}^{2}}{dhat{u} _{i}} =2hat{u} _{i}frac{dhat{u} _{i}}{dhateta _{0}} =frac{d(y_{i}-hat{eta }_{0}- hat{eta }_{1}cdot x_{1}-...-hat{eta }_{k}cdot x_{k})}{dhateta _{0}} =-1

則式子(1)可以改寫,並使之等於0,

sum_{i}^{n}(frac{dhat{u} _{i}^{2}}{dhat{u} _{i}} cdot frac{dhat{u} _{i}}{dhateta _{0}} )=-2sum_{i}^{n}hat{u} _{i}=0

則,我們得到

sum_{i}^{n}hat{u} _{i}=0

即OLS線性回歸中,通過定義,必然滿足殘差和為0的條件,而並不是通過什麼「假設」得來的。


因為一般線性模型用ols估計,要求殘差和為0,不然殘差和會併入截距項。


推薦閱讀:

非線性回歸的驗證?
線性回歸的相關指數R平方的表達式(見圖)是怎麼來的?
如何簡明地解釋「線性回歸」「貝葉斯定理」「假設檢驗」這些術語?
線性回歸中的 ANOVA 的作用是什麼?
通過邏輯回歸的sigmoid函數把線性回歸轉化到[0,1]之間,這個值為什麼可以代表概率?

TAG:統計學 | 線性回歸 |