線性回歸模型 為什麼要求隨機誤差的均值為0?

有沒有詳細點的線性回歸的教材

一些基本的本質問題整不明白,有的書直接說「有理由讓這個隨機誤差的均值為零」,數學基礎有限,自己不能一下想明白類似於這樣的問題


在線性模型Y=Xm{eta}+m{epsilon},m{epsilon}simmathcal{N}(m{mu},sigma^2I) 中,如果m{mu}是常向量,則使用不同常向量估計出來的各個m{eta} 間只差一個常向量,並無本質區別;如果m{mu}包含待估計參數的一部分,則模型不是(locally)identifiable 的,即參數m{	heta} 到似然概率密度p(Dmidm{	heta}) 的映射(在m{	heta} 的任何鄰域上都)不是單射。

方便起見假設整個mmu都是待估計的參數。 直觀上,你只能估計到Xm{eta}+m{mu},而不能進一步分別估計出Xm{eta}m{mu},從而會出現(m{eta}_1,m{mu}_1)
e(m{eta}_2,m{mu}_2)Xmeta_1+mmu_1=Xmeta_2+mmu_2 ;數學上,可以計算一下Fisher information matrix:

mathcal{I}=-frac{partial^2}{partialmetapartialmmu}frac{1}{2}|Y-Xmeta-mmu|^2=egin{pmatrix}X^mathrm{T}X  X^mathrm{T}\X  Iend{pmatrix}

它不是滿秩的,所以模型不是 identifiable 的。

Fisher information matrix 跟 identifiability 的關係大致可以這樣理解:maximum likelihood 估計

m	heta^*=mathrm{arg,max}_{m	heta}frac{1}{N}sum_{i=1}^Nlog p(D_imidm	heta)

等價於

m	heta^*=mathrm{arg,min}_{m	heta}frac{1}{N}sum_{i=1}^Nlogfrac{q(D_i)}{p(D_imidm	heta)}

其中q是數據的真實分布。另一方面,如果假設q(D)=p(Dmidm	heta^*) ,則

frac{1}{N}sum_{i=1}^Nlogfrac{q(D_i)}{p(D_imidm	heta)}	o D_{KL}left(q(D)|p(Dmidm	heta)
ight)approxfrac{1}{2}(m	heta-m	heta^*)^mathrm{T}mathcal{I}(m	heta^*)(m	heta-m	heta^*) (N	oinfty)

其中第一步是大數定律,第二步是 Taylor 展開。因此,大致上,如果mathcal{I}(m	heta^*)奇異,則frac{1}{N}sum_{i=1}^Nlog p(D_imidm	heta) 極值點不唯一,從而有m	heta_1
em	heta_2使得p(Dmidm	heta_1)=p(Dmidm	heta_2),(=p(Dmidm	heta^*))

這裡有個更嚴格的證明:Identification in Parametric Models


可以把你認為存在的那個期望常數,放在常數項裡面


因為你希望估計出來的 y-bx 是無偏的,而且沒有 prior knowledge


線性回歸要求隨機誤差服從均值為0的正態分布,這個是前提也比較好理解。隨機誤差應該為正或為負的概率相等,期望自然應該為0。


ax+b+N(μ,Σ)=ax+(b+μ)+N(0,Σ)結果一樣的,用0計算明顯簡單了嘛 而且可以看到E(ax+b+ε)=E(ax+b) 這樣ax+b才有意義嘛


隨機誤差項不為零,說明它影響著Y的均值(或者說預測值),進而說明隨機誤差項中仍然存在可以影響Y的因素,比如遺漏的解釋變數。因此模型仍有改進的必要。


推薦閱讀:

為什麼變數間的相關關係會使變數係數不能通過t檢驗?
Logistic 回歸模型的參數估計為什麼不能採用最小二乘法?

TAG:統計 | 回歸模型 | 線性回歸 |