進行 OLS 回歸(變數不一定線性)的前提條件是什麼?
如題,面試中被問到了這個問題,不知道如何回答。
先列出關於OLS的七大基本假設(Assumption),這裡使用矩陣法描述:A1、自變量非隨機,且行滿秩。 is not random, and .A2、誤差項隨機,並且期望為0。 is random and .A3、誤差項齊方差。Homoskedasticity. .
A4、誤差項不相關。No correlation. for .
A5、參數為常數,且未知。 and unknown and fixed.A6、線性模型。.A7、誤差項服從正態分佈。. (該假設不是最重要的)前六項假設最重要,通過A1-A6,可以證明OLS估計的參數是BLUE (Best Linear Unbiased Estimator)。 也就是說, OLS估計的參數是無偏(unbiased)、一致(consistent)、且有效(efficient,方差最小)的。如果加上第七條假設,也就是如果A1-A7成立,則OLS估計的參數是「一致最小方差無偏」 (Uniformly Minimum Variance Unbiased) 的。我認為在面試中,一般回答出A2-A4就可以了。即:誤差項隨機、期望為零、齊方差、不相關。應該有很多前提吧,技術性的和先驗性的都有。如果僅從數學上來看,
(1). 要保證誤差是隨機同源的,即所有獨立同分布.
(2). 由於OLS的解具有形式:
,
故為了上式有意義,須矩陣可逆,或者說各列間不存在多重共線性。
暫時想到這幾條。我說說標準教科書上的答案吧。
- 線性。, 這意味著 是一個不依賴於自變數的函數。
- 嚴格外生性。, 即誤差項不依賴於當前,過去,將來的自變數的值。如果自變數是固定的,這意味著重複測量的過程中征服誤差是抵消的。
- 非奇異性。方陣是非奇異的。即自變數之間不存在精確的相關關係。可以這麼理解,如果自變數之間存在線性關係,那麼一些自變數總是可以用基線性表示的,在線性回歸模型中加入它們就出現了信息冗餘。如果方陣是奇異的話,存在無窮多擬合係數。實際中一般不會出現精確的線性關係,而會出現近似的線性相關,此時擬合係數的方差將無限大,一致性失效。
- 球形誤差。。這意味著誤差之間是不相關的,並且誤差是同方差的。
在1-4下,可以得到最小二乘估計量,並證明它是BLUE(Best Linear Unbiased Estimation)的。如果需要進一步的做統計推斷,必須要知道誤差的分布。在小樣本下,要做出正態性假設。大樣本下,有中心極限定理,如果自變數的取樣過程特殊,是漸進滿足正態假設的。
好像下面的評論中找不到公式編輯器,我把答案回復到這裡了。舉一個簡單的例子,設擬合出來的一個回歸為如果和之間存在完全的線性關係,那麼也是一個擬合回歸,當變化時,會的到無窮估計值。實際上,如果你去求解normal equation,此時它有無窮解。書上討論的都是滿秩的方陣,所以擬合係數存在唯一解。一般指的是總體的參數,一般指的是估計值。總體的參數時完全確定的,不存在分布一說,當然也沒有必要討論方差了。估計值是一個統計量,有對應的分布,也有對應的方差。估計係數的方差為。當存在近似的共線性時,我們可以將其表述為,其中是一個近似0的小量。我們現在來求方差我的筆記,有點亂。
基於普通二乘法的假設歸為三類第一,關於模型關係:
1)模型的設定是正確的。變數的選擇是正確的,顯著的變數不能忽略,這樣才能保證隨機誤差項的均值為零
2)模型關於參數線性,參數是相對於變數來講,例如,雖有x^2項,但模型只要關於參數線性就OK,之後可以進行參數置換。第二,關於解釋變數:
1)解釋變數是確定的2)觀察值是變化的3)無完全共線性假設,這是對於多元模型來說4)隨著樣本容量的無限增加,解釋變數的樣本方差趨於一個常數第三,關於隨機誤差項:1)零均值2)同方差3)不序列相關性
4)隨機誤差項的正態性假設,可由中心極限定理證明。1.假定MLR.1(線性於參數) 總體模型可寫成
y=β0+β1x1+…+βkxk
其中,β0,β1,…,βk是我們所關心的未知參數,u是無法觀測到的隨機干擾項或者誤差項。 2. 假定MLR.2(隨機抽樣) 我們有一個包含n次觀測的隨機樣本(xi1,xi2,...xik,yi)i=1,2,..n 它來自MLR.1中的總體模型。 3. 假定MLR.3(不存在完全共線性) 在樣本(因而在總體中),沒有一個自變數是常數,自變數之間不存在嚴格(完全)的線性關係。 重要的是我們要注意到,MLR.3 允許變數之間有相關關係,只是不能是完全相關。
4.假定MLR.4(條件均值為零) 給定自變數的任何值,誤差u的期望值為零。換句話說,E(u|x1,x2…xk)=0 當假定MLR.4成立時,我們常說我們具有外生解釋變數。如果處於某種原因xj仍與u有關,那麼我就成xj是內生解釋變數。 (外生變數即獨立於系統中所有其他變數的變數,內生則有影響。如果條件均值為0,就意味著誤差是獨立於系統的,誤差相關的變數就是外生變數,但是如果xj與誤差有關,u就不是外生的了。)
======下面說一下自己的感受吧======
1.理解:線性於參數就是給出了一個模型,即你可以按照這個框架來;隨機抽樣描述數據的來源;完全共線性是對解釋變數的要求,條件均值為0是對誤差的要求。即包括了模型-數據-解釋變數-誤差(關於誤差的後面還有兩個,一個是關於方差,一個是分布)
2.實踐:有個同學做的OLS回歸裡面解釋變數有三個指標,國內旅遊總消費、城鎮旅遊總消費、鄉村旅遊總消費。R^2非常高。但是違背了共線性的假設。直觀上模型包括共線性的解釋變數肯定是不好的。
怎麼從數學上說明呢?需要用到下面係數方差的公式了。從公式上可以看出,如果存在很高的線性關係的話,分母項將會趨於0,var(β1)將會非常大,這樣預測的精度就會十分小了,在實際中也沒什麼意義。
btw:
1.在MLR1-4成立的時候OLS參數是無偏的。
2.誤設模型:遺漏變數的影響:本來變數與x1,x2相關,但是現在我們的模型只考慮了x1.
模型一:y=β0+β1x1+β2x2+u 變成了 模型二:y=β0+β1x1+v,其中v=β2x2+u
那麼我們預測出來的β1就會是模型一中的β1+β2*(x2對x1回歸的係數)。從偏誤的式子看,只有x1與x2不相關的時候,β1是無偏的。
==================================
下面繼續是假設。
假定MLR.5(同方差性) 給定 任意解釋變數值,誤差u都具有相同的方差,換言之: var(u|x1,...,xk)=sigma^2 ( 假定MLR.1-MLR.5一起被稱為(橫截面回歸的)高斯-馬爾科夫假定。迄今為止,我們對假定的表述都只適用於隨機抽樣的橫截面分析。 )
?假定六(正態性) 總體誤差u獨立於解釋變數x1,x2…xk,而且服從均值為零和方差為σ^2的正態分布:u~N(0, σ^2).
?就橫截面回歸中的應用而言,假定MLR.1-MLR.6被稱為經典線性模型假定(CML),因此我們將這6個假定下的模型稱為經典線性模型。
=======================
誤設模型的方差:
說說線性的,拋磚引玉
Unbiased
Full rank
Independence between independent variable and error term
Homoskedasticity and nonautocorrelation
Error term follow Normal distribution除了model specification外,大概包括誤差分布(高斯,同房差,互相獨立),自變數之間獨立且與誤差獨立。
推薦閱讀:
※均值和標準差服從正態分布的正態分布是什麼分布?
※為什麼在匈牙利誕生了那麼多位數理天才?
※「幾何基本定理」是什麼?
※怎麼高效率地學習英文,專業,大部頭的書?
※如果讓你來實現最近很火的「三姑六婆」應用,打算用怎樣的數據結構和演算法來做?