進行 OLS 回歸(變數不一定線性)的前提條件是什麼?

如題,面試中被問到了這個問題,不知道如何回答。


先列出關於OLS的七大基本假設(Assumption),這裡使用矩陣法描述:

A1、自變量X非隨機,且行滿秩。X is not random, and rank(X)=k>0.

A2、誤差項epsilon隨機,並且期望為0。epsilon is random and E[epsilon]=0.

A3、誤差項齊方差。Homoskedasticity. E[epsilon^2_i]=var[epsilon_i]=sigma^2.

A4、誤差項不相關。No correlation. E[epsilon_iepsilon_j]=0 for i
eq j.

A5、參數為常數,且未知。eta and sigma unknown and fixed.

A6、線性模型。y=Xeta+epsilon.

A7、誤差項服從正態分佈。epsilonsim N(0,sigma^2). (該假設不是最重要的)

前六項假設最重要,通過A1-A6,可以證明OLS估計的參數是BLUE (Best Linear Unbiased Estimator)。 也就是說, OLS估計的參數是無偏(unbiased)、一致(consistent)、且有效(efficient,方差最小)的。

如果加上第七條假設,也就是如果A1-A7成立,則OLS估計的參數是「一致最小方差無偏」 (Uniformly Minimum Variance Unbiased) 的。

我認為在面試中,一般回答出A2-A4就可以了。即:誤差項隨機、期望為零、齊方差、不相關。


應該有很多前提吧,技術性的和先驗性的都有。如果僅從數學上來看,

(1). 要保證誤差是隨機同源的,即所有epsilon_i獨立同分布N(0, sigma^2).

(2). 由於OLS的解具有形式:

hat{eta} = (X^TX)^{-1}X^T Y

故為了上式有意義,須矩陣(X^TX)可逆,或者說X各列間不存在多重共線性。

暫時想到這幾條。


我說說標準教科書上的答案吧。

  1. 線性。Y = X eta +epsilon, 這意味著frac{partial y}{partial x_i} 是一個不依賴於自變數的函數。
  2. 嚴格外生性。E[epsilon| X]=0, 即誤差項不依賴於當前,過去,將來的自變數的值。如果自變數是固定的,這意味著重複測量的過程中征服誤差是抵消的。
  3. 非奇異性。方陣X是非奇異的。即自變數之間不存在精確的相關關係。可以這麼理解,如果自變數之間存在線性關係,那麼一些自變數總是可以用基線性表示的,在線性回歸模型中加入它們就出現了信息冗餘。如果方陣是奇異的話,存在無窮多擬合係數。實際中一般不會出現精確的線性關係,而會出現近似的線性相關,此時擬合係數的方差將無限大,一致性失效。
  4. 球形誤差。var[epsilon|X] = sigma^2I。這意味著誤差之間是不相關的,並且誤差是同方差的。

在1-4下,可以得到最小二乘估計量,並證明它是BLUE(Best Linear Unbiased Estimation)的。如果需要進一步的做統計推斷,必須要知道誤差的分布。在小樣本下,要做出正態性假設。大樣本下,有中心極限定理,如果自變數的取樣過程特殊,是漸進滿足正態假設的。

好像下面的評論中找不到公式編輯器,我把答案回復到這裡了。舉一個簡單的例子,設擬合出來的一個回歸為hat{y}=2x_1+3x_2如果x_2x_1之間存在完全的線性關係x_2 = ax_1+b,那麼hat{y}=2x_1+3lambda x_2+3(1-lambda)x_2=2x_1+3lambda x_2 +3(1-lambda)(ax_1+b)也是一個擬合回歸,當lambda變化時,會的到無窮估計值。實際上,如果你去求解normal equation,此時它有無窮解。書上討論的都是滿秩的方陣,所以擬合係數存在唯一解。eta一般指的是總體的參數,hat{eta}一般指的是估計值。總體的參數時完全確定的,不存在分布一說,當然也沒有必要討論方差了。估計值是一個統計量,有對應的分布,也有對應的方差。估計係數的方差為sigma^2(X。當存在近似的共線性時,我們可以將其表述為exists A, s.t. ,AX=epsilon,其中epsilon是一個近似0的小量。我們現在來求方差ARightarrow XRightarrow (X


我的筆記,有點亂。

基於普通二乘法的假設歸為三類

第一,關於模型關係:

1)模型的設定是正確的。變數的選擇是正確的,顯著的變數不能忽略,這樣才能保證隨機誤差項的均值為零

2)模型關於參數線性,參數是相對於變數來講,例如,雖有x^2項,但模型只要關於參數線性就OK,之後可以進行參數置換。

第二,關於解釋變數:

1)解釋變數是確定的

2)觀察值是變化的

3)無完全共線性假設,這是對於多元模型來說

4)隨著樣本容量的無限增加,解釋變數的樣本方差趨於一個常數

第三,關於隨機誤差項:

1)零均值

2)同方差

3)不序列相關性

4)隨機誤差項的正態性假設,可由中心極限定理證明。


1.假定MLR.1(線性於參數) 總體模型可寫成
y=β0+β1x1+…+βkxk
其中,β0,β1,…,βk是我們所關心的未知參數,u是無法觀測到的隨機干擾項或者誤差項。 2. 假定MLR.2(隨機抽樣) 我們有一個包含n次觀測的隨機樣本(xi1,xi2,...xik,yi)i=1,2,..n 它來自MLR.1中的總體模型。 3. 假定MLR.3(不存在完全共線性) 在樣本(因而在總體中),沒有一個自變數是常數,自變數之間不存在嚴格(完全)的線性關係。 重要的是我們要注意到,MLR.3 允許變數之間有相關關係,只是不能是完全相關。
4.假定MLR.4(條件均值為零) 給定自變數的任何值,誤差u的期望值為零。換句話說,E(u|x1,x2…xk)=0 當假定MLR.4成立時,我們常說我們具有外生解釋變數。如果處於某種原因xj仍與u有關,那麼我就成xj是內生解釋變數。 (外生變數即獨立於系統中所有其他變數的變數,內生則有影響。如果條件均值為0,就意味著誤差是獨立於系統的,誤差相關的變數就是外生變數,但是如果xj與誤差有關,u就不是外生的了。)

======下面說一下自己的感受吧======

1.理解:線性於參數就是給出了一個模型,即你可以按照這個框架來;隨機抽樣描述數據的來源;完全共線性是對解釋變數的要求,條件均值為0是對誤差的要求。即包括了模型-數據-解釋變數-誤差(關於誤差的後面還有兩個,一個是關於方差,一個是分布)

2.實踐:有個同學做的OLS回歸裡面解釋變數有三個指標,國內旅遊總消費、城鎮旅遊總消費、鄉村旅遊總消費。R^2非常高。但是違背了共線性的假設。直觀上模型包括共線性的解釋變數肯定是不好的。

怎麼從數學上說明呢?需要用到下面係數方差的公式了。從公式上可以看出,如果存在很高的線性關係的話,分母項將會趨於0,var(β1)將會非常大,這樣預測的精度就會十分小了,在實際中也沒什麼意義。

btw:

1.在MLR1-4成立的時候OLS參數是無偏的。

2.誤設模型:遺漏變數的影響:本來變數與x1,x2相關,但是現在我們的模型只考慮了x1.

模型一:y=β0+β1x1+β2x2+u 變成了 模型二:y=β0+β1x1+v,其中v=β2x2+u

那麼我們預測出來的β1就會是模型一中的β1+β2*(x2對x1回歸的係數)。從偏誤的式子看,只有x1與x2不相關的時候,β1是無偏的。

==================================

下面繼續是假設。

假定MLR.5(同方差性) 給定 任意解釋變數值,誤差u都具有相同的方差,換言之: var(u|x1,...,xk)=sigma^2 假定MLR.1-MLR.5一起被稱為(橫截面回歸的)高斯-馬爾科夫假定。迄今為止,我們對假定的表述都只適用於隨機抽樣的橫截面分析。
?假定六(正態性) 總體誤差u獨立於解釋變數x1,x2…xk,而且服從均值為零和方差為σ^2的正態分布:u~N(0, σ^2).
?就橫截面回歸中的應用而言,假定MLR.1-MLR.6被稱為經典線性模型假定(CML),因此我們將這6個假定下的模型稱為經典線性模型。

=======================

誤設模型的方差:


說說線性的,拋磚引玉

Unbiased

Full rank

Independence between independent variable and error term

Homoskedasticity and nonautocorrelation

Error term follow Normal distribution


除了model specification外,大概包括誤差分布(高斯,同房差,互相獨立),自變數之間獨立且與誤差獨立。


推薦閱讀:

均值和標準差服從正態分布的正態分布是什麼分布?
為什麼在匈牙利誕生了那麼多位數理天才?
「幾何基本定理」是什麼?
怎麼高效率地學習英文,專業,大部頭的書?
如果讓你來實現最近很火的「三姑六婆」應用,打算用怎樣的數據結構和演算法來做?

TAG:數學 | 機器學習 | 統計 | 回歸分析 | 概率論 |