多元線性回歸模型中的常數項和隨機誤差項在含義上有什麼區別?

計量經濟學


一言以蔽之,在計量經濟學的線性回歸模型中,常數項在很多情況下並無實際的解釋意義。

要論含義,常數項的數學含義是,平均來講,當所有解釋變數的值為0的時候,被解釋變數的值是幾?但是在計量經濟學的實證模型中,這通常是無意義的,原因很簡單,因為在很多時候,解釋變數的定義域並不一定包括0,比如人的身高、體重等等。可是,即便所有的解釋變數都可以同時取0,常數項依然是基本無意義的。我們回到線性回歸的本質上來講的話,所有參數的確定都為了一個目的:讓殘差項的均值為0,而且殘差項的平方和最小。所以,想像一下,當其他的參數都確定了以後,常數項的變化在圖像上表現出來的就是擬合曲線的上下整體浮動,當曲線浮動到某一位置,使得在該位置上,殘差項的均值為0,曲線與y軸所確定的截距即為常數項。因此,可以理解為常數項是對其他各個解釋變數所留下的偏誤(bias)的線性修正。但是要說常數項具體的值所代表的解釋意義,在通常情況下是無意義的。

寫到這裡,有人可能會問,既然無意義,我們何不去掉常數項?答案是否定的,原因是,如果去除了常數項,就等於強制認定當所有解釋變數為0時,被解釋變數為0。如果這個斷定不符合實際意義,而你執意去除常數項的話,你的線性估計將是有偏的。

隨機誤差項的理解相對簡單,在線性回歸模型中,每一個觀測值都有一個殘差項,也叫隨機誤差項,它刻畫的是模型的估計值和真實觀測值之間的偏差。

參考文獻:Regression Analysis: How to Interpret the Constant (Y Intercept)


常數項的存在只是為了讓誤差項均值為零。在ols相應的假設(線性,外生性,列滿秩,平穩遍歷性等)都成立時,不設置常數項對估計的一致性(無偏性,在有限樣本假設下),以及有效性沒有影響,僅僅是對R square等涉及樣本中心矩的結果造成了改變。

初級計量強調常數項,但中級以後就不再嚴格要求了。


回答這個問題,我們先從定義出發,然後再結合個實際例子去理解。從定義來看,多元線性回歸方程定義如下:

Y=a+b_{1}x_{1}+b_{2}x_{2}+...+b_{n}x_{n}+varepsilon

這裡的 a 為常數項, varepsilon 為隨機誤差項,且服從標準正態分布( sim N(0,1) ),或者我們把它稱作白雜訊(white noise)。通過圖像,我們可以很好理解常數項和隨機誤差的含義:

圖一,一元線性回歸示例

上圖是多元線性回歸回歸的一個特例,即一元線性回歸。多元就是在一元的基礎上,用更多的自變數對因變數進行解釋。我們以一元為例,來看常數項和隨機誤差的含義。從圖中可以看出,常數項是擬合的一元回歸直線在因變數(Y)軸上的截距;誤差是實際的點和回歸直線之間的差,而隨機則表示的是這個誤差不是固定的,有大有小,沒有特定的規律,服從標準正態分布。具體來說,常數項表示的是未被自變數解釋的且長期存在(非隨機)的部分,即信息殘留。而隨機誤差是在自變數解釋空間內,預測值和去掉常數項的實際值的誤差。下圖是從一個多元線性回歸模型的視角去看問題:因變數(Y)代表需要解釋的全體信息,模型里的Xi構成的空間是自變數解釋空間,隨機誤差存在於自變數解釋空間中。在自變數解釋空間外,如果還有恆定的信息殘留,那麼這部分信息構成常數項。

圖二,多元線性回歸模型解釋因變數示意圖

下面我們再結合實例來加深下理解。在量化投資界,多因子選股模型是多元線性回歸一個典型的應用。多因子選股模型通過尋找與股價變動的相關變數來解釋和預測股票的收益率:

R_{i}=eta_{1,i}x_{1,i}+eta_{2,i}x_{2,i}+...+eta_{n,i}x_{n,i}+alpha+varepsilon_{i}

這裡, eta_{j,i} 表示的是風險因子 j 關於股票 i 的暴露度, x_{j,i} 風險因子 j 關於股票 i 的收益。eta_{i,j}x_{i,j} 部分在業界被稱作風險因子,這是從風險的角度來給稱呼,它也可以被稱作系統因子(systematic factor)或者Beta因子。我們在這先管它叫系統因子。我之前在其它的作答中詳細地解釋了系統因子和alpha因子(即 alpha 部分)的區別,這裡不做過多的說明。結合著上一部分我們對常數項和隨機誤差的解釋,我們從另一個角度看多因子選股模型。在這裡,它把收益率分成了兩個空間,一個是大家已熟知的空間,或者說收益率可解釋部分。比如說一篇好的季報可以預示著股票的增長,那麼業績預告的表現可以是該空間里的一個變數。Barra公司做的一件事,就是把這些大家達成共識的解釋變數做一個整理,構建了一套系統因子對應的就是多元線性回歸模型中的自變數部分。但是,這套系統因子並沒有達到100%的信息解釋度,總有一部分恆定的收益率沒有被解釋,這部分殘留就是alpha,即自變數解釋空間外的第二空間。而所謂的alpha策略,就是在花時間和精力尋找系統因子外的變數去解釋alpha,以獲得超越其它競爭者的收益。相應的,alpha對應的就是多元線性回歸模型中的常數項。這裡,大家還可以看到常數項是可以繼續被新變數分解的,直到常數項等於0(假設信息是線性,而不是非線性的)。對應地,當股票市場的有效性越來越強的時候,alpha會趨近於0,這時候大家只能靈活地運用Beta來預測股價,這也是發達市場所謂的smart beta策略。


伍德里奇 計量 費老師翻譯 第四版 66頁倒數第二段


用個例子解釋一下:

談戀愛中,

常數項就是女生說:如果你實在沒錢,我花錢我們吃速食麵。

隨機變數就是吃完後女生說:我請你喝飲料。(結果的誤差項就像是餐後難喝或好喝的飲料)

而常數項一般無意義就像是,雖然假設是成立的,但是實際中你連吃飯的錢都沒有也就談不了戀愛了。


推薦閱讀:

Prisoner"s dilemma: 為什麼理性的抉擇不一定是利益最大化?
"China Gazetteer Project"是否涉及國家安全?
是不是任何事物都可以定價?
上世紀30年代資本主義經濟大蕭條時期,美國的農場主每天把牛奶往河裡倒。請從經濟學的角度分析這麼做的原因?
你對於 2017 年諾貝爾經濟學獎的預測是什麼?

TAG:統計學 | 經濟學 | 計量經濟學 | 多元線性回歸 | 多因子模型 |