無常數項的線性多元回歸模型和有常數項的線性多元回歸模型有何區別？

12-14

寫幾個公式你就明白了。
假設進行回歸 $income=alpha +eta education+varepsilon$ 1-1
那麼
$E(income|education)=alpha +eta education$ 1-2
注意那個E和|後面的東西。第二個等式告訴我們什麼東西？給定一個education的水平，比如education=10，在這個水平上的所有人，他們的平均收益因該是
$E(income|education=10)=alpha +10*eta$
為什麼從1-1能推出來1-2？因為
$E(varepsilon|education)=0$ 對於任意的教育水平均成立 1-3
1-3來自於簡單線性回歸的「外生性」假設。在統計學上，你設計這個實驗時，即設計如何獲取數據時，要努力讓這個前提成立。（為了便於理解，1-3給出的是外生性假設的簡化形式）
$varepsilon$ 是一個博大精深的項。這一項裡面包含了所有可能影響income的「其他因素」。1-3中的等於0是說，無論教育水平如何，其他因素對於收入的影響，平均來看，是零。所以，你可以合理的陳述如下事實（假設你做完回歸後 $eta$ 為正值）：
平均來看，教育水平越高，收入越高。牢牢記住粗體字這個大前提。 陳述1

現在有一個問題。
如果真實情況中，
$E(varepsilon|education)=c e 0$ （c為某個不為0的常數） 1-4
怎麼辦？
換句話說，平均來看，在任何教育水平下，其他因素，對於income都有一樣的影響。注意一樣兩字。
搜集數據時，保證1-4，就已經意味著你的樣本抽取做的很出色了。但你還是擋不住「自然」給你一個不為0的c。
最小二乘是一種奇特的演算法。這個演算法，通過選擇合適的係數，使得 $varepsilon$ 的估計量，即殘差項，方差最小。如果回歸包含截距項，這一演算法，會額外的強制殘差項均值為0。
注意到1-3意味著 $E(varepsilon )=0$ ，即如果不違背1-3， $varepsilon$ 期望必須為0。這意味著殘差項的均值，即對 $varepsilon$ 期望的樣本估計，為了體現一致性，也應該為0。而根據黑體字，如果想要保證殘差項均值為0，就必須包含截距項！如果你深入數學細節的話，會發現，只要包含截距項，即便出現1-4的情形，這個演算法也會把c抽取到α中！
如果不包括α，那麼這個演算法只能保證選出來的β使殘差項方差最小。至於期望么，放羊了。
總結下，如果不包含截距項，意味著1-3可能被違背。1-3被違背，意味著什麼？情況比你想像的糟糕多了！
如果略去數學推導，可以證明，1-3中等式不為0導致β的估計值有偏。事實上，如果1-4還能得到滿足的話，這個偏差，比較容易分析。簡單來說，就是將β統一增大了一個跟c相關的量。因此在不包含截距項，1-4得到滿足時，繼續做出陳述1，還算合理（想知道不合理的極端情形是什麼樣的，見最後）。如果連1-4都滿足不了（這說明你的模型有漏洞，或者數據收集過程存在重大缺陷），即你收集的樣本中，平均來看，在不同的教育水平下，其他因素，對於income有不同的影響。請問，拿著這樣的數據，你還敢做出陳述1么？
噩夢不止於此。如果看一看計算 $R^2$ 的公式，掠過複雜的數學推導或者幾何圖示，可以證明，如果不包含截距項， $R^2$ 可能大於1，也可能小於0。具體取決於計算的方法。而 $R^2$ 的傳統定義，是0至1間的一個數，用來衡量模型的擬合優度。擬合優度超過1或者小於0都沒有意義。也就是說，當 $R^2$ 超出0至1的範圍時，失去了相應的統計學意義。
那麼，到底什麼時候可以不用包含截距項呢？很明顯，如果不包含截距項，1-3也總能得到滿足，當然可以不包含了！怎麼判斷這種情形呢？
例一
考慮虛擬變數回歸。3個虛擬變數。L,M,H，代表低、中、高3個類別。比如如果屬於低，那麼L=1,；不屬於低，L=0。因此總有L+M+H=1。在回歸時，為了保證X矩陣滿秩，即保證最小二乘演算法能給出結果，要麼先選一個參照組，比如L，然後拿截距項、M、H以及其他解釋變數回歸；要麼不要截距項，直接拿L、M、H以及其他解釋變數回歸。對於後一種情形，最小二乘演算法將c按某種方式派給了L、M、H的估計係數，以保證殘差項均值為0。
例二
令 $y^{*}=y-ar{y}$ ， $x^{*}=x-ar{x}$ (圖省事，略去了腳標i；橫杠上標表示求樣本均值）。
因此有 $E(y^{*})=E(x^{*})=0$
那麼對於回歸
$y^{*}=eta x^{*}+varepsilon$ （注意到沒有出現截距項）
就應該有
$E(varepsilon )=E(y^{*})-eta E(x^{*})=0$
沒有違背1-3。
為什麼要抽取均值後再回歸？這麼做有意義么？單純這麼做，意義不大。但如果將去均值後的變數再除以自己的樣本標準差，再去做回歸，在得出的結果中，可以非常方便的比較不同解釋變數的影響大小。

最後附上一個模擬實驗。
真實的數據生成過程是：
$income=1*education+varepsilon$
education為0至20間的隨機整數， $varepsilon sim N(-20,1)$ 。注意到education的係數為正，雖然真實的數據生成過程不包括截距項，但是 $E(varepsilon )=-20$ ，即與教育水平的真實係數，1，相比，符號相反且相對來說絕對值很大。
不包括截距項的回歸

注意係數符號及大小，顯著，但嚴重偏誤
-0.42754 &<.0001包含截距項的回歸

注意教育水平的係數，顯著，符號正確，非常接近1。
Intercept -19.96849 &<.0001
education 0.99840 &<.0001

說實在的，區別不太大，而且有的時候去掉常數項各變數t值會有上升。
平狄克的「econometrics」書中提到過「可以將常數項看作是值恆為1的一個虛擬變數的係數」（上述原話為英文，但是是這個意思）也就是說，它可能包含了一些你忽視掉的虛擬變數。
而且帶常數項的模型其實是對隨機誤差項的優化，我們在做OLS時總是假定隨機誤差項是標準正態分布的，但這很難滿足。假設隨機誤差項的均值不是0，而是一個常數，那麼加入常數項的模型就會使得隨機誤差項又變成了標準正態分布，它的期望就被含在常數項里了。總而言之，這樣的模型更為靠譜。

計量模型首先都應從經濟意義考慮。
有截距項意味著初始水平不為0，從經濟學數據來看，初始水平通常都不會為0，因此有截距項模型更普適。

其次從數學計算角度來看，同高票回答所說，截距項最重要的一點是令殘差等於0。殘差作為對於隨機擾動項的估計，需滿足無偏性，從而符合古典假定，OLS估計量才是BLUE。可見截距項的作用非常大。

最後截距項的存在會引起一些「麻煩」，比如在虛擬變數使用中會引起「虛擬變數陷阱」，比如當某一自變數取同一值時直接導致完全的多重共線性，等等。

最後的最後，計量問題一定應結合經濟意義分析！！！

我們用最簡單的線性模型來說明這個問題 -- 常數項如何產生？
y = xb + u （先假設此處無常數項）
其中y是n x 1的向量，x是 n x k的矩陣，b是 k x 1的向量，u是n x 1的向量。
case 1 -- unobserved effects
能夠解釋y的數據分為兩部分：可觀察到的和不可觀察到的（或沒數據的）。
所有可觀察到的變數的數據我們放入x中，其他不可觀察和無數據的放入u，而這些不可觀察到的影響又分為兩部分 u = a1 + v，其中 a1 是一個常數，這部分影響是固定的，對所有樣本都一樣，v是一個n x 1的隨機影響，對各個樣本不同。於是我們可以把上式重新寫為
y = a1 + xb + v
case 2 -- the trap of dummy variables ( or multicolinearity issue)
但是故事到這裡還沒結束，因為還有一種可能會產生常數項 -- x中的多重共線性。假設x中含有一個（或多個）虛擬變數，比如性別，female =1 if female, =0 if male; male =1 if male, =0 if female。那麼你在寫模型時就有兩種形式，要麼寫成 y = female x b1 + male x b2 + u, 要麼寫成 y = d1 + female x d2 +u。一般情況下我們都會選擇用後者，也就是丟掉一個虛擬變數，留下我們更關心的那個，因為我們更關心特殊性，比如女性，黑人，少數民族，低收入階層，某季節等。切忌寫成y = a + female x b1 + male x b2 + u，因為這樣就產生了多重共線性 -- a + female x b1 + male x b2 = 0 導致逆矩陣不可求。
綜上，我們把第一種情況中的 a1 和第二種情況中的 b2 （第二種情況可能有很多參數加，不只是b2）到一起，這樣就有了最終帶有常數項的模型，
y = a + xb + v

還有在虛擬變數的回歸時，必須用無截距回歸，否則會因為完全多重共線性，陷入「虛擬變數陷阱」

那t檢驗呢？沒有截距項是不是意味著t檢驗服從的是n-k分布呢？F分布會變嗎？

無常數項的模型是一種特殊的有常數項的線性回歸模型

一般都用帶常數項的線性回歸模型進行擬合

但是有些特別的模型可能沒有常數項，比如金融學中的CAPM模型。在利用線性回歸進行擬合的時候，可以先進行假設檢驗，查看常數項是否真的為0。

沒啥大區別貌似。。如果你知道Y期望肯定是0就沒常數了。。比方說你把樣本全standardize了就沒常數了。。。。當然R方什麼的算起來好像公式有點不一樣～～

在回歸的時候，無截距模型（CAPM 資本資產定價模型）和存在截距模型的OLS估計時，過原點回歸
1）判定係數 $r^2$ 可能出現負值，
2）誤差項的求和不一定為0

一句話，無常數項模型是有常數項模型的一種特殊情況而已：當常數項真的是0時，兩模型無區別；當常數項不為0時，無常數項模型就是錯誤的模型。所以一般的線性回歸都默認控制常數項。