為什麼ols識別的是因果關係,而不是相關關係?

計量經濟學


謝邀。

當我們討論「因果」這個詞的時候,首先我們也許需要先定義什麼是因果。我們不得不承認的是,統計學是不能在沒有任何假設的情況下識別出因果關係的,所以數學模型上定義因果是我們在識別之前最重要的一步:我們必須要知道我們的目標是什麼。

OLS,或者最小二乘法,在不同的語境下,有著不同的作用:

  1. 擬合。這是OLS最初被發明出來時的作用,通過x預測y,得到一條擬合直線,這從OLS的定義式min_b sum{(y_i-x_ib)^2}就能看出。
  2. 控制。比如簡單的DID,如果common trend假設成立,那麼只要計算差分和平均,再差分就好了,而如果假設在某些外生特徵X給定的條件下common trend 成立的話,就需要用OLS進行控制了。PSM也是一種控制的方法。
  3. 識別因果。這是需要很強的假設的。一般的假設是E(u|X)=0,進而得到E(ux)=0從而得到最小二乘估計,注意這裡比 1.擬合 多了假設,嚴格來說是不同的思路。

實際上我們可以看到,如果OLS識別了因果,那麼實際上假設了E(u|X)=0。那麼這裡我們是如何定義的因果呢?

我們可以從兩個思路來看:

首先,因果推斷的問題可以上溯到Fisher的方差分析,而方差分析實際上是處理實驗數據的一種方法,也就是我們經常聽到的控制組、實驗組。但是我們知道經濟學是不能做實驗的,所以後來經濟學家用了同樣的思路,發展了一系列「自然實驗」的方法,仿照實驗來定義因果。

那麼回歸呢?不要忘了,方差分析實際上是回歸分析的一個特例,其潛在的假設是一樣的。如果我們認為X是一個連續型的實驗,那麼上述假設相當於假設X是隨機分配的。

其次,如果從比較結構一點的視角看,E(u|X)=0相當於假設了Y的生成過程,即Y是由一些列的X決定的,而那些影響Y的不可觀測的因素(u)是隨機的,獨立於X的。這實際上是假設了Y的數據生成過程。

所以,OLS識別因果關係是有很強的假設的,現實應用的時候,OLS有很多用法,包括但不僅限於我上述說到的三種,在實際運用的過程中,需要靈活理解和應用。


ols只是係數的估計方法,而且得到我們一般都稱為相關關係。因果關係(treatment effect)需要很理論和技術雙方面的嚴謹論證。


我的理解:解釋變數與被解釋變數之間是單向因果關係的話,用OLS估計出來的線性模型的係數是正確的。首先要明白什麼是相關係數,什麼是回歸係數。最近剛好學習洪永淼的公開課,他講到,經濟學家關注的是因果關係,只談相關性的不是經濟學家。他在課程中簡單講到了為什麼ols要假設因果關係,可以參見他的公開課中第二章《一般回歸分析和模型設定》的第一講。當然要全面理解的話,建議從該課程的緒論的第一節課聽起,加深對計量經濟學的理解。

不知道能不能放網址,公開課的網址是:高級計量經濟學_經濟_大學課程_升學考試_騰訊精品課


謝邀 @奮鬥的自律lee。

當 conditional expectation function 為線性,且滿足 conditional mean independence 時,OLS 可以估計「因果效應」,參見計量經濟學所談論的「因果」是什麼意思? - 知乎用戶的回答 - 知乎。另外,如果 conditional expectation function 不是線性的,OLS 依然可以做最好的線性近似,參見經管類經驗研究基本都是線性回歸模型,這種線性假定合理嗎? - 知乎用戶的回答 - 知乎。

然而對於觀測性數據,conditional mean independence 通常無法檢驗,所以只能通過講一個「故事」來試圖說服讀者。


推薦閱讀:

微觀經濟學和計量經濟學有什麼關係?
在實業界,尤其是如金融業等數據密集型行業里,計量經濟學在類似量化投資的工作中還有應用嗎?
如何理解計量經濟學中的「檢驗過度識別約束」?
為什麼宏觀經濟計量模型中要用滯後變數而不是 leading 或者 coincident index 呢?
什麼是面板數據?

TAG:經濟學 | 計量經濟 | 計量經濟學 |