為什麼斷點回歸可以解決內生性問題?

斷點回歸是用於檢驗斷點處的處理效應的,為什麼說斷點處有處理效應,這是一種內生性呢?內生性不就是反向因果和遺漏重要解釋變數嗎?那處理效應屬於哪一種?


隨便說幾句。題主的問題是,不知道為什麼會存在內生性。所以題主迷惑的並不是為什麼斷點回歸可以處理內生性問題,而是對內生性這個概念本身就有疑惑。

什麼是內生性呢?對於最簡單的線性回歸:

y=x

而言,很多人知道,內生性指的是x和u存在某種程度的相關性,我想這是很多人最開始認識的「內生性」的概念。

然而,這只是一個籠統的概念。我們觀察不到u,所以根本無從得知x和u究竟是否有相關性,因而根據這個概念去判斷內生性,必須從理論上找到x和u相關的原因。這一部分的知識是主觀的、先驗的、來自於理論模型的,而非來自於數據的。

因為觀察不到u,我可以指責任何一個回歸存在內生性問題,然而空口無憑,能夠指出內生性的來源才是有充分建設性的。

如果回顧一下經濟學的第一課,應該學過「內生變數」和「外生變數」兩個概念。內生變數是指模型內部決定的,而外生變數是指模型不能決定的其他變數。

注意同一個變數在不同的模型中即可能是內生變數,也可能是外生變數。比如工資水平,當我們建模勞動市場均衡的時候,工資是內生變數,因為工資是在模型內由勞動供給和勞動需求聯合決定的。而當考慮勞動供給問題的時候,對於每個個人而言,工資則可能是外生給定的。

那麼這裡的「內生變數」跟計量中的「內生變數」是一回事情么?在很大程度上,是的。

就像我剛剛提到的,u和x是否相關是不能被觀測的,判斷是否有內生性需要有一個先驗於數據的理論。這個理論不一定是嚴格的經濟學模型描述的,也有可能是使用統計模型描述的,比如度量誤差問題:

y=x^*eta+u,x=x^*+v,E(u|x)=0

x為觀察到的數據,x*為真實的變數,那麼y=x^*eta+u=xeta-veta+u, E[x(u-veta)]=eta Exv
e 0

在這裡,當存在度量誤差時,x之所以內生是因為x*的度量誤差的特殊結構引起的。在這裡,我們建模了觀察到的數據:x的生成過程,x是模型中內生決定的。

其他的,諸如聯立方程、遺漏變數、樣本選擇、自選擇等,都是同樣的道理。一個變數之所以內生,是因為這個變數在相應的理論模型中是內生決定的,所以才導致了x和u的相關性。

回過頭來說斷點回歸。斷點回歸一般是政策評價的一個方法,之所以在這裡會有內生性問題,是因為一般來說,參與某個政策是由經濟個體自己決定的,而非外生指定的。

一個最簡單的想法,比如我們想知道讀不讀博士對個人收入的影響。如果個人的收入由一下的方程決定:

Income=H(D,u)

其中D為讀不讀博的決策,u為一個擾動項。但是讀不讀博這個決策是由個人做出的,只有讀博的收益大於不讀博的收益時,個體才會選擇讀博:

D=1[H(1,u)>H(0,u)]

所以在這裡,由於存在自選擇問題,D和u實際上是相關的,而u又是不能觀測的,所以才會產生內生性。我們想估計的平均處理效應:

E[H(1,u)-H(0,u)]

因為只能觀察到一個H,且u和D相關,所以就沒辦法識別了。

而斷點回歸呢?一個好處是,在斷點回歸裡面,D是外生的。對於sharp RD而言,如果研究者能夠找到一個應用例子,使得其中D滿足:

D=1(x>a)

這裡x是一個完全外生隨機的變數,那麼我們就可以在a附近構建出counterfactural,從而識別出在這個點附近的處理效應。Fuzzy RD幾乎同理,相當於找到了一個外生的工具變數。

比如 @LCHEN的例子,由於經濟個體不能控制分數的具體數值,在斷點處其variation是外生的影響分數的隨機因素,所以在斷點處不存在內生性問題,除非理論上有充足的理由顯示,在分數線前後的學生,有其他的、影響結果變數的不可觀測變數也存在一個斷點。

所以,不忘初心,方得始終,每個學科第一節所上的內容都是最重要的內容,只是在學習的過程中暫時沒辦法理解,只有回過頭來仔細思考才能知道第一節課的奧妙所在。


原來在這裡也問了同樣的問題,那我就把我的答案再粘貼一遍吧。

考慮一個簡單的例子:大學錄取新生,高考分數高於600分的學生給予全額獎學金,低於600分的自費。現在,我們想知道獎學金的授予是否能搞提高大學新生的後續表現。

現在假設有同學a和b,a同學的高考成績是550分,達到了A大學的錄取線,但沒有拿到獎學金。b同學的高考成績是650分,拿到了全額獎學金。 四年後,a同學的畢業總成績是70分,b同學的畢業總成績是90分(假設總分是100分)。 我們能因此判斷該校的全額獎學金能幫助學生提高29%=(90-70)/70的大學成績嗎?顯然不能。因為高考650分的b同學很有可能在其他方面都比高考成績為550分的a同學更為優秀,所以最後多出的20分的成績可能是這些「其他方面」因素的結果,可能跟有沒有獲得獎學金毫無關係。

用計量的語言講,「某些因素」,比如個人能力,家庭環境,決定了一個學生的高考成績,而這些因素同樣也決定了四年後這個學生的大學總成績。因此,「有沒有獲得獎學金」這個變數是和「某些因素」相關的,所以「有沒有獲得獎學金」這個0-1變數是內生的。

用數學的語言表示我上面的話,在一個簡單的線性模型下:

Y=a+b*D+e

Y:大學總成績

D=1 如果獲得獎學金,D=0 如果沒有獲得獎學金。

e: 其他影響成績的因素。 假設 e=u+v, 其中u就是我們上述所說的「其他因素」,和D是相關的。而v是其他影響大學成績但是和D不相關的變數。

b: 就是我們要找的「獎學金對大學成績的影響」。

比較獲得獎學金和沒有獲得獎學金同學的大學成績,相當於將Y回歸到D。但是由於內生性 -- D和e中的u相關,我們不可能得到b的一致(consistent)估計量。

====================================

下面講講為啥斷點回歸(Regression Discontinuity Design - RDD)可以解決上述問題。我們僅考慮 sharp regression discontinuity (SRD) 的情況 --- 也就是說低於600分的全部沒獎學金,601分以上的都有獎學金。

在RDD里最關鍵的假設是:potential outcome 在 threshold point ( 600分) 是連續的。用上面的例子來講,就是說一個考生考了599分,他的最後大學成績是80分。另一個同學考了601分,如果他沒拿獎學金的話,那麼他的最後大學成績應該離80分不遠(比如說80.5分)。這個假設有點比較難理解,但這個假設是RDD的關鍵中的關鍵。

假設我們現在有兩個學生: 學生a高考成績是599分,根據規則,他沒獲得獎學金,他四年後大學的總成績是70分。學生b高考成績是601分,根據規則,他獲得了獎學金,他四年後大學的總成績是80分。基於以上的連續性假設,我們可以得出「獎學金對大學成績的影響」是 80-70=10分。背後的邏輯是:考了599分和601分的同學的各方面都應該是非常相似的,唯一影響他們最後大學成績的因素就是有沒有獲得獎學金。因此他們最後大學總成績的不同體現的就是獎學金的影響。

=====================================

在fuzzy regression discontinuity 的情況下,如果 treatment effects是heterogenous的,結果會更加複雜,建議閱讀相關文獻。


http://www.stata.com/meeting/germany09/nichols.pdf


推薦閱讀:

經濟學研究中,哪些領域的數據搜尋比較需要爬蟲技術?
實證檢驗博弈論模型推出的結論,用reduced form的計量方法是否不合適?
如何寫好一篇計量經濟學論文?
計量經濟學的書和軟體?
最近剛接觸計量經濟學,學得不是很懂,求教一些學習方法?

TAG:經濟學 | 回歸分析 | 計量經濟學 |