斷點回歸設計(RD Design)與添加虛擬變數有什麼區別?

Rr


剛學到這個方法,按我的理解說一下,還請指正

還是用錄取學校這個例子來說

假設要研究錄取到一本學校對學生未來工資的影響

首先,沒法做隨機試驗是肯定的

現在如果我們用OLS的方法,為了排除「錄取到一本學校」這個treatment的內生性

我們就要往加入足夠多的解釋變數,比如說家庭教育,個人能力,經濟能力等等等,變數越多估計結果越準確。以及和這個treatment的虛擬變數

但如果我們只加入一個虛擬變數,說明我們默認了是否被錄取一本學校對不用能力、不同家庭背景的學生的影響都是一樣的,這顯然讓人難以信服

為了更好地識別錄取到一本學校的影響,我們再往方程里加入它與各個變數的交互項,這個回歸跑出來,理論上我們就可以得出,對於任意一類學生,是否錄取到一本學校對他的影響有多大

想想都知道一旦變數多起來這個回歸有多不靠譜

但是如果用斷點回歸的方法,我們起碼可以在有限的數據集中估計出一個相對準確的結果

在「連續性」的假設下,我們並不需要控制住那麼多變數,因為我們認為以running variable為參考的某個點附近,比如高考分500分附近的人,他們的學習成績,乃至智商、情商、abcdQ等其他因素都是差不多的(這個說法可能要斟酌一下),而在這個499分和500分這群人差不多的人以後工資的差異,就可以被看做是錄取到一本學校的純的影響。但顯然,這個影響顯然是針對那群差不多的人而言的,對另一群學生來說,這個影響就毫無說服力了,因為你認為錄取到一本學校的影響對於不同群體而言是不一樣的。這句話是不是和上面下劃線那句話很像(其實就是一個意思嘛)。

所以我認為兩者的關係是,RD(上面其實是個Sharp RD的例子)估計出來的影響,相當於在回歸方程中加入足夠多的虛擬變數交互項,再估計出treatment在某個點的偏效應。多元回歸做不好這件事,而RD能做好。


如果問這個問題,說明你根本沒有理解什麼是RD。

建議先讀一下關於treatment effect的基礎知識。

(sharp)RD的意思是,個體接受某種treatment是根據某個連續的變數(z)來外生決定的。比如某次考試大於90分的可以參加某項競賽輔導,小於90分的不可以。這裡的treatment是參加競賽輔導,1(z&>90)是個虛擬變數,指示的是個體有沒有參加競賽輔導,而參不參加競賽輔導是由某次考試分數決定的。

所以關鍵的區別是,這裡的虛擬變數是指示的「treatment」,而非一般的「男女」、「種族」等的dummy variables,性別、種族不是treatment。


和自己最近著手的論文相關,斗膽答一下。

主要差別有以下幾種:

(1)RD運用於quasi-experiment實驗,有別於自然隨機實驗下直接添加dummy採用OLS估計的模型。如果你能明白為什麼經濟學家偏好自然隨機實驗,你就能明白為什麼RD在很多情況下估計的準確度要優於OLS。自然隨機事件下,不可觀測變數(即性別、IQ等等等)與個體接收treatment的相關性為0,故我們可以用添加dummy的方法來估計treatment effect,但是一旦這個隨機事件並不完全隨機(用一個計量史學上蠻經典的例子講解,隋煬帝挖運河對於經濟是否有增益作用,你使用dummy就不再合適了,因為地理和經濟環境的因素會影響隋政府對於運河挖掘的選擇,導致你對挖河這一政策對經濟作用估計的偏差)。如果要準確估計這種treatment effect,你必須準確地將所有可能導致你估計偏誤的variable加入模型,控制起來,但那樣做不經濟有時也不可能(有時遺漏變數不可觀測)。所以我們退而求其次,使用RD進行估計,假定個體在斷點周圍接受treatment是一個隨機事件,所以你所說的那些不可觀測的變數與treatment這個dummy的相關性為0,所以不會產生內生性問題。

(2)估計方法的不同。RD通常採用局部線性回歸的方法(即不選用全樣本,而選用一定帶寬內的樣本,),本質上是對斷點周圍局部效應(LATE,Local Average Treatment Effect)的一個估計。最優帶寬的估計由Imbens and Kalyanaraman(2009)提供,並且一般要提供不同帶寬的結果以顯示結果的robustness。有時,RD還採用核回歸的非參方法。

(3)RD需要檢驗內生分組(endogenous sorting)的問題,即要假設如果個體事先知道分組規則,並可通過自身努力而完全控制分組變數,引起斷點回歸的失效。

(4)如果在RD中加入協變數,還需檢驗協變數對於的條件密度是否在斷點處連續,即斷點處的"jump"不是由協變數的「jump」產生。

註:以上內容主要面向Sharp RD. Fuzzy RD使用時分組變數是否大於斷點的dummy(稱為Z)作為處理變數(稱為D,即我們主要的估計量)的工具變數。Z顯然與D相關,而Z在斷點附近相當於局部隨機實驗,故只通過D影響變數y,與擾動項不相關,故滿足外生性。可以使用Z作為D的工具變數,使用2SLS進行估計。


瀉藥

確定形的斷點回歸和添加虛擬變數很像

不過還有一種模糊型的斷點回歸(Fuzzy Regression Discontinuity),即個體接受處置效應的概率均大於0小於1,個體在臨界值一邊接受處置的概率大於在臨界值另一邊接受處置的概率。


基本同意之前各位的回答,RD其實就是一種計算treatment effect的方法,但是你在estimate的時候只加一個treated/controlled 的dummy variable還有些交互項(interaction terms)就說你做了RD是有問題的。

RD的使用很麻煩,更restrict,一個很大的assumption就是你起碼要確保你的running variable在cutoff的兩側是as good as a randomized experiment,意思就是這個treated/controlled 的dummy variable不能輕易就被人操控 (當然這也需要跑大量的測試)。

建議看這篇文章: Regression Discontinuity Designs in Economics

文章第55頁有個checklist可以最後檢查一下結果,這些都是必須要考慮的robustness check。


題主,RD和添加虛擬變數關係不是太大呢,問RD和IV(工具變數)的關係更確切。

如樓上所言,RD分為Sharp型(running variable超過門檻值個體就一定會get treated,低於這個值就不會。)和Fuzzy型(get treated只是部分地與running variable超過門檻值相關,也就是說,存在某些超過門檻值的個體沒有treated,也有些低於門檻值的個體get treated)。

在Fuzzy RD中,我們就把這個running variable 作為treatment的IV啦,然後就可以用2SLS求解,流程和IV的2SLS估計差不多。


Good question. 今天剛看到一篇文章,剛好可以回答這個問題

Calonico, Sebastian, et al. Regression Discontinuity Designs Using Covariates. working paper, University of Michigan, 2016.

他們主要觀點就是,以前大家得過且過都這麼用的,RD裡面加covariates, 不過從來沒有人知道為什麼。。。他們這篇文章證明在簡單的regularity condition下,實際上加covariates會更好一些。

以下取自原文:

"Applied researchers often include additional pre-intervention" covariates in their speci cations to increase e ciency. However, no results justifying covariate adjustment have been formally derived in the RD literature, leaving applied researchers with little practical guidance and leading to a proliferation of ad-hoc methods that may result in invalid estimation and inference. We examine the properties of a local polynomial estimator that incorporates discrete and continuous covariates in an additive separable, linear-in-parameters way and imposes a common (likely misspeci ed) covariate e ffect on both sides of the cuto . Under intuitive, minimal assumptions, we show that this covariate-adjusted RD estimator remains consistent for the standard RD treatment e ect, while also providing point estimation and inference improvements."


RD design是為了測量一個treatment的作用,而dummy是為了解決一個解釋變數和另外一個解釋變數存在相關性的問題。


推薦閱讀:

一直一直一直沒有明白,自己看了很多經濟類書籍,卻似懂非懂,沒有入門之感。問題究竟出在哪裡?
吃飯 AA 公平嗎?如一方的飯量是另一方的兩到三倍,這樣對另一方來說不吃虧嗎?
高鴻業版的《微觀經濟學》比較難懂么?
國富論看不懂怎麼辦?
《國富論》這類書對我們到底有什麼用?

TAG:統計學 | 經濟學 | 計量經濟學 | 數量經濟學 |