斷點回歸設計國內外研究綜述

  和其他因果分析方法相比, 學術界普遍認為運用斷點回歸設計更接近准自然實驗, 估計的結果更加準確, 因此近年來越來越多的實證文獻依賴斷點回歸設計進行政策效應評估。文章主要按照模型設定、估計方法、相關實證研究這三個方面對國內外相關理論和文獻進行述評, 呈現斷點回歸設計完整的理論框架和應用領域, 旨在為國內相關研究者提供借鑒。

文/吉丹俊

來源/無錫商業職業技術學院學報

因果分析與政策效應評估是經濟分析最為關注的核心問題[1], 運用計量模型進行因果分析的難點在於如何避免模型的內生性問題。針對這一問題, 微觀計量領域的學者們通過不斷探索, 藉助於心理學和醫學研究中准自然實驗 (quasiexperiment) 的思想評估不同政策的處理效應, 試圖獲得一致 (consistent) 或者無偏 (unbiased) 估計量。常見的通過准自然實驗思想估計處理相應的模型有:工具變數 (Instrumental variables) 、匹配和加權估計法 (matching and reweighting) 、倍差法 (difference-in-difference) 和斷點回歸設計 (regression discontinuity design) [2]。和其他方法相比, 學術界普遍認為運用斷點回歸設計更接近准自然實驗, 估計的結果更加準確。因此, 近年來越來越多的實證文獻依賴斷點回歸設計進行政策效應評估。

Thistlethwaite、Campbell於1960年首次提出使用斷點回歸設計研究處理效應, 在該文中他們的目的是研究獎學金對於未來學業的影響, 學生是否獲得獎學金取決於考試的分數。如果考試分數大於獲獎標準分數, 則進入處理組;如果考試分數小於獲獎標準分數, 則進入控制組。因此處理變數在獲獎標準分數處形成了一個斷點, 該研究設計的主要思想是可以利用靠近這一斷點附近的樣本來有效估計處理效應[3]。此後30年, 該方法並未引起學術界的重視, 直到1990年以後, 斷點回歸設計開始被應用於各種領域, 並且近年來成為因果分析和政策評估領域最重要的研究方法。

本文將按照模型設定、估計方法、相關實證研究這三個方面對國內外相關理論和文獻進行述評, 呈現斷點回歸設計完整的理論框架和應用領域, 旨在為國內相關研究者提供借鑒。

一、模型設定

斷點回歸設計是一種准自然實驗, 其基本思想是存在一個連續變數, 該變數能決定個體在某一臨界點兩側接受政策干預的概率, 由於X在該臨界點兩側是連續的, 因此個體針對X的取值落入該臨界點任意一側是隨機發生的, 即不存在人為操控使得個體落入某一側的概率更大, 則在臨界值附近構成了一個準自然實驗。一般將該連續變數X稱為分組變數 (assignment variable) 。按照在斷點處個體得到處理效應概率的變化特徵可以分為兩種類型:一種類型是精確斷點回歸設計 (sharp regression discontinuity design, 以下簡稱SRD) , 其特徵是在斷點 (也就是上面所說的臨界點) X=c處, 個體接受政策干預的概率從0跳躍到1;另一種是模糊斷點回歸設計 (fuzzy regression discontinuity, 以下簡稱FRD) , 其特徵是在斷點X=c處, 個體接受政策干預的概率從a變為b, 其中a≠b。

二、估計方法

對於斷點設計回歸模型可以採用參數化方法和非參數化方法估計出上述中的τSRD和τFRD。然而在進行估計之前, 應該通過圖形的形式展示出結果變數 (Y) 和分組變數 (X) 之間的關係, 呈現出結果變數在斷點處的跳躍, 這也是斷點回歸設計和其他回歸模型相比所具有的特定優勢———透明性[6]。此外, 在對平均處理效應進行估計之前或估計時, 還需要對斷點回歸設計的一些關鍵假設進行檢驗: (1) △D (X=c) ≠0, 也就是檢驗處理變數在斷點c處是否存在跳躍; (2) △D (X≠c) =0以及△Y (X≠c) =0, 檢驗處理變數D和結果變數Y在斷點以外的其他點不存在跳躍; (3) △W (X=c) =0, W代表影響結果變數的控制變數, 該檢驗表示檢驗控制變數在斷點處不存在跳躍; (4) △f (X=c) =0, f代表概率密度函數, 該檢驗表示檢驗分組變數在斷點處的概率密度函數是連續的, 也就是在斷點附近, 個體不能操控X的取值, 個體落入斷點的左側或右側是隨機發生的; (5) τSRD≠0或者τFRD≠0, 檢驗平均處理效應不等於0[7]。下面將分別介紹精確斷點回歸設計和模糊斷點回歸設計的估計方法。

(一) 精確斷點回歸設計估計方法

精確斷點回歸設計可以使用非參數化方法和參數化方法對平均處理效應係數進行估計, 非參數化方法主要是指局部線性回歸方法 (local linear regression) , 而參數化方法主要是指局部多項式回歸 (local polynomial regression) 。在局部線性回歸中, 選取合適的帶寬是至關重要的, 帶寬的選擇是在準確和偏差之間進行權衡。一方面, 如果帶寬選擇很大則可供估計的觀察值越多, 這將使得估計結果更準確, 但是平均處理效應估計值的偏差將越大;另一方面, 如果帶寬選擇很小, 準確性降低但偏差減小[6]。

局部多項式回歸的多項式, 可以是一次、兩次、三次甚至更高階, 可以採取不同的多項式形式對式 進行估計, 比較不同回歸方程形式下τ的估計結果, 進而檢驗估計結果的穩健性, 常用的f (Xi-c) 有如下一些形式[8]:

1) 線性型f (Xi-c) =Xi-c

2) 線性交互型f (Xi-c) =Xi-c+Di· (Xi-c)

3) 二次型f (Xi-c) =Xi-c+ (Xi-c)

4) 二次交互型f (Xi-c) =Xi-c+ (Xi-c) +Di· (Xi-c) +Di· (Xi-c)

其他階數的多項式形式以此類推。

在局部多項式回歸中一個關鍵的問題是多項式階數的選擇, 相關討論詳見Lee和Lemieuxa[6]、Gelman和Imbens[9]等人的研究成果。

(二) 模糊斷點回歸設計估計方法

在模糊斷點回歸設計中,具體的估計方法可以採用局部線性回歸法和局部多項式回歸法。

三、相關實證研究

(一) 國外相關研究

自從20世紀90年代以來, 國際學術界出現了大量運用斷點回歸設計進行實證研究的文獻, Lee、Lemieuxa等對相關實證研究進行了系統回顧[6]。近年來, 斷點回歸設計依然是政策評估研究的重要實證方法, 相關研究刊發在不同領域學術期刊上, 並且在頂級學術期刊上也不斷出現類似的文章。由於實證研究文獻眾多, 不可能一一列舉, 本節主要回顧2010年以來刊登在國內外頂級經濟學期刊上相關文章。

Dell開創性地將地理邊界斷點問題引入了斷點回歸設計研究問題領域, 也就是在其實證研究中分組變數為地理距離, 斷點為地理邊界, 他研究了16至19世紀西班牙殖民政府在秘魯某些地區實行的米塔 (Mita) 勞役制度對經濟發展的影響, 實證結果發現米塔勞役制度使得當今這些地區家庭消費水平降低25%, 並使得兒童身高矮小率增加了6%[10]。Chen等學者同樣利用地理斷點回歸設計的方法研究了中國北方地區冬季集中供暖制度對當地居民平均預期壽命的影響, 以秦嶺和淮河為界中國的冬季集中供暖機制只覆蓋北部地區, 這為建立地理斷點回歸設計研究提供了很好的現實基礎, 這份研究發現空氣中總懸浮顆粒物 (TSP) 每上升100μg/m, 居民平均預期壽命大約減少3年, 而這種集中供暖政策使得北方的空氣中TSP比南方平均水平高184μg/m, 這意味著該政策使得北方5億居民相對南方平均預期壽命大約降低5.5年, 總預期壽命減少超過25億年[11]。

經濟學學術期刊《American Economic Review》2015—2016年兩年期間刊發了6篇斷點回歸設計實證研究文章, 研究的內容涉及不同領域, 這說明斷點回歸設計研究仍為重要的實證研究工具並被主流學術界所青睞, 在此將對這些文獻作一回顧。

Dell研究了墨西哥的選舉和毒品犯罪問題, 斷點回歸設計的結果發現在這些行動黨 (一個保守的政黨) 候選人以微弱優勢贏得市長選舉的城市, 與毒品相關的犯罪數量大量增加, 這樣的實證結果可能是由於:行動黨對販毒集團大力鎮壓後, 販毒集團為搶回勢力範圍而實施了更多犯罪[12]。Hansen研究了嚴厲的懲罰措施對於醉酒駕駛行為的影響, 懲罰措施由血液中酒精濃度和以往醉駕記錄決定。斷點回歸設計結果顯示個體血液中酒精濃度超過醉駕標準臨界值使得未來四年再犯的可能性降低2%;如果超過嚴重醉駕標準臨界值則使再犯可能性進一步降低1%[13]。

Schmieder等使用精確斷點回歸設計研究了德國增加失業金領取時間對失業者再就業工資的影響, 使用工具變數的方法估計局部平均處理效應, 結果發現中年工人失業時間增加一個月會使得工資降低8%[14]。Deshpande研究了美國取消低收入年輕殘疾人享受輔助性保障收入 (Supplemental Security Income, 簡稱SSI) 資格對其成年後收入的影響, 斷點設計策略基於美國1996年一項福利制度改革:增加對18歲殘疾人的身體資格審查嚴格程度和次數, 這項制度只適用於18歲生日在1996年8月22號之後的人, 因此在這一天形成了一個斷點, 生日在這天之後的人被取消SSI資格的可能性會增大, 實證結果發現被取消SSI的殘疾人只能賺回三分之一失去的SSI收入[15]。Feldman等人則研究了家庭對於他們所適用的邊際稅率是否真正理解, 在美國當家庭中子女年齡超過17歲, 即自動失去兒童稅收抵免 (Child Tax Credit) 資格, 斷點設計策略基於這一現實。實證研究結果發現雖然家庭在失去兒童抵免稅資格後所面臨的稅務增加且可以預測, 但是家庭在發現失去這一資格後會少報收入, 這個發現說明家庭誤認為至少他們部分稅收負擔的變化是邊際稅率的增加[16]。Card研究了美國某學區實施的一項小學教育政策對學生成績的影響。2004年該學區要求所有小學在四年級和五年級將所有高智商學生單獨編在一個班級, 如果該學校在這些年級至少有一個高智商學生, 該政策要求這個班級的學生規模為正常規模 (20~24人) , 而正常每所學校每個年級高智商學生為5~6個, 因此這個班級還有多餘的席位, 該班級剩餘席位將給那些在過去一年標準化測試中獲得最高分的非高智商學生。該文使用基於排序的斷點線性回歸以及通過對不同年級學生的比較研究了這一政策的實施效果, 研究結果顯示這一政策使得非高智商學生在學習成績上進步顯著, 特別是非洲裔和西班牙裔族群學生[17]。

上述6篇實證文章涉及的領域有犯罪經濟學、勞動經濟學、福利經濟學和教育經濟學, 可以預見在未來斷點回歸設計還將被應用於更多領域進行實證研究。

(二) 國內相關研究

目前, 國內學術界也有大量文獻開始運用斷點回歸設計方法進行實證研究, 一些研究出現在權威經濟學期刊及其他領域期刊上。本文將對近年來國內頂級經濟學期刊《經濟研究》上的4篇相關文獻進行闡述。

范子英、田彬彬基於中國17萬家製造業企業層面的數據採用斷點回歸設計的方法, 在實證後發現地稅局對企業所得稅的執法不力導致了大範圍的企業避稅[18]。黃新飛等人選取2011年5月至2014年5月長三角15個城市224個市場37種農產品的161個周度價格及成本數據, 克服數據加總偏差和樣本選擇誤差, 測算了市場分割程度, 在修正的實證模型基礎上運用斷點回歸方法估計了長三角地區兩省一市的邊界效應[19]。鄒紅、喻開志基於國家統計局城鎮住戶調查2000—2009年的家戶數據, 利用退休制度對城鎮男性戶主退休決策的外生衝擊, 在斷點回歸設計框架下採用工具變數參數估計法和非參數估計法, 檢驗了我國是否存在退休消費驟降現象, 並探討了原因[20]。劉生龍等人利用中國城鎮住戶調查數據 (2007—2009年) , 基於斷點回歸設計方法對1986年開始實施的義務教育法對個體受教育年限及教育回報率進行實證研究[21]。

出現在國內權威期刊上的實證文獻也涉及眾多領域, 由於篇幅有限, 不再一一回顧。同樣可以預測未來國內將會有更多利用斷點回歸設計進行政策評估的文獻, 為我國的經濟和社會發展提供更好的政策建議。

四、結語

斷點回歸設計和其他因果效應分析模型相比更接近准自然實驗, 近年來受到實證經濟學者的青睞, 大量實證研究成果見諸各類學術期刊, 研究的話題涉及眾多領域。但是斷點回歸設計的使用需要滿足一定的前提條件, 因此在模型建立之前需要對相關條件進行嚴格檢驗。本文按照斷點回歸設計的模型設定、估計方法、相關實證研究這三個方面對國內外相關理論和文獻進行述評, 主要目的是展示斷點回歸設計完整的理論框架, 並簡要介紹相關實證研究, 為國內相關研究者進行政策效應評估提供參考。

來源:無錫商業職業技術學院學報,原文有刪減


推薦閱讀:

最全的國內外奶粉分析
2014年最全的節日表大全 包含所有國內外節日
國內外網摘站點大全-----最新版【轉載】 總匯
2018年2月份電影你看了幾部?限制票補又是怎麼回事?

TAG:設計 | 國內 | 回歸 | 國內外 | 研究 |