DID, PSM 及 DID+PSM 有何差異?DID 要假定不可觀測效應隨時間變化趨勢相同?

@慧航


感謝 @盧晶亮 學長的邀請。雖然題主指名道姓了要 @慧航 來回答這個問題,不過鑒於小弟粗略學過一點 program evaluation,所以也想嘗試下班門弄斧。

首先澄清一下題目中的術語:

  • DID: difference in difference, 雙重差分;

  • PSM: propensity score matching, 傾向評分匹配;

  • DID(PS)M: difference in difference (propensity score) matching, 雙重差分(傾向評分)匹配

下面介紹一下匹配估計量。匹配主要分兩種:截面數據匹配和雙重差分匹配。截面數據匹配對於數據的要求比較簡單,我們只需要項目介入後一個時間點的數據即可進行估計。雙重差分匹配對於數據的要求更高,需要項目介入前後至少兩個時間點的數據才能進行估計。匹配的核心思想是運用統計學技巧人為地構造出一個對照組,通過那些可觀測特徵(observable characteristics)試圖為每個參與者(treated)「搭配」一個未參與者(untreated)。換句話說, 對於可觀測的變數,通過匹配構造出的對照組(control group)與參與組(treatment group)擁有相同的隨機分布。下面舉兩個例子說明一下匹配的過程:

例 1,精確匹配。考慮一個獎學金項目,我們想研究收到獎學金對大學生按時畢業的影響。獎學金的發放分為兩步:

  • 第一步:某個學生的績點和家庭收入滿足給定的標準(如績點大於 3.2,家庭收入小於 30,000 元)時,他/她有資格參與該項目;

  • 第二步:某個學生最終能否收到獎學金,不但取決於第一步中那些可觀測特徵(如性別、績點、家庭收入),還取決於一些不可觀測特徵(如管理獎學金的人是誰)

下圖展示了精確匹配的過程,左右兩張表格分別列出了最終收到了獎學金和沒有收到獎學金的情況,每一行表示一個學生。可以看到有三對學生被精確匹配,即他們兩兩之間的可觀測特徵是完全一致的。

例 2,傾向評分匹配。從上圖中可以看到,當我們採用精確匹配時,有些學生無法找到與自己相配的對象。我們不難想像,當用來匹配的條件不斷增加時,幾乎不會有人能夠找到合適的匹配對象,這就是所謂「維度的詛咒」。因此,我們需要一種工具來降維,而這種工具就是傾向評分:Pr(Z) = Pr[P = 1| Z]。其中,Z表示一系列可觀測特徵,P表示最終是否收到了獎學金(收到為1,未收到為0)。需要注意的是,當我們引入傾向評分時,我們還需要額外引入一條假設,即學生是否收到獎學金只與那些可觀測特徵有關,而獨立於他們潛在地收到(或沒有收到)獎學金後的按時畢業情況。由於傾向評分是連續的,我們通常會以區間為基準進行匹配,如(0, 0.1], (0.1, 0.2], dots, (0.9, 1),見下圖:

有兩點值得注意。第一,相比精確匹配,當我們使用傾向評分後參與者找到與之相對應的未參與者的可能性提高了,但是仍有一些參與者無法找到合適的匹配對象(傾向評分過高)。事實上,只有傾向評分位於共同支撐(common support)的個體才能找到匹配,見下圖。第二,對於某些參與者,我們有多個相配的傾向評分,此時可以選擇傾向評分最接近的未參與者作為匹配對象。

在進行估計之前,我們先明確定義一下潛在結果:

  • Y_0:如果一個學生沒有收到獎學金,他/她的按時畢業情況;

  • Y_1:如果一個學生收到了獎學金,他/她的按時畢業情況

注意,對於任何一個學生,不管最終有沒有收到獎學金,他/她都有Y_0Y_1。例如,對於某個獎學金獲得者,我們最終觀察到了他/她的Y_1;但是如果他/她沒有收到獎學金,我們則會觀察到Y_0(可以想像存在這樣一個平行宇宙)。現在我們可以寫出參與者的平均參與效應(average treatment effect on the treated, ATT):

ATT=mathbb{E}left[Y_{1}-Y_{0}|P=1
ight]\=mathbb{E}left[Y_{1}|P=1
ight]-mathbb{E}_{Z|P=1}left[mathbb{E}_{Y|P=1,Z}left[Y_{0}|P=1,Z
ight]
ight]\=mathbb{E}left[Y_{1}|P=1
ight]-mathbb{E}_{Z|P=1}left[mathbb{E}_{Y|P=0,Z}left[Y_{0}|P=0,Z
ight]
ight]

其中第二個期望可以用匹配得到的對照組來估計。

2015.11.27 更新:接下來介紹一下雙重差分。

例 3,截面估計量。考慮一個給農民發放貸款的項目,農民可以用得到的貸款來購買肥料從而增加他們種植的作物產量。假設我們只觀察到了項目開始一年以後的數據:收到貸款的農民平均每公頃收穫 1,100 公斤作物,沒有收到貸款的農民平均每公頃收穫 1,000 公斤作物。此時截面估計量為兩者之差:1100-1000=100公斤/公頃。

截面估計量假設了收到貸款的農民與沒有收到貸款的農民擁有相同的生產率。但是如果(1)生產率更高的農民更容易獲得貸款(他們的償還能力更強);或(2)擁有更貧瘠土地的農民更有可能申請貸款(他們需要更多肥料來彌補土地的不足),那麼這一假設就很容易被打破。

例 4,前-後估計量。考慮同樣的項目,收到貸款的農民在項目開始前平均每公頃收穫 1,000 公斤作物,項目開始後一年,每公頃平均收成增長到了 1,200 公斤。此時前-後估計量為兩者之差:1200-1000=200公斤/公頃。

(此回答尚未爛尾,待續…)

參考文獻:

  • Glewwe, Paul, and Petra Todd. Forthcoming. Impact Evaluation in Developing Countries:
    Theory, Methods and Practice
    . The World Bank.


推薦閱讀 Calieno, Marco and Kopeinig, Sabine (2008) Some Practical Guidance for the Implementation of Propensity Score Matching, Journal of Economic Surveys, 22(1), 31-72.


@SlowMover 說的已經很全面了。

不過在DID部分似乎沒有講完,小弟剛學完高計課程很興奮,乘著考前最後一點印象,班門弄斧強答一發。

借用SlowMover的定義:

DID: difference in difference, 雙重差分;

PSM: propensity score matching, 傾向評分匹配;

DID(PS)M: difference in difference (propensity score) matching, 雙重差分(傾向評分)匹配

這個問題要從處理效應(Treatment
Effect)講起,我們假設有某種處理把對象分為倆群,一群是參與處理的「實驗組」或者「處理組」(treatment group);一群是未參與處理的「控制組」(control group)。考慮這種處理造成了什麼效果。

讓我來舉個例子,比如說有一種就業培訓項目,我們考察就業培訓項目對未來收入的影響。

最最「直觀」(tian
zhen)的辦法是,我們直接比較兩個組(參與就業培訓與否)之間的未來收入,並做差,用差值衡量。However,這個差值能夠衡量就業培訓的效果的前提為隨機分組(其實事實上,分部獨立這個條件一般都可以弱化到均值獨立)。直觀地舉個例子判斷,人們存在自我選擇(self-selection),即很可能只有薪水低的(因而不滿意的)人才會去參加就業培訓,直接做差的結果,相當於用了一群培訓後的原低薪水人群去減未培訓的高薪水人群。說不定你能發現就業培訓降低薪水的有趣結論喲:)

事實上我們對上面那個數字到底是正是負、是大是小完全不感興趣,我們真正感興趣的是:實驗組參加培訓後的收入會不會比(假想中)實驗組未參加培訓後的收入更高呢?高多少呢?

對這個數字的評估,才是我們的處理效應。從模型上考察。

Yit= α0 + α1*Dt + β0*I(t=1) + β1*Dt*I(t=2) + Uit

α0:基礎收入

α1*Dt:組間差異,即兩個組的工資之間是否本身就存在差異

β0*I(t=1) :時間差異,即描述了工資隨時間的變化。I(`)是一個判斷函數,條件成立取1,不成立取0。

β1*Dt*I(t=2) :處理效應,即被處理組第二期的工資是否發生了變化。

Uit:隨機擾動項。

雙重差分估計呢就是:

觀察那張醜醜的圖,從yt1-yt2』的實線就是我們假設的,如果沒有處理,那麼(假想中)實驗組(未參加培訓後)的收入。

那這條線是怎麼來的呢?是我們把yc1-yc2這條實線往上平移得到的。

換言之,我們假設了yt2』-yt1
= yc2-yc1,這就是DID估計中要求的同趨勢假設。換言之,即不可觀測效應隨時間變化趨勢相同。However,這個假設相當的強,以至於經常不成立。

好,下面我們導出PSM和DID-PSM

上面我們說了,之所以直接估計兩組之間的差異往往是失敗的,是因為總體可能會選擇是否參與處理而不是完全隨機的。要把這種自我選擇給消除掉。

人們對於這個問題,有兩條思路,第一條是假設是否參與處理是只依據一些可測變數來進行的;第二條是基於此衍生的匹配估計量。

第一條是什麼意思呢,就是如果是否參與是完全根據一些可測變數來決定的,那在控制了這些可測變數的基礎上,是否參與就是一個完全隨機(同樣的,分布獨立可以弱化為均值獨立)的事件了。那很好,根據之前的想法,我們可以直接做差估計了。

那第二條匹配估計量說的是什麼事兒呢,就說我假設,我能在兩個組裡,找到這個可測變數相同的人,比如說上述問題,如果人們完全根據身高決定參與與否的概率分布,那如果兩個人身高一樣高,那麼顯然的,他們是否參與就是個隨機事件。我們把他們匹配,考察他們的處理效應的差距。所有的人都匹配好了之後,那麼平均的處理效應差距就是我們想要考察的係數。

@SlowMover 的圖表就很好地說明了精確匹配是如何進行的。

但是如果同時依身高、體重、肺活量等等一堆因素(多個變數)決策呢,就會出現數據稀疏(維度的詛咒)的問題,要極大的樣本量才能滿足。什麼意思呢,就是原來身高一樣的人,幾百個人里我可能還能夠大部分匹配成功;現在要求身高一樣、體重一樣、肺活量一樣,為了湊夠過得去的幾十個樣本,我可能需要幾百萬原始樣本才能滿足,更不要說更多的變數了。我們很難找到與Xi(就是上面所說的這組變數)足夠接近的Xj。

那麼我們該怎麼辦呢,聰明的你一定想到了,嘿嘿多維變數沒關係呀,我們找個多元函數F(Xi)把它投影到一維上不就萬事大吉了。第一個想到的當然就是歐氏空間上的距離了,當然下一秒我們就反應過來了,這個距離和單位有很大的關係呀,不太好;那麼就用馬氏距離(我們可以理解為,馬氏距離就是標準化了這個「單位差別」下的歐氏距離)。這就是馬氏匹配。當然啦,馬氏距離仍然不夠科學,可能身高影響是決定性的,體重影響是很次要的,但是在距離里他們的影響被「均等化」了;可能一個人身高很高,體重很小、另一個人身高很小體重很大,但他們參與的概率分布是接近的,但是在「距離」這個概念下,他們很不匹配。

於是天空一聲巨響,送來了PSM估計量,換句話說,就是使F(Xi)更加科學。什麼意思呢,就是我不管你到底是身高、體重、肺活量分別啥樣,反正只要最後你們的概率分布一樣(二值選擇的概率分布其實就是一個參數,P,所決定的),那你們就配對上啦。如果我們之前的是否參與處理是只依據一些可測變數來進行的(可忽略性假設),那麼分數一樣的人概率分布一樣,分組是隨機的,可以直接配對估計。估計方法、common support的概念見 @SlowMover 的回答。這裡不絮述了。

以上說的都是精確匹配,當然了,模糊匹配也是一樣的道理,精確匹配要求相等,模糊匹配就只要求約等於(具體的模糊匹配方法比較多,這裡也不絮述了),關於模糊匹配,由於其使用了「約等於」的量,肯定是有誤差的,因此也衍生出了「偏差矯正的匹配估計量」。

小結一下,PSM存在以下問題:

1.要求較大的樣本量

2.要求較大的common support

3.要求前假設成立,即是否參與處理是只依據一些可測變數來進行的,或者至少,不可測變數的影響是可以忽略的。

第3條假設很要命啊,很嚴格呀,如果有按照不可測變數來選擇是否參與處理的怎麼辦?不要緊張,計量經濟學家們提出了若干種方法:

(1)不可測變數能有影響,那一定是可測變數不夠多。多就是正義,我們找上充分多的可測變數,然後說不定就可以滿足可忽略性假定了呢。

當然了,對此我的評價是,呵呵:)

(2)如果產生影響的這個不可測變數是個不隨時間變化的量,而且我們有一個面板數據,那麼我們可以使用DID-PSM來解決呀

(3)使用斷點回歸方法來估計

(4)使用工具變數法來估計

第二條,就是題主所提到的DID-PSM。 Heckman et
al(1997,1998)提出的。

多亦不敢亂置喙,這部分我也沒太弄明白。但是思路大體是,雖然現在我的選擇是同時依據了可測和不可測變數,但是由於不可測變數是非時變的,那我們減去處理髮生前的情況,的方程中,不可測變數不就被消除了么?(可以想想面板估計中消除固定效應的做法,有些類似),然後就等價於一個依可測變數選擇的PSM。

這個成立的條件和前DID有些類似,要求

(233333請忽略我的鑰匙和滑鼠墊)

相當於通過這種差分方法,控制了諸如樣本不同區域(文化影響參與培訓)、統計員統計水平(假定其水平穩定但失誤率存在)等等影響。


瀉藥

來晚了

slowmover已經說的很詳細了 就說說應用吧

放2篇實證的paper

Liu,Q;Lu,Y;Zhou,Y. Do Exports Respond to Exchange Rate Changes? Inference from China"s Exchange Rate Reform

Biesebroeck,J. Schminke Using Export Market Performance to Evaluate Regional Preferential Policies in China, Review of World Economics, June 2013, 149,20: 343-367

第一個講人民幣升值的出口的影響 用中國的數據 用did

這裡的treatment是2005年的人民幣升值 assume exogenous shock

第二個講出口加工區 對出口的數量和質量的影響 也用中國的數據 用psm的

這個裡面很難找到合適的工具變數 (whether a firm is in an EPZ is endogenous) psm很好得解決了這個問題


搞清楚兩種方法的假設到底是什麼,也就搞清楚該怎麼用了。

DID的第一個假設是linear additive,第二個假設是相同時間趨勢(因此暗含了面板數據的結構)。如果不是隨機試驗,還要假設控制組和實驗組的均質性類似於隨機分組。

psm不要求linear additive,但是要求你知道propensity function 的function form和variables。

psm不要求相同時間趨勢,但是要求如果有面板數據結構,需要在function form和variables上體現time trend或者其他時序結構。

psm不嚴格要求隨機試驗,但是要求你知道所有影響實驗分組的variables,即沒有unobservable selection。

這還沒完,即使你的ps是對的,consistency要求任意兩個比較的點的ps差距趨近於0,這時候呢variance太大。你要variance小呢,這玩意就又不consistent了。傳統計量和機器學習的私生子就是這麼不招人待見。

我見到的大部分psm,logit加個knn(我覺得得賴Abadie和Imbens的指導教程),是技術迷信下的懶人做法。除非你有很強的理由說明linear additive的假設特別不靠譜,或者你有很強的理由認為selection process可以被完全描述,psm是一條很危險的路。

還是那句話,技術的複雜不能彌補設計思考的貧乏


來個超簡單的版本:

  • DID是比較四個點,Treated before, treated after; control before, control after。
  • Matching是比較兩個點:Treated, control
  • DID+Matching是用matching的方法來確定treated和control。


推薦一本THE WORLD BANK 的報告handbook on impact evaluation quantitative methods and practices,網上有pdf下載,裡面對政策效應評估的各種方法進行了非常詳細的介紹,還有一些相關的案例,世行的經濟學家確實厲害。


推薦閱讀:

弱工具變數的判定指標都有什麼?
二項分布檢驗和卡方檢驗的區別?
為什麼斷點回歸可以解決內生性問題?
經濟學研究中,哪些領域的數據搜尋比較需要爬蟲技術?

TAG:計量經濟學 | 項目評估 |