標籤:

除了工具變數,還有哪些解決內生性的方法?效果如何?


謝邀。

這其實是一個非常難以回答的問題,因為題主對這個問題的描述太過於簡單。

這個問題可以回答有,可以回答沒有,無非是在扣字眼。如果你說的「工具變數」僅僅指的是2SLS的話,那肯定是有其他方法的,比如LIML,或者control function的方法(然而在線性模型下control function 與2SLS等價)。但是如果你仔細思考一下的話,你會發現,仍然很難逃開「工具變數」的陰影。

在不同的模型中,可能會有一些看起來不用工具變數的方法。比如當我們處理sample selection模型的時候,標準的Heckman的模型會設定兩個方程,一個outcome equation, 一個selection equation,在outcome equation裡面,由於自選擇問題導致了內生性(相當於遺漏變數),但是不用「工具變數」也可以解決。但是如果你仔細思考一下的話,Heckman的selection equation最好要包含一個隻影響selection而不影響outcome的變數,這跟工具變數的要求已經很像了。

此外,如果你看很多structural model的估計的話,很多東西的思路仍然是找工具,比如BLP等模型,最終的識別和估計仍然是工具變數的思路。

但是有意思的問題是,如果我們放在更大的視角來看這個問題,在線性模型中,工具變數法實際上同時解決了兩個問題:識別和估計。如果我們能夠找到一個符合條件的工具變數,那麼識別就解決了,同時2SLS也解決了估計。但是如果結構更複雜的模型,識別真的需要工具變數么?

不一定的。比如在一些SVAR中,識別是通過對參數添加限制達到的,或者對誤差的分布添加限制而達到的。換句話說,在一些有足夠structural information的模型中,識別並不需要工具變數。

我不知道這個回答是不是令你滿意。簡單的總結一下,模型的識別不一定需要工具,但是絕大多數模型裡面,工具或者類似工具的思想應該是不可或缺的。


有些可以用propensity score matching


解決內生性, 一般都要藉助外部信息。 不同的解決方法適應於不同的外部信息。比如有前面一個時期的數據的時候可以用difference in differences。 當有其他數據或研究可以給出內生性的信息的時候可以用 propensity score calibration. 還有人說regression discontinuity design 可以解決內生性. 但一般最好用用得最多的還是工具變數

不藉助外部信息的也就sensitivity analysis 了。如果用sensitivity analysis就隨便你自己怎麼玩了


先簡單說一下,本文轉自我的微信公眾號。最初由我作於2012年12月份,修改於2017年11月份,但關鍵取材均來自於「人大經濟論壇」的相關討論版塊,謹以此文向「人大經濟論壇」的諸位前輩致謝。

讀者可以直接從第二部分開始看。不過,我仍然建議讀者先搞清楚內生性的緣起。

、內生性問題的緣起

讓我們花點時間,探討一下內生性的緣起。有「內生性」,那麼,必然就有所謂「外生性」,我們需要先看看什麼是「外生性」。

友情提醒一下,隨後的內容很不友好,但為了文章的嚴謹,我不得不犧牲一些可讀性。看不懂公式沒關係,讀者只要讀懂我的說明就行了。

首先從一個經典的多元回歸模型開始:

下面給出4個基礎假定。

下面給出4個基礎假定。

假定1:線性關係假定,被解釋變數與解釋變數存在線性隨機函數關係。

假定2:嚴格外生假定。

假定3:球形擾動假定。

假定4:無完全共線假定,解釋變數之間無完全共線性。

滿足上述假定,則對β的普通最小二乘估計(OLS)為最優線性無偏估計量,也就是著名的BLUE估計量。

好的,「外生性」出現了,她存在於假定2,假定2 的文字表述是「當所有時期的解釋變數X給定時,每一期的隨機干擾項均值都為 0」,有經驗的研究者會講X和ε同期外生和跨期外生同時存在,則為嚴格外生。我們可以給出這個假定的條件均值形式:

嚴格外生性通常是很難滿足的,於是,學者們退而求其次,只要求同期外生,這便是弱外生性假定。我們也可以給出這個假定的條件均值形式:

滿足假定1、假定3和假定4,以及弱外生性假定(被放寬的假定2),我們能夠證明OLS估計量一致、符合漸進正態分布,T檢驗,F檢驗以及Wald檢驗等常用檢驗都近似有效。

不幸的是,即便是弱外生性假定,即擾動項與解釋變數同期不相關,在現實中也常常不能被滿足。也就是:

外生性假定不滿足,這便產生了內生性問題。嚴格來說,若擾動項與解釋變數不滿足弱外生性假定,我們稱模型存在內生性問題,與擾動項相關的解釋變數被稱為內生變數。

最後提一點,經驗上來講,內生性問題有四種常見形式:

1.遺漏解釋變數。

2.X與Y互為因果,有時也稱反向因果關係。

3.自選擇問題。

4.測量誤差問題。

上面每一種形式的內生性問題都有很多例證和應對方案,但為了本文主題的集中,我不在這裡展開。

二、內生性的解決方案

事實上,僅僅為了解決內生性問題,並不需要我們對內生性問題的緣起有很深入的理解。對於應用型的實證研究而言,我們只需要掌握解決內生性問題的具體方案即可。內生性問題的解決方案一共四種,理論上來講,這四種方案應對內生性問題都很有效。但於我個人而言,我對四種方法的評價是有高低的,由高到低分別介紹如下。

1.自然實驗法

所謂自然實驗,就是發生了某些外部突發事件,使得研究對象彷彿被隨機分成了實驗組或控制組。

這是我最喜歡的方法,只是自然實驗需要尋找一個事件,並且這個事件隻影響解釋變數而不影響被解釋變數。遇著這種事件是一種緣分,還要能識別出來,這對學者的眼光也是一種挑戰。

有很多文章聲稱使用了自然實驗,但嚴格來講,並沒有做到對研究對象進行了隨機分組。雖然如此,我對此類文章仍然很是喜歡。

知乎-在社會科學研究中,研究者巧妙地運用過哪些「自然實驗」?

https://www.zhihu.com/question/30470194

2.雙重差分法

Difference-in-Difference (DID)一般稱為雙重差分法,或倍差法。倘若出現了一次外部衝擊,這次衝擊影響了一部分樣本,對另一部分樣本則無影響,而我們想看一下這次外部衝擊到底有何影響,雙重差分法就是用來研究這次衝擊的凈效應的。

其基本思想是,將受衝擊的樣本視作實驗組,再按照一定標準在未受衝擊的樣本中尋求與實驗組匹配的對照組,而後做差,做差剩下來的便是這次衝擊的凈效應。

雙重差分法實際上是固定效應的一個變種,差分的過程實際上是排除固定效應的過程。ZERA在《計量論文寫作和發表的黑客教程》有一個非常簡明風趣的舉例,我轉述於此,以饗讀者。

「大家都知道買房子靠不靠學校醫院等設施還是有很大差別的。但是,影響房價的因素又不止學區那麼簡單。

學校旁邊的學區房價格上升,難道一定是學區房因素導致的嗎?

現在我們要使用雙重差分法檢驗一個假設:學區房因素導致房價上升。

差分再差分,這個方法要湊效的秘訣是:學區房因素髮生變化,而其他因素基本維持不變。例如教育管理機構重新劃分學區,一個著名小學突然在某個沒學校的地方建分校,或者一個著名小學搬遷,這些因素導致房子是否屬於學區房發生了變化。

以建分校為例。建校後周圍一片區域A的房子都屬於學區房,這個區域以外附近區域(B)的其他房子就不算該校學區房。然後收集建校前後兩個時間點上、A和B區域房價的數據。

所謂的差分再差分法,就是:A區域兩個時間點上的平均房價差距 - B區域兩時間點上的平均房價差距 = d,這個d就是建校對房價的影響了。d是兩個差距之間的差距,所以才叫做差分再差分。用計量回歸把這個d給估計出來,是有辦法的:

P= b0 + b1*Da +b2*Dt + d*(Da*Dt) + Xb + e

P是房價,Da是虛擬變數,在區域A則為1,否則為0, Dt是時間虛擬變數,建校後為1,建校前為0。 STATA一跑,就把d估計出來了。為什麼d可以如此表示?自己思考一下啦。實在想不出來,Wooldridge的書上有精確嚴格的解釋。這裡給出一個直觀的粗略解釋:北京所有區域的房價每個月都在上升,因此需要控制這部分因素,這就是時間因素Dt;區域不同自然也有差別,需要控制區域位置因素,這就是Da,這就控制了即使不建校也存在的差距;控制住其他因素X,那麼剩下的Da*Dt就是建校帶來的房價提升效應了。這下明白了哦。」

當然,如果你想看到更學術化的探討,可以參考2015年第7期《數量經濟技術經濟研究》所刊文章《國內雙重差分法的研究現狀與潛在問題》。

3.工具變數法

這是一種處理內生性問題的經典方法,或者說被濫用最嚴重的方法。

這種方法相信大家都已經學過,就是找到一個變數和內生解釋變數相關,但是和隨機擾動項不相關。在OLS的框架下同時有多個工具變數(IV),這些工具變數被稱為two stage least squares (2SLS) estimator。具體的說,這種方法是找到影響內生變數的外生變數,連同其他已有的外生變數一起回歸,得到內生變數的估計值,以此作為IV,放到原來的回歸方程中進行回歸。

工具變數法最大的問題是滿足研究條件的工具變數難以找到,而不合乎條件的工具變數只能帶來更嚴重的估計問題。

當然,我確實見過非常精巧的工具變數,譬如,殖民地時代的死亡率。

知乎-有哪些有趣的工具變數?

https://www.zhihu.com/question/27623032

4. 動態面板回歸法

基本思想是將解釋變數和被解釋變數的滯後項作為工具變數(IV)。其實,我是不認可這種處理方法,除非萬不得已,我不推薦這種方法,我也不太相信這種方法能真正緩解內生性問題。可是,確實很多人都在用。算了,不多說了。

三、內生性問題解決的案例示解

致謝:案例示解的文章,來自人大經濟論壇一位版主denver所作的推介,本人從文章中收穫良多。

當然,案例在解讀過程中若出現偏差,由我個人負責。

文章基本故事是:股票的流動性對經理人的激勵合約的設計會產生影響。具體的說,當流動性提高的時候,經理人會更加傾向於選擇現金比重更小(股票比重更高)的激勵合同,因為這時股票的變現成本較低;同時,高流動性意味著股票中的信息含量更高,因此薪酬與股價市場回報的敏感性(pay-for-performancesensitivity)會更高。

這裡的兩個被解釋變數分別是cash-based compensation佔total compensation的比重,以及pay-for-performance sensitivity (PPS)會更高。關鍵解釋變數是股票流動性。

第一部分,基礎計量技術,固定效應回歸模型。

值得一提的是,雖然這是本文最基礎的計量技術,但作者還是進行了細緻改進,比如加入管理層的固定效應,以及對標準誤進行了管理層層面的Cluster調整。本表似乎存在一些標註錯誤,注意對Lndelta的回歸中,顯著性的*標註似乎錯誤,應為兩顆星。

第二部分,股票流動性與薪酬合約可能出現的內生性

1、在薪酬契約設計中更多的股權比例,意味著管理者與投資者利益的綁定,代理問題可能削弱,會吸引更多的投資者交易,這體現為良好的股票流動性;在薪酬契約設計中更多的股權比例自然會減少現金薪酬的比例,薪酬與股價回報的敏感性也會增強。這是典型的共同驅動因素所引起的內生性問題。

2、假定公司的信息披露質量很高,投資者很放心將資金投放進入該股票,該股票逐漸具有價值貯藏功能,類似可口可樂股票,其交易流動性很高;而高的信息披露質量使得股價在反映經理人行為時成為良好的業績指標,根據標準的代理理論,這會加強其在薪酬契約中的權重,薪酬敏感性也越強。而信息披露質量似乎並未出現在作者的變數中,這種遺漏變數也會引起內生性問題。

第三部分,對內生性問題進行的解決方案

1.工具變數與兩階段最小二乘法

作者使用的是滯後一期的股票流動性和行業平均的股票流動性來工具本期的股票流動性。滯後一期的股票流動性,與遺漏變數的相關性是有疑問的,從這個角度講作者選取的工具變數並不令人滿意。

但是,既然作者能把文章發到TOP上,他必然有更好的處理方式,通過類似自然實驗的方法。

2、利用自然實驗。

作者選取股票拆分作為事件,因為這一事件會影響流動性,但卻對薪酬合約設計沒有影響。

另一個事件,是公司被選入標準普爾500,這同樣是外生的,對股票流動性有影響,但對薪酬合約設計沒有影響。

3、差分法

本文還考察了Inter-temporalrelation,即做組內的差分,來考察變數之間的動態關係。差分可以消除一部分不隨時間變化的遺漏變數所導致的內生性問題,比如我提出的信息披露質量,可以認為在一定期間內企業的信息披露質量是穩定,從而這一方法可以削弱內生性對本文結論的影響。

四、對內生性問題解決方案的反思

在數據內生這一前提下,任何試圖解決內生性問題的努力都只是削弱內生性對自己所欲證明結論的影響。解決內生性單純依賴工具變數和兩階段最小二乘,在國際頂級的雜誌上是比較少的,因為好的工具變數的尋找幾乎是一件可遇不可求的事情。事實上,在頂級雜誌發文,更有說服力的解決方案是尋求自然實驗法。這種類似生物學控制實驗的方法往往能夠取得審稿人的贊同。

我引用我在「人大經濟論壇」上看到的,在計量經濟學版塊最令我振聾發聵的一段話來做結尾。我記得作者的ID是「淘寶網橙迷橙橙」,我一直很想知道作者起這個名字的初衷。

研究,永遠是越簡單越好。

能夠用方差分析解決的問題,為什麼要用回歸?能夠用一元 回歸解決的問題,為什麼要用多元? 變數越多,模型越複雜,出錯的概率就越高,這是亘古不變的法則。

難道在計量的眾多「花花腸子」沒搞出來之前,以前的學者就無所適從了?

你看生物學研究,哪有計量這麼多搞來搞去的方法?人家只要掌握了一般的多元統計, 足矣!為什麼?因為人家的實驗設計,足以保證數據的可靠性,並控制其他變數,因此,簡 單的統計方法就能有效地發現因果關係。

計量為什麼要強調方法?就是因為計量有先天性的缺陷:一是數據來源,很難得到有效 數據,導致遺漏變數偏誤和測量誤差;二是無法保持「在其他條件不變的情況下,考察原因 變數和結果變數之間的關係」,這是計量建模的先天不足,是無法從技術手段上解決的。而 在實驗室條件下,可以輕鬆地做到這點。從這點來說,計量只能是發現變數間的關聯關係, 無法確證因果關係。三是模型設定形式,你說線性就線性?兩維還可以靠看散點圖來判斷, 多維你怎麼去判斷?

說到底,計量就是因為數據問題、模型設定問題(包含很多不合常理的假定,如同方差 假定,實際中是不可能的),使得其先天性就存在不足,因此需要在方法上來修補其缺陷故其強調「方法」遠勝過強調「原始數據」而生物學統計則是強調「原始數據」遠勝過強調「方法」。只要有可靠的數據,一般的方差分析也是很有力量的!

故:高手不是在模型上 繞來繞去,而是大巧若工,用盡量簡單的方法來得到你無法辯駁的結果!QJE和AER 上有 很多這樣的文章。記得社會學研究學者謝宇的一本書,裡面有一段話大意是指,如果你沒有足夠理想的數據,那麼只有很強的理論假定,才有可能得到比較顯著的結果。這就告訴我們,建模思想非 常關鍵,變數間首先必須有經得起推敲的理論與邏輯關係,然後用數據才能驗證。而我們很多的研究,往往思想性不足,而技術性有餘。

如果你的模型在理論上就經不起推敲,玩弄再多的計量技術又有什麼用?那就真的是「Garbage in Garbage out」了」 。

我對上面的觀點完全贊同,數據和研究設計才是影響文章結論可靠與否的關鍵。複雜估計方法從來都是數據和研究設計出現缺陷時的緩解手段,注意是緩解,不是解決。與諸位共勉!


巧妙設計研究問題,可以直接迴避內生性問題。例如有篇文章研究獨立董事對公司的影響,使用獨立董事突然死亡(不包括自殺)對公司股價影響,沒有內生性問題,公司股價不會影響獨董突然死亡。還有研究自然災害對公司影響


推薦閱讀:

誰能畫出一張宏觀經濟學的框架圖?(比如,以曼昆那本書的體系)?
經濟學中常用的數學演算法有哪些?
學經濟的學生如何提高自己的專業英語水平?
在使用MLE的時候還有所謂的內生性問題么?
有什麼容易介紹又有趣的經濟學現象?

TAG:經濟學 |