計量經濟學應用研究的可信性革命
06-13
在我國,經過30 年的發展,計量經濟學模型已經成為經濟理論研究和實際經濟分析一種主流的實證方法。①與此同時,人們對於計量經濟學模型方法產生了不同的甚至是相反的評價,究其原因部分來自於計量經濟學模型方法本身,更多地來自於計量經濟學模型的應用研究( 李子奈和齊良書,2010a) 。一部分研究者由於不了解計量模型方法具體的應用背景和適用條件,陷入一種濫用和錯用的誤區,一項實證研究從計量經濟模型的設定開始,一直到模型的估計、檢驗、評價和解釋,隨意性和錯誤隨處可見。針對這一現象,洪永淼(2007) 、李子奈( 2007,2008) 以及李子奈和齊良書( 2010a,2010b) 聯繫我國實際,從計量經濟學在現代經濟學中的地位、作用和局限性以及其哲學基礎、經濟學基礎、模型設定問題等角度對計量經濟學的方法論進行了奠基性的研究。 計量經濟學作為一門獨立的經濟學分支學科,其區別於其他相關學科的本質特徵是什麼? 計量經濟學應用研究的科學性和可靠性如何保證? 這些問題引發了國際計量經濟學界三次集中的大討論,一場經驗研究的「可信性革命」( Angrist and Pischke,2010) 蔚然成風。第一次大討論始於著名的「凱恩斯—丁伯根之爭」( Keynes,1939,1940; Tinbergen,1940) ,凱恩斯認為丁伯根所用的多元回歸分析是一種「巫術」,計量經濟學作為「統計鍊金術」的分支還遠未成熟到足以成為科學的分支。凱恩斯反對使用概率論,而丁伯根使用的「回歸」卻未能利用概率論的原理很好地解釋估計結果,當時的經濟學經驗研究陷入困難叢生的境地。最後這場爭論以Haavelmo( 1944) 《計量經濟學中的概率論方法》一文的發表而告結束,該文為經濟學中的概率論思想正名,在概率論的基礎上建立起統一的計量經濟學基本框架。自此,計量經濟學不僅改變了人們關於客觀經濟世界知識的形成方式,而且逐漸成為經濟學主流的經驗研究方法。 1980 年代初,眾多學者的反思掀起了有關經驗研究可信性問題的第二次大討論。Sims( 1980)對當時的大型宏觀計量經濟模型所施加的外部約束條件的可靠性提出質疑,認為這些不現實的約束條件將導致不可靠的政策分析結論,進而建議使用更少約束條件的VAR 建模策略。該模型已被研究者和政策制定者所廣泛採用,主要用於分析經濟如何受到經濟政策臨時性變化和其他因素的影響,Sims 也因此獲得2011 年諾貝爾經濟學獎。Hendry( 1980) 就計量經濟學的應用淪為鍊金術問題展開尖銳的批判,提出讓經驗研究走向科學的一條金科玉律就是「檢驗、檢驗、再檢驗」。Leamer( 1983) 一文則指出回歸分析中模型假定以及控制變數選擇的隨意性導致的結果脆弱性,由此提倡應該進行回歸模型的敏感性分析。Black( 1982) 以及Pratt &Schlaifer( 1984) 對應用研究者將回歸模型中的相關關係錯誤推廣至因果關係提出批判,同時對兩者的區別進行了詳細的論述。 面對第二次討論中出現的難題,計量經濟學家提出了各種建模思想、估計量以及檢驗統計量,理論計量進入百花齊放的階段; 然而,理論計量研究與經驗研究之間的裂縫反而擴大了,理論計量越來越複雜,應用計量則在某些領域變得越來越簡單( Heckman,2 001) 。為此,進入新世紀以來,以Journal of Econometrics 百期紀念專刊對計量經濟學方法論、模型方法發展的總結為開端,以重要學術期刊的專刊①為陣地,計量經濟學界掀起了對經驗研究可信性的第三次大討論,並形成了模型設定的統計適切性和因果關係的有效識別兩大核心議題。 縱觀三次大討論,可信性革命的核心問題在於實現經濟理論、統計學、數學在計量經濟學應用研究中的科學結合。第一次大討論主要關注經濟理論與數學的結合問題,解決了計量經濟學的概率論基礎問題,同時確立了凱恩斯宏觀經濟理論在模型設定中的導向作用。第二次大討論突出了數據與模型的結合問題,在宏觀實證領域擯棄了模型設定的經濟理論導向,確立了數據關係的導向作用。第三次大討論強調了模型設定的統計適切性問題和因果關係的有效識別問題,本質上是試圖實現經濟理論導向和數據關係導向的綜合,向實現經濟理論、統計學、數學的科學結合邁出了堅實的一步。 當前,中國計量經濟學正處於邁向國際化和規範化的新階段,面臨著與國外先進水平的實質性接軌,這其中的一個關鍵問題就是提高應用研究的可信性。如何借鑒國際經濟學界對於經驗研究可信性問題的研究成果應成為我們的著力點之一,這也是我國計量經濟學基本理論研究延續和深入的需要。為此,本文首先釐清計量經濟學探索客觀經濟世界過程的本質特徵,進而從模型的隨機性設定、經濟變數之間的因果關係識別以及模型的統計適切性評價等三個方面論述計量經濟學應用研究的可信性來源,以期拋磚引玉,達到對計量經濟學應用研究的正本清源。 二、計量經濟學對客觀經濟現實的探索過程 現代經濟學研究建立的基本假設前提是( Hendry,1995) : 現實經濟世界中存在著某種具有規律性的機制,這種機制是由經濟主體的生產、交易、消費等行為構成的,並進一步認為經濟機制的某些規律性是可以測度的,這種可測的機制部分稱為數據生成過程( 簡稱DGP) 。經濟學家對於客觀經濟世界真實DGP 的認識和探索經歷了一場從決定論法則到「無序中的有序」的概率論法則的變革,而在這場變革中,計量經濟學起著關鍵作用。計量經濟學家將隨機性視為客觀經濟現象的特殊矛盾性,並致力於尋找合適的方法論基礎以保證計量經濟學應用的可靠性。 Haavelmo( 1944) 澄清了計量經濟學研究對象的特殊矛盾性,認為經濟規律的特有性質決定著概率論方法運用的必然性; 文中把隨機性作為一條規律引入模型,用概率分布及其特徵值來描述客觀經濟現象的變動規律,尤其是引入聯合分布來刻畫相互依存、同時確定的變數的變動關係,使得隨機性設定成為計量模型不可或缺的重要部分; 進而在概率論的基礎上,利用20 世紀初統計學的最新成果建立起計量經濟學的基本框架。因此,該文被譽為計量經濟學的「南十字星座」,開啟了計量經濟學的現代之門( Hoover,2005) ,Haavelmo 也因此獲得1989 年的諾貝爾經濟學獎。此後,計量經濟學家對計量模型描述客觀經濟現象的本質特徵有了清晰的認識,本文闡述如下。 ( 一) 計量經濟學探索客觀經濟世界的本質特徵 經濟現象( 體現為觀測數據) 是定義於一個完備概率空間( Ω, ,P0) 的隨機過程Z≡{ Zt ∶ Ω→ν,ν∈ ,t = 1,2,…} 的一個實現,概率測度P0提供了對序列Z 的隨機行為的完全描述,因此被認為是真實的數據生成機制,即最一般意義上的DGP。正是由於P0未知,才產生建模、估計和推斷問題,如果我們可以得到Z 的一個實現,就可能從Z 中推斷P0。因此,計量經濟模型建模的首要含義是從現實經濟世界到概率空間的映射。由於概率空間( Ω, ,P0) 過於抽象,並不能為我們提供一個足夠靈活的框架用於對隨機經濟現象的建模,需要將概率空間映射到更靈活的概念———概率模型。從實際角度看,我們只能得到有限序列Zn = ( Z1 ",…,Zn ") "的一個實現zn ,即樣本容量為n 的抽樣。生成容量為n 的樣本的隨機過程可由其分布完全刻畫。進一步定義分布函數和密度函數的參數化形式為ΦF = { F( z; θ) ,θ∈Θ,z∈ νn } 和Φf = { f( z; θ) ,θ∈Θ,z∈ νn } ,稱之為參數化概率模型,其中θ 為未知參數向量。隨機過程最重要的特性是統計特性,它刻畫了隨機過程的本質,因而可以從偶然性中揭示出必然性。多維聯合分布( 密度) 函數是隨機過程統計特性最完善的描述。隨機過程{Z } t的分布( 密度) 函數是既包括變數關係又包括樣本點關係的高維聯合分布函數,要從中得出具體可用的模型,往往需要對向量Zt( 假定v × 1 維) 進行分塊Zt = ( Xt " ,Yt ") "以及一系列的約化。例如,把對聯合分布的建模約化為對條件分布建模,進而約化為對條件期望建模,這就是總體回歸模型; 其中Yt是l× 1 維的被解釋變數,Xt是( v - l) × 1 維的解釋變數。計量經濟模型就是使用經濟和統計假定從聯合分布( 密度) 中識別出經濟定量關係( White,1994; Reis and Wolak,2007) 。 綜合上述,計量經濟學對客觀經濟世界的探索,蘊含著從「現實經濟世界到概率空間的映射———概率空間到概率模型的映射———概率模型到計量經濟模型的映射」這一過程。把隨機因素規律化,這是計量模型區別於其他經濟模型的本質特徵: 一方面可以體現人類行為與經濟活動內在的隨機性,另一方面也是我們控制未知因素影響的重要途徑。因而計量模型的設定包含隨機擾動項及其概率分布的設定,它使得模型能最大限度地逼近客觀經濟現實。 揭示變數之間的經濟關係是建立計量經濟模型的主要目的,需要基於觀測到的信息資料推斷結果。問題在於,我們所觀測到的數據,是從某個可能的假設或原因的集合中所導致的結果,也就是說,數據和假設之間缺乏一一對應的關係,由此產生的新知識( 推斷結論) 是一種帶有不確定性的知識。這種精確性的缺乏成為歸納推理系統化的最大障礙。20 世紀初,統計學家提出的一種有關新知識產生的方式有效地解決了這個問題,Rao( 2004) 將其總結為以下的邏輯方程: 不確定的知識+ 所含不確定性度量的知識= 有用的知識 在形成新的具有不確定性的知識時,對其存在錯誤的可能性進行度量是一種理性選擇,由這種邏輯過程產生的知識才能夠用於解釋現實並指導實踐。計量經濟分析中,無論是參數估計還是假設檢驗,都是基於一個樣本得到的結論,但處理方式遵循了上述邏輯方程所強調的有關不確定知識的產生方式,這種處理最終通過分布來實現。因此,計量經濟模型只有包含隨機性設定,才能在經濟關係的檢驗中包含對自身置信度的有效度量,從而實現對客觀經濟現象隨機性的有效駕馭。 ( 二) 探索過程的多樣性與可靠性 經濟規律具有相當局限的持續不變性,或者說經濟規律的不變性是有條件的,只有在一定時空條件下,經濟運行規律即真實DGP 才是唯一的。然而,現代經濟生活極大的複雜性,使得我們發現並建立真實模型之求往往成為奢望。從未知的真實DGP 到計量經濟模型,是一個探索過程,當然也就允許研究者多方嘗試,從而最後的模型設定呈現多樣性。 但是,這種探索性和多樣性並不意味著模型設定的隨意性。只有在一定建模準則下建立的計量經濟模型,才能成為對真實DGP 的一個有用的、可靠的近似。我們認為,經驗研究的可信性必須依賴以下三個重要來源: 其一,擾動項的概率結構不僅體現於模型設定,而且主宰了參數估計、假設檢驗等經濟計量分析的主要環節,其豐富的經濟和統計含義應該得到重視。其二,每項實證研究都有特定的研究目的,需要通過模型設定實現對關注效應的有效識別和可靠推斷; 因果關係推斷作為計量經濟分析的重要目標,其有效識別是經驗研究的核心問題。其三,模型設定是統計推斷的基礎,錯誤的設定可以導致錯誤的推斷; 模型統計適切性是評價模型對真實DGP 概率結構近似程度的重要標準。 三、擾動項的含義與隨機性設定 對計量經濟模型的不可觀測成分尤其是隨機擾動概率結構的研究,包括相應的估計和檢驗是理論計量的主要研究對象。對應用研究而言,它們是計量模型描述客觀經濟現象不可或缺的一部分,也是計量經濟模型「計量含義」的集中體現。未能有效地駕馭隨機設定對客觀經濟現象的描述功能,某種程度上也限制了對計量經濟模型的創新性運用,計量經濟學發展過程中的多次創新和重大突破就發端於如何更好地運用隨機擾動項分布來描述客觀經濟現象。①Woodridge( 2003) 認為,對於擾動項的處理可能是任何計量分析中最重要的內容。忽視其存在,或僅作為一種擺設,計量經濟模型設定就失去一個重要的可靠性來源。應用研究中卻存在諸多誤區,本文對此進行了梳理。 第一,將擾動項視為一種符號,忽略其重要含義。 計量經濟模型的設定包含著確定性設定與隨機性設定兩部分。以最常見的回歸模型為例,確定性設定刻畫了模型中的觀測變數、參數以及函數形式,隨機性設定描述了擾動項的概率分布以及與解釋變數的關係。一般而言,確定性設定更多體現經濟意義,隨機設定更多體現統計意義②,兩者是相依共生的。一方面,無論確定性設定如何體現經濟意義上的合理性,模型推斷的可靠性仍然依賴於隨機性設定的合理性; 另一方面,確定性設定部分如果不合理,也會影響隨機性設定的合理性,比如遺漏重要解釋變數或者函數形式錯誤設定,可能導致隨機擾動項與解釋變數相關而破壞外生性假定,或者導致擾動項呈現異方差等複雜變化,從而對隨機性設定部分的可靠性造成嚴重影響。 而且,大多數計量經濟學模型方法在研究條件分布的某一屬性( 例如條件均值) 時,往往會對其他屬性( 如條件方差) 做一些輔助性的限制假設,忽略擾動項,這些假設的合理性就得不到討論與研究。例如,在研究市場有效性時,常用的混合Q 檢驗統計量只有在條件同方差下才服從漸近卡方分布,這一結論在條件異方差下並不成立,許多國內研究由於忽視這一點( 如波動集聚性的存在) ,導致錯誤推翻市場有效性( 洪永淼,2007) 。 還應指出的是,面板數據模型目前雖大量應用,但截面相關問題尚未引起重視。面板數據中截面相關是普遍存在的,其設定既有豐富的經濟含義,又是統計推斷結果可靠性的重要保證。以非平穩面板數據的單位根檢驗為例,廣泛應用的LLC 檢驗、IPS 檢驗都假定ADF 回歸中不同個體的擾動項相互獨立,當存在截面相關時,這些統計量就不再收斂於原來的分布,產生嚴重的水平扭曲問題; 即使是一般的面板回歸模型,截面相關也將影響估計量的有效性甚至是一致性( Pesaran,2006) 。 第二,檢驗過程忽略有關擾動項及DGP 的設定,主觀選擇符合所需要的結果。 很多統計量是基於有關擾動項及DGP 的某種設定推導出來的,如單位根檢驗、Granger 因果關係檢驗以及協整檢驗對於擾動項及DGP 設定有很強的依賴性。這些檢驗幾乎是我國目前宏觀經濟與金融實證研究應用最廣的方法,同時也是錯誤集中的領域。 單位根檢驗的DF、ADF 方法的臨界值選擇依賴於模型是否存在截距項與趨勢項。很多研究者完全按自己研究的「需要」,隨意地選擇模型設定,導致模型設定過程成為一個黑箱。根據Enders( 2004) 給出的嚴格檢驗步驟,應該對截距項、趨勢項的係數進行反覆的檢驗,以確保得到數據支持的模型設定。原始的Granger 因果檢驗沒有規定變數必須平穩但事實上隱含這一假定,很多研究都將此檢驗應用於非平穩時序,後續的研究已經表明,使用非平穩時間序列時,該統計量的漸近分布不再是標準分布。周建和李子奈( 2004) 的蒙特卡羅模擬顯示,序列的不平穩性是造成虛假Granger 因果關係最主要的因素之一。 在非平穩時序的協整檢驗中這一問題更是突出。Johansen( 1988) 、Johansen & Juselius( 1990)提出了協整關係的MLE 估計和檢驗方法,其檢驗結果對DGP 的設定具有很強的依賴性。Eviews軟體就給出了5 種DGP 下協整關係的可能結果。目前國內幾乎沒有應用研究進行嚴格的DGP 識別檢驗,而是根據某些主觀因素在各種DGP 下選擇檢驗結果。這種做法抹煞研究對象真實的總體屬性,扭曲了真實的協整關係,其檢驗結果可能是錯誤的。① 第三,忽略不同數據類型的分布特性,想當然地推廣統計量。 忽視檢驗統計量分布成立的前提,隨意擴展檢驗的適用範圍,想當然地將已有的檢驗統計量直接推廣到不同類型的數據結構,也是造成研究結論不可靠的原因。例如,在面板協整檢驗中,有些研究原封不動地移植時間序列下的EG 兩步法。時間序列僅有時間維度,非平穩時序統計量的概率基礎是隨機泛函的極限定理,在此基礎上產生了單位根與協整理論,其中由基於殘差的EG 兩步法構建的協整檢驗統計量收斂於非標準分布。面板數據同時包括時間維度T 和截面維度n,Pedroni( 1999) 和Kao( 1999) 基於殘差的協整檢驗統計量並非時間序列EG 兩步法的直接推廣,而是序貫收斂於標準正態分布,且要經過與真實DGP 有關的參數調整。蒙特卡羅模擬顯示,這種錯誤推廣存在過度拒絕原假設的問題,此時面板協整就很容易成為一種普遍關係了,結論是不可信的。 第四,缺乏對檢驗的名義水平和實際拒絕概率的甄別。 在擾動項是正態分布的嚴格假定下,可以推導某些檢驗統計量原假設下的有限樣本分布,對應的檢驗稱為精確檢驗。更多的情形是我們只能得到統計量在原假設下的漸近分布,相應的檢驗稱為大樣本檢驗或者漸近檢驗; 一些複雜檢驗統計量甚至是服從非標準分布,必須通過模擬獲得其臨界值。漸近檢驗用樣本容量趨於無窮時的分布函數來近似表示統計量有限樣本的統計特性,計算出的P 值都是漸近值,可能存在過度拒絕或拒絕不足的水平扭曲問題。例如,GMM 框架下的Hansen-J 檢驗與MLE 框架下的IM 檢驗,在有限樣本下就存在明顯的過度拒絕問題; 又如面板協整檢驗,其極限分布是時間維度T 和截面維度n 趨向無窮的結果,大部分檢驗統計量的極限分布建立在序貫收斂或聯合收斂的極限定理( Phillips and Moon,1999) 之上,聯合收斂的推導過程還往往有n、T 比率的假定。這將給有限樣本下統計量的檢驗水平和功效造成影響,使得統計量的應用受到n、T 長度的限制,有些甚至不可使用( 胡毅等,2010) 。在國外的優秀學術期刊中,對檢驗的名義水平和實際拒絕概率進行區別和處理,已經成為一項經驗研究可靠性的重要體現。我國大部分的宏觀經濟時序數據時間長度都較短,統計量分布的絕大多數已知結論又只是漸近性質,但檢驗統計量的有限樣本適用性問題卻還未受到足夠重視。 四、因果關係的識別和推斷 一項經濟學經驗研究,應該與一個清晰的、表述確切的目標相聯繫,只有了解構建一個模型的初衷,我們才能對其做出評價( Granger,1999) 。而在諸多目標之中,因果關係的推斷是核心。因果關係首先是一個哲學概念,但哲學上迄今沒有給出普遍、嚴格、可量化的定義,社會科學對因果關係的測度更多地是基於某一角度的考慮。例如,計量經濟學中廣為採用的Granger 因果關係檢驗就是從變數之間的預測關係來檢驗因果關係。如何定義因果效應並進行有效識別則成為可信性革命第二次和第三次大討論的核心話題。 ( 一) 有效識別因果關係的困難之處 Stock & Watson( 2007) 指出,因果效應( casual effect) 可以定義為,在一個理想的隨機化控制實驗中,一個給定的行為或處理對某一結果的影響。Wold( 1969) 明確指出,計量經濟學想成為一種基礎創新的科學方法,關鍵在於必須克服由於缺少實驗所帶來的局限性。在實驗室條件下,先驗控制某因素的效應與後驗分離出該因素的效應,其結果是等價的。而現實中得到的數據大多是觀測數據,我們若想在計量經濟學也取得這種等價性,就必須首先將與「實驗」有關的所有非控制因素的效應全部測定並分離出來。 研究者往往通過在回歸方程中引入足夠多的控制變數來構造一種類似於實驗的環境,即獲得關注變數的凈效應( Woodridge,2 003; Stock,2010) 。我們認為,這只是獲得因果效應的必要條件而不是充分條件。一方面,計量經濟學分析的重要環節之一就是如何判斷究竟哪些因素與「實驗」有關,只要無法確定所有顯著有關的變數,我們就面臨著誤設實驗模型的問題,因而也不具備實驗科學所要求的基礎條件( Hendry,1 995) 。另一方面,即使是一種因果關係,基於回歸模型也很難對其背後的作用機制進行清晰的刻畫,或者明確究竟是哪一項機制在起作用。因此,無論是因果效應的存在性,還是其背後的具體作用機制的識別,都需要在研究設計和模型設定中充分考慮。 經驗研究中的另一種處理方式是基於描述性計量建模進行明確的因果關係推斷。例如通貨膨脹持久性研究,有些研究者基於自回歸、不可觀測成分、狀態轉移等模型進行了明確的因果論斷。但是,這些模型都屬於描述性的統計模型,意在刻畫通脹的統計特徵,唯有以不同形式施加經濟假設,建立諸如粘性信息模型、學習模型、Calvo-Rotemberg 模型或者DSGE 模型,才能解釋通貨膨脹持久性的經濟動力源( Fuhrer,2011) 。又如地方政府策略互動行為的研究,往往以空間計量模型中的空間滯後係數度量策略互動行為的方向與強度。部分研究者僅據此進行特定策略互動機制的因果效應闡述是不恰當的,原因是忽視了兩個重要的識別問題: 第一,空間滯後關係既可能是地方政府策略互動過程的結果,也可能是某些遺漏的地區特徵的外生相關或者對地方政策的共同衝擊所致; ①第二,支出溢出、財政競爭以及標尺競爭等理論假說都可以推導出同樣的簡化型地方政府政策反應函數,空間滯後模型本身不能識別哪種機制在起作用。我們認為,對於描述性建模工作,模型結果的相關背景或者可能原因的闡述是有必要的,但不能過度推廣甚至是錯誤推廣其經濟含義。 ( 二) 因果關係識別方法的新近發展 對因果關係的推斷是經濟學研究的重中之重,而在非實驗條件下進行因果關係的有效識別又是難之又難。然而,這一事實並不排斥我們科學地進行計量經濟學研究的可能性,追求更為明確、透明化的識別策略則是努力的目標。由於對哪些因素有利於透明化、識別所需的假定以及經濟理論扮演的角色有著不同的見解,對因果關係的識別發展出兩個方向: 一是基於實際實驗與准實驗方法; 二是結構計量建模。 1. 實驗與准實驗( 自然實驗) 方法 實驗學派②已成為經濟學經驗研究的一個新潮流( Angrist and Pischke,2010) ,這些方法往往用於對一個項目、政策或一些其他的干預或處理的影響進行研究。理想的隨機化控制實驗為使用實際數據進行因果效應的計量經濟分析提供了一個理論基準。其中心思想是通過從一個總體中隨機地選取個體,然後隨機地對部分個體進行處理,進而測度因果效應。處理的隨機分配可以保證處理的水平獨立分布於結果的任何其他影響因素,由此消除了遺漏變數偏差的可能性。此時,處理水平X 對Y 的因果效應就是條件期望E( Y|X = x)與E( Y|X = 0)之差,其中E( Y|X = x)是處理組中處理水平為X 時Y 的期望值,E( Y|X = 0)是控制組中Y 的期望值。如果某一處理對所有成員都一樣,那麼X 就是二元變數,因果效應可用處理組與控制組之間的樣本平均結果之差來估計。而且,隨機分配下這種因果效應等同於單變數的回歸模型Y = β0 + β1X + u 的斜率係數,OLS估計量^β 1就是因果效應的一致估計。 由於理想的隨機化控制實驗所具有的對因果關係推斷的優勢,越來越多的研究者進行了實際實驗; 有些實際實驗存在著道德與成本問題,研究者轉而將其思想應用於基於觀測數據的准實驗。前文認為普通的回歸分析本質上是一種相關推斷,那為什麼實驗框架下的回歸分析卻可以進行因果推斷呢? 關鍵的差別就在於上述的隨機分配思想。問題是,現實中的實驗和准實驗,都與理想的隨機化控制實驗存在或多或少的差距。目前國內應用該建模思路的研究存在大量錯誤,根源就在於對這些方法的適用範圍和隱含假定缺少認識。③ 如果隨機化失敗,處理部分地以主體的特徵或偏好為基礎,那麼實驗結果反映的既是處理效應,也是非隨機分配效應; 即使處理的分配是隨機的,但個體並不總是完全遵守隨機化實驗協議,實際得到的處理也可能不是隨機的。④ 而且,實際實驗和准實驗還可能存在損失問題、實驗效應、工具變數可靠性、控制組個體的匹配等問題,它們的疊加將使得情況變得更加複雜。⑤ 雖然實際實驗和准實驗方法得到了廣泛的應用,但我們必須看到這些方法本身的局限性,並不是所有的經濟學領域都具備實際實驗或准實驗的條件; 而且,這些方法更多地是驗證因果效應的存在性及程度,對於背後的作用機理則多少顯得無能為力,根本原因在於這其中沒有多少經濟理論( 結構) 。 2. 結構建模方法 Reiss & Wolak( 2007) 區分了非結構計量經濟模型( 或稱描述性模型) 以及結構計量經濟模型。非結構模型基於正式的統計模型①,揭示數據( 經濟變數) 之間的統計特徵與統計關係,經濟理論的作用僅限於選擇被解釋變數和解釋變數,或者為變數間的關係提供可能的經濟學解釋,最終模型是以變數的聯合分布的某些特徵展現出來。所謂結構計量經濟模型,則明確地將經濟理論模型與統計模型相結合,從而有效識別出定量的經濟因果關係; 結構建模是計量經濟學區別於統計學以及統計學與其他學科交叉研究的集中體現。 我們認為,過去十年是結構計量建模的復興時期。之所以說是復興,是因為既有繼承,又有發展。事實上,早期基於凱恩斯主義理論的大型宏觀聯立方程模型就是一種結構模型。但是,這些模型一方面未能體現理性預期以及經濟主體的行為特徵等微觀基礎,因而受到了「盧卡斯批判」; 另一方面在統計假定上又未能考慮數據特徵,使經濟理論處於一種超檢驗的地位,從而阻斷了建模者根據數據信息邏輯一致地修改結構模型的可能。20 世紀80 年代隨著宏觀經濟學中RBC 模型框架的興起以及隨機效用等微觀計量模型的發展,結構建模有了新的進展,而過去十年計量方法的快速進步則使得模型高度結構化。現在所謂的「結構」是指在經濟行為主體的動態最優化過程中,刻畫偏好、技術、稟賦以及制度等因素的深層參數( Heckman,2000; Reis and Wolak,2007) ,從而使得模型具有堅實的微觀基礎; 而且包含了更多的統計結構,變數的動態結構以及不可觀測效應都得到高度重視。 以微觀經濟學的動態均衡建模為例,按照行為主體的互動類型,可以分為單經濟主體的動態局部均衡模型、多經濟主體的動態一般均衡模型以及動態博弈模型( Aguirregabiria and Mira,2010) 。在宏觀經濟學中,DSGE 模型成為新的研究範式②,該類模型嚴格依據一般均衡理論,刻畫了包括對行為主體所處環境、決策行為的一系列決策規則以及決策時所面臨的不確定性,並在動態優化背景下構建經濟主體行為方程,最終獲得以非線性期望差分方程組為形式的模型均衡關係式,同時利用有關方法進行均衡的計算以及模型參數的估計。結構模型方法最大的優點在於,結構參數有著明確的經濟含義,這使得實證結果也有相應的經濟解釋。而且,通過反事實分析可對新政策進行評估,相比實驗方法,結構建模的效用最大化框架使得福利分析成為可能,政策比較和最優政策選擇有了可靠標準。③ ( 三) 經濟理論在因果效應識別中扮演什麼角色? 洪永淼( 2007) 曾指出: 統計方法與工具,不管是數理統計還是經濟統計,均不能確認經濟變數之間的數量關係是否為因果關係。因果關係的確認,必須藉助於經濟理論的指導。問題在於如何指導呢? 目前流行的回歸分析對經濟理論的應用主要體現在以下兩個方面: 其一,為變數的選擇提供依據,或者通過施加回歸模型參數的約束而將理論本身作為研究對象。這裡需要再一次強調的是,即使回歸模型的變數有相關經濟背景,仍然只是提供了一種潛在的、可能的因果解釋,而不是結構模型中深層參數直接的因果效應。例如,為研究拍賣的中標額和投標者數量的均衡關係,非結構建模將中標額對投標人數進行回歸,在標準的統計假定下,該回歸模型給出了給定投標人數時對中標額的線性預測。結構計量建模則在風險厭惡程度、追求預期利潤最大化以及和人信息分布等假定下,得到給定投標人數目、中標額的條件密度和條件期望。 其二,是在實證研究前面附加一個理論模型,然後說明後面的實證模型是對該理論模型的驗證,或者認為這樣的實證模型設定就有了依據。然而,這並不是真正的結構建模,理論模型中的結構參數在各種「演化」之後在實證模型中已不見蹤影: 如果沒有進行實證模型參數與結構參數之間的識別則未能根本解決因果效應的有效識別。 在經濟理論與計量分析相結合的過程中,還存在一種現象,將理論模型的某些概念等同於統計概念,均衡方程與協整方程就是一個典型。經濟模型中的均衡往往是一系列假定之下得到的經濟變數關係的結構方程,而協整體現的是變數間某種長期穩定的統計關係,這種等同至少在以下三個方面存在問題: 第一,即使變數之間不具備經濟意義上的均衡關係,仍然可能具有協整關係; 第二,均衡關係往往存在於多個時間序列之間,僅對其中部分時間序列進行協整檢驗進而得到的協整方程是不完全的,並不是變數之間均衡關係的真實反映; 第三,經濟理論的均衡有著豐富的含義,包括一般均衡與局部均衡、跨期與期內均衡、長期均衡、博弈均衡等,並不是所有均衡都能通過協整檢驗來驗證,或者說協整未能體現其含義。忽視這種區別,一方面是導致DSGE 模型均衡的計算以及動態博弈模型馬爾可夫精鍊均衡的計算等前沿領域沒有得到重視,另一方面卻出現了「為均衡而協整」的泛濫現象,協整似乎成為一種普遍關係了。 對於因果效應的推斷,我們認為,不同的建模方法是一種互補,而不是相互替代。越來越多的經濟學家( 例如Granger,2001; Reiss and Wolak,2007; Acemoglu,2010; Keane,2010) 認為必須在宏觀經濟學、發展經濟學、產業組織、勞動經濟學等各個領域的經驗研究中引入更多的經濟理論( 結構) ,才能從本質意義上解釋因果效應背後的邏輯鏈條與作用機制。結合因果推斷這一重要研究目標,我們更加推崇上述的結構計量建模,實現理論建模與經驗分析的統一; 但在衛生經濟學、社會經濟學等領域,理論數理化相對滯後,一些命題的提出並沒有經過嚴格的數理模型推導,甚至是依賴於直覺,此時實驗與准實驗方法則應是其因果推斷的選擇。那麼,在承認各種建模思路合理性的前提下,如何在各自的建模框架下保證其統計推斷的可靠性呢? 這涉及到一項研究可靠性的另一根本問題———模型的統計適切性評價。 五、模型的統計適切性評價 計量分析中,參數估計與參數約束關係檢驗是我們獲得有關經濟規律一般性結論的歸納論證過程,其可靠性依賴於統計量的良好性質,而這些良好性質的獲得又依賴於計量經濟模型這個載體中的各種設定。問題在於,這些設定在實際應用中並不必然得到樣本數據的支持。如果統計推斷建立在各種未得到數據支持的設定之上,其結論將是危如累卵。因此,在Pesaran & Smith( 1985) 提出的評價計量經濟模型的三個標準中,模型在統計上的適切性( Statistical Adequacy) 逐漸成為最主要的標準。當一個模型的各種假定得到數據的支持時,我們稱該模型在統計上是適切的,或者說是正確設定的( White,1994; Geweke et al. ,2006; Spanos,1999; Cameron and Trivedi,2005) 。 對模型統計適切性的重視,是計量經濟學提高其應用可靠性的需要,由此形成第三次大討論的另一核心議題。計量經濟學家從兩種思路解決這一難題。一種簡單的想法就是,找到穩健的計量模型方法,使得統計適切性不依賴於特定的模型設定。另一種思路則是,找到合適的方法證明自己所依賴的假定是合理的,由此形成了模型選擇和模型設定檢驗兩種模型評價思路( Geweke et al. ,2006) 。實證研究中,對於穩健推斷、模型設定檢驗和模型選擇的應用也存在重視不夠或認識模糊的問題,以下是本文的一些看法。 首先,我們要強調經濟分析不能代替統計適切性評價。例如,對於可能存在內生解釋變數的回歸模型,研究者往往根據理論分析、直觀判斷或者已有文獻結論等先驗經驗信息,找到工具變數進行IV 估計,進而根據Hausman 檢驗判斷是否確實存在內生性問題。如果工具變數的可靠性只停留在經濟意義層面,而沒有通過模型設定檢驗進行甄別,由此得到的推斷結論很可能是誤導性的。以教育收益率的經典實證研究( Hayashi,2000) 為例,使用不同的工具變數集,得到的檢驗結果截然不同。原因在於上述做法忽視了Hausman 檢驗要求IV 估計量具有一致性的隱含條件,而這是在工具變數符合與擾動項正交且與內生解釋變數( 強) 相關等嚴格假定之下才能得到的理論結果,在實證研究中並不必然成立,必須通過模型設定檢驗進行驗證。① 其次,穩健推斷方法與模型評價體現的是對統計適切性的不同要求,各有所長。以回歸模型的非球形擾動問題為例,White( 1980) 與Newey & West( 1987) 的穩健標準誤方法受到越來越多經驗研究者的青睞,Angrist & Pischke( 2010) 甚至認為穩健標準誤方法的誕生使得異方差以及序列相關這些設定檢驗變得不再重要,相應的GLS 方法將退出舞台。Leamer( 2010) 指出這種認識是有失偏頗的,穩健標準誤方法與設定檢驗及相應的GLS 方法體現的是對統計適切性的兩種不同要求,前者只是要求得到可靠的置信區間範圍,後者則更進一步要求有效的點估計。當研究者只關注參數約束檢驗時,穩健標準誤方法足以保證其可靠性; 如果關注的是某些政策效應的比較,就涉及參數估計值的具體大小,此時GLS 的有效性顯然更為重要。此外,以施加較少約束的穩健推斷方法代替模型設定檢驗這一做法還可能限制我們對客觀經濟世界的進一步探索。Sims( 2010) 就認為對面板數據的條件異方差進行建模並使用FGLS 可以比穩健標準誤方法獲得更多的經濟信息,一個明顯的例子就是隨機係數模型可以同時體現異方差的來源以及個體的異質性特徵。 再次,對於完整的模型評價而言,模型設定檢驗和模型選擇都具有重要意義,但前者更為關鍵。在許多時間序列分析中,包括單位根檢驗、Granger 因果關係檢驗和VAR 建模,我們經常只看到研究者根據AIC 或BIC 等信息準則來確定最優滯後階數,並未見有關模型設定檢驗,這種以模型選擇替代模型設定檢驗的做法是危險的。在模型選擇過程中,需要先確定一個模型族{ f( z; θi) ,θi∈Θ,z ∈ νn,i = 1,…,m} ,所有的備選模型都享有同等的地位,然後在特定的標準下挑出最佳模型f( z; θk) 。Lehmann( 1990) 、Spanos( 2010) 認為這其中隱含著兩種可能錯誤: 一是正確的模型f( z; θ0)可能不包括在模型族中,更重要的是沒有考慮選擇可能犯錯的概率,這恰恰沒有體現在形成新的具有不確定性的知識時,對這些新知識存在錯誤的可能性進行度量的要求。而模型的設定檢驗有原假設和備擇假設的區別,其結論是基於分布和犯錯概率的推斷結果。即使通過模型選擇得到的最優模型也不能保證所有的設定都得到數據的支持,對那些關係到估計和推斷性質的模型設定問題還必須進行嚴格的設定檢驗。相比模型選擇,模型設定檢驗是關係到計量經濟分析過程可靠性的更為根本的步驟,如時序分析中的模型選擇就只是在平衡擬合和簡潔性之間的選擇,並不能保證殘差必然滿足獨立同分布假定。 最後,我們強調模型設定檢驗並不是對數據的重複使用或者數據挖掘。對於給定的數據Zn ,通常需要用於兩種檢驗: ( 1) 參數約束關係檢驗; ( 2) 對於設定模型Mθ( z) 可靠性的檢驗。因此,有人質疑這是否對數據進行了重複使用。Spanos( 2010) 對此給予反駁: 一是上述兩種檢驗是對數據Zn 所提出的兩個不同問題,二是這兩種檢驗具有不同的邊界。具體而言,參數約束檢驗假定Mθ( z) 在統計上是適切的,問題的探究仍然在其邊界內; 而模型設定檢驗考察的問題是數據Zn 是否由Mθ( z) 所刻畫的隨機機制所產生,問題的探究已經超越Mθ( z) 的邊界。也有學者指責模型設定檢驗本質上也是一種數據挖掘。實際應用中,數據挖掘的含義很寬: 一種是指建模者為了證實某種先驗理論而有意掩蓋或摒棄與理論相悖的數據信息,這是不可取的; 一種是指為了使計量模型通過一系列設定檢驗而反覆修正模型形式的做法,此時只要建模者將模型設定檢驗的過程明朗化、嚴謹化和系統化,便是可取的建模方法( 韓德瑞和秦朵,1998) 。 在計量模型統計適切性評價中,穩健推斷、模型設定檢驗與模型選擇都發揮了重要作用,這些不同方法的使用一定程度上也依賴於研究目的。其中,模型設定檢驗是最為關鍵的步驟,每一種模型方法下都有相應的模型設定檢驗問題。如果設定檢驗的結果暴露出問題,就應當重新考慮模型的設定,重新進行檢驗,直至通過檢驗。這一過程可以概括為「模型設定———模型估計———模型設定檢驗———模型再設定」,設定檢驗這種內在的一致性雖然不是保證模型正確分析的充分條件,卻是合乎科學邏輯的必要條件( Hendry,1995) 。我們認為,無論是推敲其具體的應用背景和適用條件,對這些細節的處理是否恰當是一項研究科學性的重要體現,前文列舉的忽略擾動項概率分布導致錯誤的例子,很多就是忽略統計適切性的結果。 六、結論與啟示 可信性是計量經濟學應用研究的最重要的問題,國際計量經濟學界對此有過三次大討論,涉及計量經濟學的學科性質、經濟變數之間因果關係的識別及模型統計適切性等方面的內容。本文以此為出發點,聯繫我國計量經濟學應用研究中存在的主要問題,闡述計量經濟學應用研究的可靠性來源: 1. 隨機性設定是我們利用計量經濟模型對真實DGP 進行探索的一個主要體現,是正確設定計量模型不可或缺的部分,應得到足夠的重視,努力用好。 2. 目前廣為應用的非結構計量經濟模型對因果關係的推斷並不符合因果關係的本質含義,應該慎之又慎。實驗與准實驗方法及結構計量建模是近年發展起來的對因果關係進行推斷的新方法,但在我國尚少運用,應努力發展。 3. 穩健推斷、模型設定檢驗和模型選擇都是保證應用研究統計適切性的重要工具。建模過程可靠性的最終落腳點在於模型設定檢驗,「檢驗,檢驗,再檢驗」這一計量經濟學的金科玉律必須成為計量經濟分析過程中的「雜草清除」機制。 我國計量經濟學的應用研究面臨進一步提高可信性的重要問題,需要全面吸收和借鑒國際計量經濟學界對於可信性問題的成果,這對我們的研究模式和教學模式提出了更高的要求。對於研究模式而言,應該避免簡單套用國外模型方法的做法,否則將導致研究思路單調、薄弱,甚至是低水平重複。一項成功的、高水平的經驗研究通常具有高度綜合性,需要對經濟理論、計量方法、數據特徵、國別情況及其制度約束有深刻理解,並在上述各環節體現研究的科學性與可信性。這一方面有助於我們更準確地解釋中國經濟現象,另一方面也給了我們對計量模型方法本身進行創新的機會。對於教學模式而言,不應將計量經濟學的教學視為計算軟體的實驗課,如果認為應用計量經濟學知識只需要懂得如何操作軟體來得到估計和檢驗結果,就從教學階段埋下了錯用、濫用計量經濟學的種子。① 計量經濟學的教學是一項系統工程,需要重視計量經濟學思想方法的培養和訓練,幫助學習者深入了解整個計量經濟學的思想方法和理論體系,明確每種計量模型方法的適用範圍和前提條件,才能為提高計量經濟學應用研究的可信性打下堅實的基礎。
推薦閱讀:
推薦閱讀:
※易海蓮華-JI女的八字研究
※紐西蘭最新研究顯示:補鈣可能有損心血管健康——中新網
※張明楷「侵犯財產罪」專題研究系列
※鍾呂人仙的研究(一)
※研究用:早亡命例