標籤:

面板數據分析方法步驟

步驟一:分析數據的平穩性(單位根檢驗)

按照正規程序,面板數據模型在回歸前需檢驗數據的平穩性。李子奈曾指出,一些非平穩的經濟時間序列往往表現出共同的變化趨勢,而這些序列間本身不一定有直接的關聯,此時,對這些數據進行回歸,儘管有較高的R平方,但其結果是沒有任何實際意義的。這種情況稱為稱為虛假回歸或偽回歸(spurious regression)。他認為平穩的真正含義是:一個時間序列剔除了不變的均值(可視為截距)和時間趨勢以後,剩餘的序列為零均值,同方差,即白雜訊。因此單位根檢驗時有三種檢驗模式:既有趨勢又有截距、只有截距、以上都無。

因此為了避免偽回歸,確保估計結果的有效性,我們必須對各面板序列的平穩性進行檢驗。而檢驗數據平穩性最常用的辦法就是單位根檢驗。首先,我們可以先對面板序列繪製時序圖,以粗略觀測時序圖中由各個觀測值描出代表變數的折線是否含有趨勢項和(或)截距項,從而為進一步的單位根檢驗的檢驗模式做準備。

單位根檢驗方法的文獻綜述:在非平穩的面板數據漸進過程中,Levin andLin(1993) 很早就發現這些估計量的極限分布是高斯分布,這些結果也被應用在有異方差的面板數據中,並建立了對面板單位根進行檢驗的早期版本。後來經過Levin et al. (2002)的改進,提出了檢驗面板單位根的LLC 法。Levin et al. (2002) 指出,該方法允許不同截距和時間趨勢,異方差和高階序列相關,適合於中等維度(時間序列介於25~250 之間,截面數介於10~250 之間) 的面板單位根檢驗。Im et al. (1997) 還提出了檢驗面板單位根的IPS 法,但Breitung(2000) 發現IPS 法對限定性趨勢的設定極為敏感,並提出了面板單位根檢驗的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板單位根檢驗方法。

由上述綜述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5種方法進行面板單位根檢驗。

其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分別指Levin, Lin & Chu t* 統計量、Breitung t 統計量、lm Pesaran & Shin W 統計量、ADF- Fisher Chi-square統計量、PP-Fisher Chi-square統計量、Hadri Z統計量,並且Levin, Lin & Chu t* 統計量、Breitung t統計量的原假設為存在普通的單位根過程,lm Pesaran & Shin W 統計量、ADF- Fisher Chi-square統計量、PP-Fisher Chi-square統計量的原假設為存在有效的單位根過程, Hadri Z統計量的檢驗原假設為不存在普通的單位根過程。

有時,為了方便,只採用兩種面板數據單位根檢驗方法,即相同根單位根檢驗LLC(Levin-Lin-Chu)檢驗和不同根單位根檢驗 Fisher-ADF檢驗(註:對普通序列(非面板序列)的單位根檢驗方法則常用ADF檢驗),如果在兩種檢驗中均拒絕存在單位根的原假設則我們說此序列是平穩的,反之則不平穩。

如果我們以T(trend)代表序列含趨勢項,以I(intercept)代表序列含截距項,T&I代表兩項都含,N(none)代表兩項都不含,那麼我們可以基於前面時序圖得出的結論,在單位根檢驗中選擇相應檢驗模式。

但基於時序圖得出的結論畢竟是粗略的,嚴格來說,那些檢驗結構均需一一檢驗。具體操作可以參照李子奈的說法:ADF檢驗是通過三個模型來完成,首先從含有截距和趨勢項的模型開始,再檢驗只含截距項的模型,最後檢驗二者都不含的模型。並且認為,只有三個模型的檢驗結果都不能拒絕原假設時,我們才認為時間序列是非平穩的,而只要其中有一個模型的檢驗結果拒絕了零假設,就可認為時間序列是平穩的。

此外,單位根檢驗一般是先從水平(level)序列開始檢驗起,如果存在單位根,則對該序列進行一階差分後繼續檢驗,若仍存在單位根,則進行二階甚至高階差分後檢驗,直至序列平穩為止。我們記I(0)為零階單整,I(1)為一階單整,依次類推,I(N)為N階單整。

步驟二:協整檢驗或模型修正

情況一:如果基於單位根檢驗的結果發現變數之間是同階單整的,那麼我們可以進行協整檢驗。協整檢驗是考察變數間長期均衡關係的方法。所謂的協整是指若兩個或多個非平穩的變數序列,其某個線性組合後的序列呈平穩性。此時我們稱這些變數序列間有協整關係存在。因此協整的要求或前提是同階單整。

但也有如下的寬限說法:如果變數個數多於兩個,即解釋變數個數多於一個,被解釋變數的單整階數不能高於任何一個解釋變數的單整階數。另當解釋變數的單整階數高於被解釋變數的單整階數時,則必須至少有兩個解釋變數的單整階數高於被解釋變數的單整階數。如果只含有兩個解釋變數,則兩個變數的單整階數應該相同。

也就是說,單整階數不同的兩個或以上的非平穩序列如果一起進行協整檢驗,必然有某些低階單整的,即波動相對高階序列的波動甚微弱(有可能波動幅度也不同)的序列,對協整結果的影響不大,因此包不包含的重要性不大。而相對處於最高階序列,由於其波動較大,對回歸殘差的平穩性帶來極大的影響,所以如果協整是包含有某些高階單整序列的話(但如果所有變數都是階數相同的高階,此時也被稱作同階單整,這樣的話另當別論),一定不能將其納入協整檢驗。

協整檢驗方法的文獻綜述:(1)Kao(1999)、Kao and Chiang(2000)利用推廣的DF和ADF檢驗提出了檢驗面板協整的方法,這種方法零假設是沒有協整關係,並且利用靜態面板回歸的殘差來構建統計量。(2)Pedron(1999)在零假設是在動態多元面板回歸中沒有協整關係的條件下給出了七種基於殘差的面板協整檢驗方法。和Kao的方法不同的是,Pedroni的檢驗方法允許異質面板的存在。(3)Larsson et al(2001)發展了基於Johansen(1995)向量自回歸的似然檢驗的面板協整檢驗方法,這種檢驗的方法是檢驗變數存在共同的協整的秩。

我們主要採用的是Pedroni、Kao、Johansen的方法。

通過了協整檢驗,說明變數之間存在著長期穩定的均衡關係,其方程回歸殘差是平穩的。因此可以在此基礎上直接對原方程進行回歸,此時的回歸結果是較精確的。

這時,我們或許還想進一步對面板數據做格蘭傑因果檢驗(因果檢驗的前提是變數協整)。但如果變數之間不是協整(即非同階單整)的話,是不能進行格蘭傑因果檢驗的,不過此時可以先對數據進行處理。引用張曉峒的原話,「如果y和x不同階,不能做格蘭傑因果檢驗,但可通過差分序列或其他處理得到同階單整序列,並且要看它們此時有無經濟意義。」

下面簡要介紹一下因果檢驗的含義:這裡的因果關係是從統計角度而言的,即是通過概率或者分布函數的角度體現出來的:在所有其它事件的發生情況固定不變的條件下,如果一個事件X的發生與不發生對於另一個事件Y的發生的概率(如果通過事件定義了隨機變數那麼也可以說分布函數)有影響,並且這兩個事件在時間上又有先後順序(A前B後),那麼我們便可以說X是Y的原因。考慮最簡單的形式,Granger檢驗是運用F-統計量來檢驗X的滯後值是否顯著影響 Y(在統計的意義下,且已經綜合考慮了Y的滯後值;如果影響不顯著,那麼稱X不是Y的「Granger原因」(Granger cause);如果影響顯著,那麼稱X是Y的「Granger原因」。同樣,這也可以用於檢驗Y是X的「原因」,檢驗Y的滯後值是否影響X(已經考慮了X 的滯後對X自身的影響)。

Eviews好像沒有在POOL窗口中提供Granger causality test,而只有unit root test和cointegration test。說明Eviews是無法對面板數據序列做格蘭傑檢驗的,格蘭傑檢驗只能針對序列組做。也就是說格蘭傑因果檢驗在Eviews中是針對普通的序列對(pairwise)而言的。你如果想對面板數據中的某些合成序列做因果檢驗的話,不妨先導出相關序列到一個組中(POOL窗口中的Proc/Make Group),再來試試。

情況二:如果如果基於單位根檢驗的結果發現變數之間是非同階單整的,即面板數據中有些序列平穩而有些序列不平穩,此時不能進行協整檢驗與直接對原序列進行回歸。但此時也不要著急,我們可以在保持變數經濟意義的前提下,對我們前面提出的模型進行修正,以消除數據不平穩對回歸造成的不利影響。如差分某些序列,將基於時間頻度的絕對數據變成時間頻度下的變動數據或增長率數據。此時的研究轉向新的模型,但要保證模型具有經濟意義。因此一般不要對原序列進行二階差分,因為對變動數據或增長率數據再進行差分,我們不好對其冠以經濟解釋。難道你稱其為變動率的變動率?

步驟三:面板模型的選擇與回歸

面板數據模型的選擇通常有三種形式:

一種是混合估計模型(Pooled Regression Model)。如果從時間上看,不同個體之間不存在顯著性差異;從截面上看,不同截面之間也不存在顯著性差異,那麼就可以直接把面板數據混合在一起用普通最小二乘法(OLS)估計參數。一種是固定效應模型(Fixed Effects Regression Model)。如果對於不同的截面或不同的時間序列,模型的截距不同,則可以採用在模型中添加虛擬變數的方法估計回歸參數。一種是隨機效應模型(Random Effects Regression Model)。如果固定效應模型中的截距項包括了截面隨機誤差項和時間隨機誤差項的平均效應,並且這兩個隨機誤差項都服從正態分布,則固定效應模型就變成了隨機效應模型。

在面板數據模型形式的選擇方法上,我們經常採用F檢驗決定選用混合模型還是固定效應模型,然後用Hausman檢驗確定應該建立隨機效應模型還是固定效應模型。

檢驗完畢後,我們也就知道該選用哪種模型了,然後我們就開始回歸:

在回歸的時候,權數可以選擇按截面加權(cross-section weights)的方式,對於橫截面個數大於時序個數的情況更應如此,表示允許不同的截面存在異方差現象。估計方法採用PCSE(Panel Corrected Standard Errors,面板校正標準誤)方法。Beck和Katz(1995)引入的PCSE估計方法是面板數據模型估計方法的一個創新,可以有效的處理複雜的面板誤差結構,如同步相關,異方差,序列相關等,在樣本量不夠大時尤為有用。

原文:百度--您的訪問出錯了

固定效應模型分為三種:個體固定效應模型、時刻固定效應模型和個體時刻固定效應模型)。如果我們是對個體固定,則應選擇個體固定效用模型。但是,我們還需作個體固定效應模型和混合估計模型的選擇。所以,就要作F值檢驗。

相對於混合估計模型來說,是否有必要建立個體固定效應模型可以通過F檢驗來完成。

H0:對於不同橫截面模型截距項相同(建立混合估計模型)。SSEr

H1:對於不同橫截面模型的截距項不同(建立時刻固定效應模型)。SSEu

F統計量定義為:

F=[( SSEr - SSEu)/(T+k-2)]/[ SSEu/(NT-T-k)]

其中,SSEr,SSEu分別表示約束模型(混合估計模型的)和非約束模型(個體固定效應模型的)的殘差平方和(Sum squared resid)。非約束模型比約束模型多了T–1個被估參數。需要指出的是:當模型中含有k個解釋變數時,F統計量的分母自由度是NT-T- k。通過對F統計量我們將可選擇準確、最佳的估計模型。

在作回歸時也是四步:

第一步,先作混合效應模型: 在cross-section 一欄選擇None ,Period也是None;Weights是cross-section Weights,然後把回歸結果的Sum squared resid值複製出來,就是SSEr

第二步:作個體固定效用模型:在cross-section 一欄選擇Fixed ,Period也是None;Weights是cross-section Weights,然後把回歸結果的Sum squared resid值複製出來,就是SSEu

第三步:根據公式F=[( SSEr - SSEu)/(T+k-2)]/[ SSEu/(NT-T-k)]。計算出結果。其中,T為年數,不管我們的數據是unbalance還是balance看observations就行了,也即Total pool (balanced) observations:的值,但是如果是balance我們也可以計算,也即是每一年的企業數的總和。比如說我們研究10年,每一年又500加企業,則NT=10×500=5000。K為解釋變數,不含被解釋變數。

第四步,根據計算出來的結果查F值分布表。看是否通過檢驗。檢驗準則:當F> Fα(T-1, NT-T-k) , α=0.01,0.05或0.1時,拒絕原假設,則結論是應該建立個體固定效應模型,反之,接受原假設,則不能建立個體固定效應模型。

面板數據確定採用固定效應還是隨機效應需要做hausman test(豪斯曼檢驗)。過程是,先對面板數據做隨機性檢驗,在結果窗口的PROC菜單下選擇hausman test就可以了,檢驗的原假設是應該採用隨機效應,備則假設是固定效應。

豪斯曼檢驗是確定常數項的固定或者隨機效應的。F檢驗是判斷方程是混合方程、變截距方程還是變係數方程,需要求解三個方程的殘差平方和。兩個是不同的問題。

具體方法是:用EVIEWS先對回歸方程做混合模型求解,在結果中有一項Sum squared resid(在結果的下面,R平方值的旁邊),這個就是殘差平方和,這個值就是S3;然後在用變截距模型求解,得出S3,最後是變係數模型,得出S1。有了這三個值,F值自己手算就可以了。

面板數據模型(PANEL DATA)F檢驗,固定效應檢驗

1.面板數據定義。

時間序列數據或截面數據都是一維數據。例如時間序列數據是變數按時間得到的數據;截面數據是變數在截面空間上的數據。面板數據(panel data)也稱時間序列截面數據(time series and cross section data)或混合數據(pool data)。面板數據是同時在時間和截面空間上取得的二維數據。面板數據示意圖見圖1。面板數據從橫截面(cross section)上看,是由若干個體(entity, unit, individual)在某一時刻構成的截面觀測值,從縱剖面(longitudinal section)上看是一個時間序列。

面板數據用雙下標變數表示。例如

yi t, i = 1, 2, …, N; t = 1, 2, …, T

N表示面板數據中含有N個個體。T表示時間序列的最大長度。若固定t不變,yi ., ( i = 1, 2, …, N)是橫截面上的N個隨機變數;若固定i不變,y. t, (t = 1, 2, …, T)是縱剖面上的一個時間序列(個體)。

圖1 N=7,T=50的面板數據示意圖

例如1990-2000年30個省份的農業總產值數據。固定在某一年份上,它是由30個農業總產總值數字組成的截面數據;固定在某一省份上,它是由11年農業總產值數據組成的一個時間序列。面板數據由30個個體組成。共有330個觀測值。

對於面板數據yi t, i = 1, 2, …, N; t = 1, 2, …, T來說,如果從橫截面上看,每個變數都有觀測值,從縱剖面上看,每一期都有觀測值,則稱此面板數據為平衡面板數據(balanced panel data)。若在面板數據中丟失若干個觀測值,則稱此面板數據為非平衡面板數據(unbalanced panel data)。

注意:EViwes 3.1、4.1、5.0既允許用平衡面板數據也允許用非平衡面板數據估計模型。

例1(file:panel02):1996-2002年中國東北、華北、華東15個省級地區的居民家庭人均消費(不變價格)和人均收入數據見表1和表2。數據是7年的,每一年都有15個數據,共105組觀測值。

人均消費和收入兩個面板數據都是平衡面板數據,各有15個個體。人均消費和收入的面板數據從縱剖面觀察分別見圖2和圖3。從橫截面觀察分別見圖4和圖5。橫截面數據散點圖的表現與觀測值順序有關。圖4和圖5中人均消費和收入觀測值順序是按地區名的漢語拼音字母順序排序的。

表1 1999-2002年中國東北、華北、華東15個省級地區的居民家庭人均消費數據(不變價格)

地區人均消費

1996

1997

1998

1999

2000

2001

2002

CP-AH(安徽)

3282.466

3646.150

3777.410

3989.581

4203.555

4495.174

4784.364

CP-BJ(北京)

5133.978

6203.048

6807.451

7453.757

8206.271

8654.433

10473.12

CP-FJ(福建)

4011.775

4853.441

5197.041

5314.521

5522.762

6094.336

6665.005

CP-HB(河北)

3197.339

3868.319

3896.778

4104.281

4361.555

4457.463

5120.485

CP-HLJ(黑龍江)

2904.687

3077.989

3289.990

3596.839

3890.580

4159.087

4493.535

CP-JL(吉林)

2833.321

3286.432

3477.560

3736.408

4077.961

4281.560

4998.874

CP-JS(江蘇)

3712.260

4457.788

4918.944

5076.910

5317.862

5488.829

6091.331

CP-JX(江西)

2714.124

3136.873

3234.465

3531.775

3612.722

3914.080

4544.775

CP-LN(遼寧)

3237.275

3608.060

3918.167

4046.582

4360.420

4654.420

5402.063

CP-NMG(內蒙古)

2572.342

2901.722

3127.633

3475.942

3877.345

4170.596

4850.180

CP-SD(山東)

3440.684

3930.574

4168.974

4546.878

5011.976

5159.538

5635.770

CP-SH(上海)

6193.333

6634.183

6866.410

8125.803

8651.893

9336.100

10411.94

CP-SX(山西)

2813.336

3131.629

3314.097

3507.008

3793.908

4131.273

4787.561

CP-TJ(天津)

4293.220

5047.672

5498.503

5916.613

6145.622

6904.368

7220.843

CP-ZJ(浙江)

5342.234

6002.082

6236.640

6600.749

6950.713

7968.327

8792.210

資料來源:《中國統計年鑒》1997-2003。

表2 1999-2002年中國東北、華北、華東15個省級地區的居民家庭人均收入數據(不變價格)

地區人均收入

1996

1997

1998

1999

2000

2001

2002

IP-AH(安徽)

4106.251

4540.247

4770.470

5178.528

5256.753

5640.597

6093.333

IP-BJ(北京)

6569.901

7419.905

8273.418

9127.992

9999.700

11229.66

12692.38

IP-FJ(福建)

4884.731

6040.944

6505.145

6922.109

7279.393

8422.573

9235.538

IP-HB(河北)

4148.282

4790.986

5167.317

5468.940

5678.195

5955.045

6747.152

IP-HLJ(黑龍江)

3518.497

3918.314

4251.494

4747.045

4997.843

5382.808

6143.565

IP-JL(吉林)

3549.935

4041.061

4240.565

4571.439

4878.296

5271.925

6291.618

IP-JS(江蘇)

4744.547

5668.830

6054.175

6624.316

6793.437

7316.567

8243.589

IP-JX(江西)

3487.269

3991.490

4209.327

4787.606

5088.315

5533.688

6329.311

IP-LN(遼寧)

3899.194

4382.250

4649.789

4968.164

5363.153

5797.010

6597.088

IP-NMG(內蒙古)

3189.414

3774.804

4383.706

4780.090

5063.228

5502.873

6038.922

IP-SD(山東)

4461.934

5049.407

5412.555

5849.909

6477.016

6975.521

7668.036

IP-SH(上海)

7489.451

8209.037

8773.100

10770.09

11432.20

12883.46

13183.88

IP-SX(山西)

3431.594

3869.952

4156.927

4360.050

4546.785

5401.854

6335.732

IP-TJ(天津)

5474.963

6409.690

7146.271

7734.914

8173.193

8852.470

9375.060

IP-ZJ(浙江)

6446.515

7158.288

7860.341

8530.314

9187.287

10485.64

11822.00

資料來源:《中國統計年鑒》1997-2003。

圖2 15個省級地區的人均消費序列(縱剖面) 圖3 15個省級地區的人均收入序列(file:4panel02)

圖4 15個省級地區的人均消費散點圖 圖5 15個省級地區的人均收入散點圖(7個橫截面疊加)

(每條連線表示同一年度15個地區的消費值) (每條連線表示同一年度15個地區的收入值)

用CP表示消費,IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分別表示安徽省、北京市、福建省、河北省、黑龍江省、吉林省、江蘇省、江西省、遼寧省、內蒙古自治區、山東省、上海市、山西省、天津市、浙江省。

15個地區7年人均消費對收入的面板數據散點圖見圖6和圖7。圖6中每一種符號代表一個省級地區的7個觀測點組成的時間序列。相當於觀察15個時間序列。圖7中每一種符號代表一個年度的截面散點圖(共7個截面)。相當於觀察7個截面散點圖的疊加。

圖6 用15個時間序列表示的人均消費對收入的面板數據

圖7 用7個截面表示的人均消費對收入的面板數據(7個截面疊加)

為了觀察得更清楚一些,圖8給出北京和內蒙古1996-2002年消費對收入散點圖。從圖中可以看出,無論是從收入還是從消費看內蒙古的水平都低於北京市。內蒙古2002年的收入與消費規模還不如北京市1996年的大。圖9給出該15個省級地區1996和2002年的消費對收入散點圖。可見6年之後15個地區的消費和收入都有了相應的提高。

圖8 北京和內蒙古1996-2002年消費對收入時序圖 圖9 1996和2002年15個地區的消費對收入散點圖

2.面板數據的估計。

用面板數據建立的模型通常有3種。即混合估計模型、固定效應模型和隨機效應模型。

2.1 混合估計模型。

如果從時間上看,不同個體之間不存在顯著性差異;從截面上看,不同截面之間也不存在顯著性差異,那麼就可以直接把面板數據混合在一起用普通最小二乘法(OLS)估計參數。

如果從時間和截面看模型截距都不為零,且是一個相同的常數,以二變數模型為例,則建立如下模型,

yit = a +b1 xit +eit, i = 1, 2, …, N; t = 1, 2, …, T (1)

a 和b1不隨i,t變化。稱模型(1)為混合估計模型。

以例1中15個地區1996和2002年數據建立關於消費的混合估計模型,得結果如下:

圖10

EViwes估計方法:在打開工作文件窗口的基礎上,點擊主功能菜單中的Objects鍵,選New Object功能,從而打開New Object(新對象)選擇窗。在Type of Object選擇區選擇Pool(混合資料庫),點擊OK鍵,從而打開Pool(混合數據)窗口。在窗口中輸入15個地區標識AH(安徽)、BJ(北京)、…、ZJ(浙江)。工具欄中點擊Sheet鍵,從而打開Series List(列寫序列名)窗口,定義變數CP?和IP?,點擊OK鍵,Pool(混合或合併資料庫)窗口顯示面板數據。在Pool窗口的工具欄中點擊Estimate鍵,打開Pooled Estimation(混合估計)窗口如下圖。

圖11

在Dependent Variable(相依變數)選擇窗填入CP?;在Common coefficients(係數相同)選擇窗填入IP?;Cross section specific coefficients(截面係數不同)選擇窗保持空白;在Intercept(截距項)選擇窗點擊Common;在Weighting(權數)選擇窗點擊No weighting。點擊Pooled Estimation(混合估計)窗口中的OK鍵。得輸出結果如圖10。相應表達式是

= 129.6313 +0.7587 IPit

(2.0) (79.7) R2 = 0.98, SSEr = 4824588, t0.05 (103) = 1.99

15個省級地區的人均支出平均占收入的76%。

如果從時間和截面上看模型截距都為零,就可以建立不含截距項的(a = 0)的混合估計模型。以二變數模型為例,建立混合估計模型如下,

yit = b1 xit +eit, i = 1, 2, …, N; t = 1, 2, …, T (2)

對於本例,因為上式中的截距項有顯著性(t = 2.0 > t0.05 (103) = 1.99),所以建立截距項為零的混合估計模型是不合適的。

EViwes估計方法:在Pooled Estimation(混合估計)對話框中Intercept(截距項)選擇窗中選None,其餘選項同上。

2.2 固定效應模型。

在面板數據散點圖中,如果對於不同的截面或不同的時間序列,模型的截距是不同的,則可以採用在模型中加虛擬變數的方法估計回歸參數,稱此種模型為固定效應模型(fixed effects regression model)。

固定效應模型分為3種類型,即個體固定效應模型(entity fixed effects regressionmodel)、時刻固定效應模型(time fixed effects regression model)和時刻個體固定效應模型(time and entity fixed effects regression model)。下面分別介紹。

(1)個體固定效應模型。

個體固定效應模型就是對於不同的個體有不同截距的模型。如果對於不同的時間序列(個體)截距是不同的,但是對於不同的橫截面,模型的截距沒有顯著性變化,那麼就應該建立個體固定效應模型,表示如下,

yit = b1 xit +g1 W1 + g2 W2 + … +g N WN +eit, t = 1, 2, …, T (3)

其中

Wi =

eit, i = 1, 2, …, N; t = 1, 2, …, T,表示隨機誤差項。yit, xit, i = 1, 2, …, N; t = 1, 2, …, T分別表示被解釋變數和解釋變數。

模型(3)或者表示為

y1t = g1 +b1 x1t +e1t, i = 1(對於第1個個體,或時間序列),t = 1, 2, …, T

y2t = g2 +b1 x2t +e2 t, i = 2(對於第2個個體,或時間序列),t = 1, 2, …, T

yN t = gN +b1 xN t +e N t, i = N(對於第N個個體,或時間序列),t = 1, 2, …, T

寫成矩陣形式,

y1 = (1 x1) +e1 = g1 + x1 b +e1

yN = (1 xN) +eN = gN + xN b +eN

上式中yi,gi,ei,xi都是N?1階列向量。b為標量。當模型中含有k個解釋變數時,b為k?1階列向量。進一步寫成矩陣形式,

= + b +

上式中的元素1,0都是T?1階列向量。

面板數據模型用OLS方法估計時應滿足如下5個假定條件:

(1)E(eit|xi1, xi2, …, xiT, ai) = 0。以xi1, xi2, …, xiT, ai為條件的eit的期望等於零。

(2)(xi1, xi2, …, xiT), ( yi1, yi2, …, yiT), i = 1, 2, …, N分別來自於同一個聯合分布總體,並相互獨立。

(3)(xit, eit)具有非零的有限值4階矩。

(4)解釋變數之間不存在完全共線性。

(5)Cov(eit eis|xit,xis, ai) = 0, t ? s。在固定效應模型中隨機誤差項eit在時間上是非自相關的。其中xit代表一個或多個解釋變數。

對模型(1)進行OLS估計,全部參數估計量都是無偏的和一致的。模型的自由度是N T –1–N。

當模型含有k個解釋變數,且N很大,相對較小時,因為模型中含有k + N個被估參數,一般軟體執行OLS運算很困難。在計量經濟學軟體中是採用一種特殊處理方式進行OLS估計。

估計原理是,先用每個變數減其組內均值,把數據中心化(entity-demeaned),然後用變換的數據先估計個體固定效應模型的回歸係數(不包括截距項),然後利用組內均值等式計算截距項。這種方法計算起來速度快。具體分3步如下。

(1)首先把變數中心化(entity-demeaned)。

仍以單解釋變數模型(3)為例,則有

= gi + b1 + , i = 1, 2, …, N (4)

其中 = , = , = , i = 1, 2, …, N。公式(1)、(4)相減得,

(yit - ) = b1(xit - ) + (eit - ) (5)

令(yit - ) = ,(xit - ) = ,(eit - ) = ,上式寫為

= b1 + (6)

用OLS法估計(1)、(6)式中的b1,結果是一樣的,但是用(6)式估計,可以減少被估參數個數。

(2)用OLS法估計回歸參數(不包括截距項,即固定效應)。

在k個解釋變數條件下,把 用向量形式 表示,則利用中心化數據,按OLS法估計公式計算個體固定效應模型中回歸參數估計量的方差協方差矩陣估計式如下,

( ) = ( )-1 (7)

其中 = , 是相對於 的殘差向量。

(3)計算回歸模型截距項,即固定效應參數gi。

= - (8)

以例1(file:panel02)為例得到的個體固定效應模型估計結果如下:

注意:個體固定效應模型的EViwes輸出結果中沒有公共截距項。

圖12

EViwes估計方法:在EViwes的Pooled Estimation對話框中Intercept選項中選Fixed effects。其餘選項同上。

注意:

(1)個體固定效應模型的EViwes輸出結果中沒有公共截距項。

(2)EViwes輸出結果中沒有給出描述個體效應的截距項相應的標準差和t值。不認為截距項是模型中的重要參數。

(3)當對個體固定效應模型選擇加權估計時,輸出結果將給出加權估計和非加權估計兩種統計量評價結果。

(4)輸出結果的聯立方程組形式可以通過點擊View選Representations功能獲得。

(5)點擊View選Wald Coefficient Tests…功能可以對模型的斜率進行Wald檢驗。

(6)點擊View選Residuals/Table, Graphs, Covariance Matrix, Correlation Matrix功能可以分別得到按個體計算的殘差序列表,殘差序列圖,殘差序列的方差協方差矩陣,殘差序列的相關係數矩陣。

(7)點擊Procs選Make Model功能,將會出現估計結果的聯立方程形式,進一步點擊Solve鍵,在隨後出現的對話框中可以進行動態和靜態預測。

輸出結果的方程形式是

= 安徽+ x1t = 479.3 + 0.70 x1t

(55.0)

= 北京+ x2t = 1053.2 + 0.70 x2t

… (55.0)

= 浙江+ x15t = 714.2 + 0.70 x15t

(55.0)

R2 = 0.99, SSEr = 2270386, t0.05 (88) = 1.98

從結果看,北京、上海、浙江是消費函數截距(自發消費)最大的3個地區。

相對於混合估計模型來說,是否有必要建立個體固定效應模型可以通過F檢驗來完成。

原假設H0:不同個體的模型截距項相同(建立混合估計模型)。

備擇假設H1:不同個體的模型截距項不同(建立個體固定效應模型)。

F統計量定義為:

F= = (9)

其中SSEr,SSEu分別表示約束模型(混合估計模型)和非約束模型(個體固定效應模型)的殘差平方和。非約束模型比約束模型多了N-1個被估參數。

(混合估計模型給出公共截距項。)

注意:當模型中含有k個解釋變數時,F統計量的分母自由度是NT-N-k。

用上例計算,已知SSEr = 4824588,SSEu = 2270386,

F= = = = 7.15

F0.05(14, 89) = 1.81

因為F= 7.15> F0.05(14, 89) = 1.81,所以,拒絕原假設。結論是應該建立個體固定效應模型。

(2)時刻固定效應模型。

時刻固定效應模型就是對於不同的截面(時刻點)有不同截距的模型。如果確知對於不同的截面,模型的截距顯著不同,但是對於不同的時間序列(個體)截距是相同的,那麼應該建立時刻固定效應模型,表示如下,

yit = b1 xit +a1 +

blog.zol.com.cn/696/art


推薦閱讀:

【聚寬投資】求賢季
壘土投資沈天瑞博士:量化不論出身,興趣是最好的老師
2017 年你眼中最好的券商量化策略研報是哪篇?有哪些亮點?
基於均值的配對交易策略 vs. 基於協整的配對交易策略
如何在交易上處理 low volatility 的趨勢性行情?

TAG:量化 |