如何用簡單的例子解釋什麼是 Generalized Method of Moments (GMM)?

GMM estimator 在asset pricing領域十分有用,能不能用簡單的例子解釋下?最近在學習Cochrane的asset pricing,有點不太理解


既然被邀請和提到,在這裡我來寫一個最簡單的GMM快速入門手冊吧,因為這個技術聽起來非常的高大上,但其實非常簡單。如果你有本科的統計知識,看懂下文是不成問題的。

GMM的全名是Generalized Method of Moments,也就是廣義矩估計。只看這個名字的話,如果去掉「廣義」這個詞,可能學過本科統計的人都認識,就是「矩估計」。

矩估計是什麼呢?簡單的說,就是用樣本矩代替總體矩進行統計推斷的方法。一個最基礎的例子是正態總體的參數估計問題。如果x_isim N(mu,sigma^2),如何估計μ和σ呢?

本科的統計學一般會介紹兩種方法:極大似然估計和矩估計。其中矩估計是我們今天的主角。觀察到:

Ex_i=muE(x_i^2)=mu^2+sigma^2

而根據大數定理,在一定的條件下,我們有:

ar{x_i}-mu=o_p(1),ar{x_i^2}=mu^2+sigma^2+o_p(1)

也就是說,當樣本量足夠大的時候,樣本矩與總體矩只差了一個無窮小量,那麼我們是不是可以用樣本矩代替總體矩得到參數的估計呢?

按照上面的思路,我們把op(1)去掉,同時把未知的總體參數寫成其估計值,也就是帶hat的形式,我們得到了:

hat{mu}=ar{x_i}, hat{sigma^2}=ar{x_i^2}-ar{x_i}^2

如此,我們得到了兩個總體矩的點估計。在這個簡單的例子裡面,你只要把上面的大數定理的結論帶到上面兩個式子裡面,很容易的就可以證明出兩個點估計是一致的估計量。

當然,值得注意的是,即便我使用的是矩條件,σ的估計也不是無偏的。一般而言,除了特殊情況,不管是MLE還是MM還是GMM,都不一定可以得到無偏的估計量。特別是在比較複雜的應用裡面,一致就很不錯了,無偏性的討論真的繁瑣。

好了,上面是矩估計,非常簡單是吧?但是什麼又是廣義矩估計呢?

在上面的例子中,我們只使用了兩個矩條件。然而我們知道,正態分布的矩是有無窮多個可以用的,那麼我們是不是可以使用更多的矩條件呢?

但是有個問題不好解決。在這個例子裡面,我們有兩個未知參數,如果只使用一階矩,那麼只有一個方程解兩個未知數,顯然是不可能的。像上面一樣,我們用兩個矩條件解兩個未知數,就解出來了。然而,當我們用一到三階矩,總共三個方程求解的時候,三個方程求解兩個未知數,可能無解。

方程數多了,反而沒有解了,為什麼呢?其實很簡單,用三個方程中的任意兩個方程,都可以求出一組解,那麼三個方程我們就可以求出三組解。所以應該如何把這些矩條件都用上呢?

到這裡我們不妨引入一些記號。還是使用上面的例子,我們把上面的三個矩條件寫到一個向量裡面去,記:

g(x_i,	heta)=left[ x_i-mu, x_i^2-mu^2-sigma^2, x_i^3-mu^3-3musigma^2
ight]

我們可以得到一個3*1的列向量,並且:

Eg(x_i,	heta)=0

上面就是我們要用的矩條件。而根據上面的思路,用其樣本矩代替總體矩:

frac{1}{N}sum_i g(x_i,hat{	heta})=0

解這個方程應該就可以得到參數θ的估計。但是正如上面所說的,三個方程兩個未知數,並不能確保這個方程有解,所以必須想一些其他辦法。

一個比較自然的想法是,上面的矩條件等於0,雖然我不太可能保證三個方程同時等於0,但是仿照OLS,我們可以讓他們的平方和最小,也就是:

min_{hat{	heta}} left[ frac{1}{N}sum_i g(x_i,hat{	heta}) 
ight]

這樣我們就能保證三個矩條件的樣本矩都足夠貼近於0,當然不可能同時為0。這樣不就綜合使用了三個矩條件的信息么?

更一般的,由於上面的g函數是一個3*1的列向量,我們可以使用一個權重矩陣W來賦予每個矩條件以不同的權重:

min_{hat{	heta}} left[ frac{1}{N}sum_i g(x_i,hat{	heta}) 
ight]

只要這個W是一個正定矩陣,那麼仍然可以保證每個樣本矩都足夠貼近於0。

那麼問題來了,既然對W的要求只要求正定矩陣,那麼使用不同的權重矩陣就有可能得到不同的結果。問題是,有沒有一個最優的權重矩陣呢?當然是有的。可以證明,最優的權重矩陣應該是:

left[E g(x_i,	heta)g(x_i,	heta)

使用這個權重矩陣,就得到了最有效的估計。

比如上面的例子,用gretl分別估計兩個矩條件、三個矩條件使用單位陣作為W、三個矩條件使用最優權重矩陣做估計:

nulldata 1000
set seed 1988
series x=randgen(N,1,2)
series x2=x^2
series x3=x^3
series e
series e2
series e3
scalar mu=0
scalar sigma2=1
matrix W2=I(2)
gmm
series e=x-mu
series e2=x2-sigma2-mu^2
orthog e; const
orthog e2; const
weights W2
params mu sigma2
end gmm
matrix W3=I(3)
scalar mu=0
scalar sigma2=1
gmm
series e=x-mu
series e2=x2-sigma2-mu^2
series e3=x3-3*mu*sigma2-mu^3
orthog e; const
orthog e2; const
orthog e3; const
weights W3
params mu sigma2
end gmm
scalar mu=0
scalar sigma2=1
gmm
series e=x-mu
series e2=x2-sigma2-mu^2
series e3=x3-3*mu*sigma2-mu^3
orthog e; const
orthog e2; const
orthog e3; const
weights W3
params mu sigma2
end gmm --iterate

首先是使用兩個矩條件的結果:

為什麼兩個矩條件的時候不使用最優權重矩陣呢?因為兩個未知參數,兩個矩條件,不存在過度識別的問題,存在唯一解的,所以不管使用任何的正定矩陣,得到的結果都是一樣的。

三個矩條件,這個時候使用什麼樣的權重矩陣就不一樣了。先使用單位陣作為權重矩陣:

這裡需要注意的是,即使使用了更多的矩條件,估計量的standard error還是變大了。感興趣的可以做一個蒙特卡洛模擬試試,一定是會變大的。為什麼呢?因為沒有使用最優的權重矩陣,所以使用單位陣作為權重矩陣得到的結果不是最有效的。那麼如果使用最優的權重矩陣呢?結果:

嘿!standard error是變小了,但是跟使用兩個矩條件的好像沒有什麼本質變化啊?為什麼呢?

因為這裡舉的這個例子太特殊了,我們使用的前兩個矩條件,剛好是一個充分統計量,也就是說,使用額外的矩條件不會帶來附加信息的。但是如果是其他情況,一般來說更多的矩條件是可以帶來更多的信息的,比如工具變數的回歸。

另外如果細心觀察,最後一張表格多了一個J-test。這又是啥呢?

這個東西就比較有意思了。知道現在,我們都是假設使用的矩條件成立,那麼這些矩條件真的是成立的么?未必啊。比如,如果x本來就不服從正態分布,那麼使用上面的估計顯然是錯的。那麼是不是可以檢驗矩條件是否成立呢?

一般來說,如果你有K個未知的參數,以及K個矩條件,那麼矩條件是不能檢驗的。但是如果你有更多的矩條件,那麼就有了檢驗的可能。這個檢驗的直覺很簡單,比如上面的例子裡面,我們有3個矩條件。我可不可以先使用前兩個矩條件估計這兩個參數,然後把這兩個參數帶入到第三個矩條件裡面,看看是不是充分接近於0,如果充分接近,那麼看來這三個矩條件彼此印證了。

實際使用的時候沒有那麼麻煩。可以證明,當使用了最優的權重矩陣的時候,GMM的目標函數漸進服從卡方分布,因而只要檢驗這個卡方分布就可以了,也就是上面的J-test。p-value為0.6884,看來這三個矩條件沒有矛盾的地方。

但是一定要注意,即使通過了這個檢驗,也不代表矩條件一定是成立的,因為有可能三個矩條件都是錯的,只不過錯的方向是一致的。比如這個例子裡面,有可能x的分布前三階矩跟正態分布是一樣的,但第四階就不一樣了。因而通過這個檢驗不代表x一定服從正態分布。當然,如果通不過,可以比較自信的說,x不服從正態分布。

比如,我們把上面的數據生成過程改為gamma分布,得到的結果:

p-value為0.0000,拒絕了原假設,也就是說,三個矩條件不同時成立,數據很有可能不是從正態分布中生成的。

計量經濟學的很多很多問題基本都可以歸結為GMM的問題。從最簡單的OLS、2SLS到稍微複雜一點的面板數據、動態面板等等,本質上都是在找矩條件。比如工具變數的2SLS,可以發現矩條件不過就是:

E[(y_i-x_i

套一下上面的公式,最優權重矩陣(的逆)為:

E[(y_i-x_i

帶入到目標函數中,就得到了2SLS。

甚至,一些其他的估計量,比如MLE、M-estimator等,在一定的條件下也可以轉化為GMM,因為這些估計量的一階條件可以看成是矩條件。所以GMM也就變成了一個統一的框架。

為什麼GMM這麼受歡迎呢?因為GMM把複雜的統計過程抽象化成為一個(看似)簡單的過程:找矩條件。只要你能找到矩條件,你就能估計。GMM把估計的繁瑣細節全都抽象了,面對一個模型,你所需要做的所有事情就是找到矩條件,證明這個模型是可以識別的,然後什麼也不用管,一股腦兒塞進去,結果就出來了。

所以呢如果你去看一些稍微複雜的模型,基本都可以歸結為矩條件。

至於題主提到的資產定價,剛好Gretl提供了一個可以使用的數據集和code。資產定價最簡單的模型應該就是C-CAPM了,其重要結論就可以直接歸結為這麼一個矩條件:

其中Ft為第t期所知道的所有信息,包括Ct、rt等等。所以根據這個式子,如果令

那麼e_t跟Ct、rt等等都是正交的,自然可以作為矩條件來用。

Gretl自帶了Hall的數據集,在user guide第206頁開始給出了說明和代碼,以及結果,感興趣的可以去看看,很簡單的一個程序。

我猜想上面的兩個例子已經足夠簡單了,特別是正態分布的例子,應該不可能更簡單了哈哈~


GMM簡直是計量的良心

它可以涵蓋幾乎所有常用的estimator

OLS, IV, 2SLS, GLS, RE, FE, SUR, 3SLS, Pooled OLS.........全是它的特殊情況

所以LZ你說用簡單的例子解釋一下,我瞬間不知道該從何講起......

因為GMM的應用......實在太尼瑪廣泛了

-------------------------------------------------------------------

LZ看樣子是做宏觀或者金融的,那我就來根據Hayashi的econometrics來大致解釋一下GMM。

GMM是一個framework,本質是運用矩條件,對參數進行估計。所以我們叫他廣義矩估計。

我們現在線性模型y_{i} =x的框架下討論,這樣比較清晰。

假設y是因變數,x是原自變數,z是工具自變數(可以和原自變數一致,也可以不一致)

我們定義g_{i}=z_{i}*varepsilon _{i}

所謂矩條件,就是我們假設模型的真實參數和總體,滿足這樣一個條件:

E(g(z,eta ))=0

也就是E(z_{i}*(y_{i}-x

然後在這個條件下,我們用某種方法去估計參數eta

看上去是不是很混亂?OK讓我們做一個小小的變換~~~

假設向量xi=zi,也就是說工具變數和自變數完全一樣。這時候矩條件就變成了:

E(x_{i}*(y_{i}-x

回想起來這是啥了沒?就是簡單的線性投影條件呀!它的sample analogue是啥?就是OLS!

好,OLS首先被裝到了GMM這個框里。

但是當zi不完全和xi一樣的時候呢?那我們就得分類討論了。

1.如果zi里的變數數量小於xi,那就是under-identified(識別不足),這個時候我們沒辦法用GMM估計。(想想簡單IV里最基本的估計條件就是IV數量比內生變數數量多)

2.如果zi里的變數數量等於xi里的,那就是just-identified(恰好識別),這個時候我們的sample analogue和用樣本估計參數的方法都很直接而且簡單,就是用簡單算術平均。

定義g_{n}=frac{1}{n} *sum_{i=1}^{n}{z_{i}*(y_{i}-x

估計方法就是直接讓g_{n}=0,解出對應的eta 就好了,沒啥花樣兒。

所以我們很清楚可以看到,恰好識別的時候,GMM Estimator就是:

hat{eta } _{GMM}=(sum_{i=1}^{n}{z_{i}x

是不是很熟悉?YES!就是簡單的IV Estimator~

當zi=xi時,就直接變成OLS Estimator了。

3.如果zi里的變數數量大於xi里的,那就是over-identified(過度識別),這就到了GMM不一樣的地方了。這時候我們不能直接簡單用g_{n}=0的條件去求解eta 了,因為這時候我們的矩條件比未知數要多,也就是說方程組裡的方程數量比未知數多,一般情況下找不到解。咋辦?那我們就找一個解得出來的方程組,並且要讓g_{n}盡量「靠近」零。因為g_{n}其實是空間里的一個點,所以我們這裡用一個小技巧,把這種靠近,定義為最小化g_{n}這個點,和原點的空間距離。

我們定義J(hat{eta},hat{W})=n* g

這個J就是我們要的距離。W是一個對稱且正定的矩陣,表示我們對這個空間距離的某種度量。當W=I的時候,我們定義的這個距離就是簡單的歐式空間距離。

前面乘以一個n沒啥別的意思,是為了某些統計量比較好算......

所以我們估計參數eta 的方法就是:

hat{eta}_{GMM}=argmin_{hat{eta}}J(hat{eta},hat{W})

取一個讓距離最小的hat{eta},就得到了我們要的GMM估計量。簡單求個導,解一下一階條件我們就有了顯性表達式:

hat{eta}_{GMM}=(S

其中S_{zx}=sum_{i-=1}^{n}{z_{i}xS_{zy}=sum_{i-=1}^{n}{z_{i}y_{i}}

這就是單方程GMM的一般解。

當我們選取不同的W矩陣,也就是選擇不同的空間距離度量時,GMM會變成各種我們熟悉的estimator,比如2SLS等等。

以上是關於線性模型的。

更一般的GMM,其實差別不是很大,無非是去掉了矩條件是線性的這個假設。這時候我們有:

E(g(x,eta ))=0

x是自變數,eta 是真實參數

同樣我們也是最小化一個空間距離:

J(hat{eta},hat{W})=n* g

hat{eta}_{GMM}=argmin_{hat{eta}}J(hat{eta},hat{W})

只不過在具體求解的時候,如果g是一個很複雜的非線性函數的話,那就不一定有解析解,需要用數值逼近,然後漸進方差要用delta method計算。(這塊general的GMM具體操作方法我也不是很了解,hayashi和hansen的書上也都沒有太多介紹,可以諮詢 @慧航 )

以上是最基本的GMM內容,從0開始定義。更多的重要內容,包括最優權矩陣,多方程GMM等等,還是看書吧~

推薦Bruce Hansen的Econometrics,裡面關於GMM的章節很精練,適合快速閱讀快速理解,並且是基於iid sample假設

Hayashi的Econometrics對GMM的介紹非常全面,適合進階閱讀,基於ergodic stationary假設,偏時間序列。

參考:

Hayashi, Econometrics

Bruce Hansen, Econometrics

大晚上打字好累,送大家一隻萌妹紙


今天複習GMM的時候想到了一個工具變數的找法很開森,於是愉快地決定強答一發GMM回(bao)報(fu)社會,然後發現前面三位大神已經把能填的坑都填上了。= =b。

找個沒填完的小坑,稍微灌點水吧,補充一下 @劉澈 沒講完的具體的GMM提升精度的方法。

前面大神們提到了,GMM估計相當於給不同的矩條件賦予了不同的權重,然後才能這個權重得到最小化條件,不同的權重陣其實就對不同的估計量,就像 @Huang Zibin 說的,「OLS, IV, 2SLS, GLS, RE, FE, SUR, 3SLS, Pooled OLS.........全是它的特殊情況」

那麼結果來了,權重矩陣辣么多,要挑不過來,怎麼選取最好呢, @慧航 也指出了,最優權重陣這樣,

當然了,根據slutsky』s theorem,拿樣本模擬總體一般錯不了。

所以樣本模擬最優權重陣的結果就是這樣:

那麼問題來了,要估計最優權重陣就要估計參數,要估計參數就要知道最優權重陣(循環一二起,要估計最優權重陣就要估計參數,要估計參數就要知道最優權重陣…)。

不要擔心,我們有Hansen(1982)。

第一種叫one-step GMM,玩不出來我就不玩了唄,沒有胡屠夫還不吃帶毛豬了,我找不到最優權重陣,我找個過的去權重陣差不多意思意思,反正滿足內生性條件之後,大樣本性質總歸是好的,至於小樣本性質,那再說吧。

一般Wn =In(單位陣)或者
=inv(Z』Z)(工具變數陣乘積的逆)

第二種叫做two-step GMM,現在不是有了參數的一個估計了嘛,那往前再走一步咯,我根據參數得到最優權重陣的一個估計,

然後再來一次GMM估計嘛。

第一二種方法有一個小小的缺陷,就是初始權重陣的選取,會影響到參數的數值(numerical value)。

第三種叫做Iterated Efficient(迭代有效)GMM,怎麼講,2步迭代不夠那3步迭代,3步不夠迭代4步,總有一步,會得到最優的估計的。那怎麼判定是不是差不多最優了呢,一般用這次迭代得到的新參數和上次的參數做差,差充分小的時候,就表示逼近已經很成功了。

第四種方法理解起來複雜,叫做Continuous-updating (連續更新)GMM。GMM估計是在最小化方程

然後最優權重陣W=

我們直接代進去嘛,這樣這個估計方程裡面不就沒有W只有參數了,然後估計參數就好了。

第三第四種方法的解,不依賴初始權重陣。理論上說,第三第四種方法的估計應該是漸進等價的,當然小樣本性質可能有所差異。

但要注意,如果矩條件不是線性的,那麼啥好說的大家都是非線性參數估計;如果矩條件是個線性的,前三種就是線性估計第四種方法還是非線性估計,相比來說,計算更加繁重,但其有限樣本性質要稍好些,另外如果存在弱工具變數的問題,其也相對穩健(robust)。


之前的答案沒有針對金融/Asset pricing的,補充一個。

-------

題主看Cochrane的Asset Pricing學GMM,是想了解宏觀金融。GMM即是Hansen and Singleton (1982)專門為了解決宏觀金融模型的參數估計問題開發的;Hansen因其突出貢獻還與其他兩位金融經濟學家共同獲得了2013年諾貝爾經濟學獎。GMM被資產定價學者開發以後,由於其泛用性,傳播到了經濟學的其他各個領域,成為了計量經濟學中的一種典型方法。

總的來說,GMM想解決的是複雜系統中的參數估計問題。對於一個複雜的含參系統,估計其中的參數是很困難的,因為你的估計策略不可能照顧到這個系統的所有特徵。GMM方法提出,如果你的估計策略不能面面俱到,那麼退而求其次,你的估計策略至少應當考慮到這個系統最重要的特徵。GMM的精髓就是這種簡化的思路。

設想你只有一個簡單的含參系統,例如一個線性均值方程E(y|X) = b0 + b1*X. 如果你想估計整個系統,那麼你只需要估計其中的參數b0與b1即可。假設方程真實成立,那麼想用數據{y, X}估計出b0與b1非常簡單:只需將y對X做最簡單的線性OLS回歸即可。

但是設想你的參數系統比較複雜,比如宏觀資產定價里最簡單的一種Euler Equation (with power utility): E_t[eta(frac{C_{t+1}}{C_t})^{-gamma}R_{i,t+1}] = 1-- [1] (其中E_t是t時刻的條件期望,R_i是市場中任意一種資產的毛收益率,C_t為t時刻的消費,eta是主觀折現因子,gamma是風險厭惡係數)。如果你想估計整個系統,那麼你只需要估計其中的參數etagamma即可。但是很顯然,假設你能拿到消費、任意資產的毛收益率等一些經濟數據,而且假設經濟數據(作為隨機變數)真的服從等式,那麼一個簡單的OLS也是不能搞定參數估計的。原因很簡單,因為這個系統太複雜了。

所以,想估計這個系統,就必須簡化問題。這個系統複雜的原因在於:

a. 式[1]對於市場上的所有資產全都成立。所以實際上式[1]包含了無窮多個方程。但是這個太複雜了,估計出使得式[1] 對於所有資產都成立的etagamma很困難。所以我們退而求其次。如果有etagamma會使得式[1] 對於所有資產都成立,那麼他們也會使得式[1] 對你認為的最重要的資產成立。比如,如果你認為一個市場中最重要的資產是市場指數與無風險債券,那麼當然式[1]對市場指數與無風險債券均成立,亦即E_t[eta(frac{C_{t+1}}{C_t})^{-gamma}R_{m,t+1}] = 1 -- [2-(1)] andE_t[eta(frac{C_{t+1}}{C_t})^{-gamma}]R_{f,t} = 1 -- [2-(2)]。如果估計[2]就能夠成功得到etagamma,那麼就估計更為簡單的[2]好了,因為其得到的etagamma也能使[1]成立。

b. 但是,估計式[2]也太複雜了,因為式[2]仍然用「t時刻的條件期望」寫成:對於任意的時間t,[2]式都必須成立。所以式[2]實際包含了無窮多個方程,這種複雜程度使得我們沒法進行參數估計。所以,我們必須進一步簡化,簡化的方式就是將[2]中的條件期望E_t[~]簡化為無條件期望E[~]—— 自然是通過期望迭代定律(Law of Iterated Expectations)實現。但是,如果我直接將條件期望簡化為無條件期望,我將無窮多等式簡化為兩個等式,損失的信息實在太多,這樣不好。所以,為了避免在簡化的過程中損失過多信息,我們一般會使用一些「工具變數」(instrumental variables)來豐富信息含量。

假設你認為市場中的Price-dividend ratio是比較重要的經濟變數,你希望在你的估計中體現它,那麼你就可以用它來做一個工具變數。記t時刻的Price-dividend ratio為z_t[2-(1)]式可以變換為:z_tE_t[eta(frac{C_{t+1}}{C_t})^{-gamma}R_{m,t+1} -1] = 0,因為 z_t是時刻t的變數,所以可以進一步變換為E_t[z_t(eta(frac{C_{t+1}}{C_t})^{-gamma}R_{m,t+1} -1)] = 0。等式兩邊使用迭代期望定律,得到無條件期望等式E[z_t(eta(frac{C_{t+1}}{C_t})^{-gamma}R_{m,t+1} -1)] = 0 -- [3-(1)]。同理,[2-(2)]式也可以變換為E[z_t(eta(frac{C_{t+1}}{C_t})^{-gamma}R_{f,t} -1)] = 0 -- [3-(2)]。這樣,我們就進一步將複雜的[2-(1)][2-(2)]簡化成了[3-(1)][3-(2)]。

採用一個z_t,我們將無窮多個式子簡化為了兩個式子,簡化程度很大。為了避免簡化程度過大,我們一般會多選用一些工具變數。每選用一個工具變數,就增加兩個無條件期望等式。比如,常數變數「1」顯然也是一個工具變數。重複上面的操作,我們得到E[eta(frac{C_{t+1}}{C_t})^{-gamma}R_{m,t+1} -1] = 0 -- [3-(3)] and E[eta(frac{C_{t+1}}{C_t})^{-gamma}R_{f} -1] = 0[3-(4)]。

所以,為了估計[1],我們利用「合理選用重要資產」與「工具變數+迭代期望定律」的策略將[1]式簡化為了幾個較為簡單的等式,並且選用了多個工具變數(本例為2個)來避免簡化過度。最終,我們得到式[3](本例包含4個式子/無條件期望等式/「矩條件」)這個系統中有兩個參數,四個等式。等式個數多於待估參數個數,可以進行估計。需要的數據為消費、市場指數收益率、無風險收益率和Price-dividend ratio。事實上,這就是你建立的GMM問題。為了避免實際計算時可能出現的過度識別(Over-identification)問題,採取 @慧航 和 @Huang Zibin 答案中的策略求解etagamma的GMM估計量:將[3]簡記成E[	extbf{g}(C, R_f, R_m, z; eta, gamma)] = f{0},這是一個4*1的向量等式。用樣本矩	extbf{$ar g$} = frac{1}{T}sum_t g_t(平均數)替代總體矩(期望),對於一個4*4維的正定矩陣W,求解min_{eta, gamma} ar g,得到的解即為估計結果。求解一般通過數值方法,另如需提升估計精度可以使用兩階段GMM、Continuous-updating GMM等,均數細節,不再贅述。

本例與Hansen and Singleton (1982)不盡相同。可補充閱讀Hansen and Singleton (1982)。


沒有公式的直觀理解

---------------------------------------------------------------

GMM重點在於構建moment condition

以下討論是linear GMM

Generalized Methods意味著OLS,2SLS等estimator 都可以用GMM表示,這是因為moment condition的原因

Moment Condition其實是你用於identify你的model的一個條件,就比如SLM(standard linear model)中E(X"U | X)=0 就是你用於解model的條件。

加起來Generalized Methods of Moment ,就意味著你已經超越OLS,你手上有很多moment condition,建立moment condition是重點(1 例子在Appendix)而且需要利用所有的信息。於是乎,你把這些moment condition 堆疊成matrix矩陣形式(b是你要解的模型parameter參數),並參照Least Square的思想,寫成矩陣平方,你要解的問題就變成,b=argmin m(b)"m(b),這就是很基礎的GMM公式。

稍微拓展以下就是加上weighting matrix A,意思是你覺得每個moment condition對你model的貢獻是不一樣,而他的貢獻應該基於這個moment 包含信息的方差,如果方差越大,這個信息價值越小,所以A中的元素,應該對應moment condition 方差的倒數。

你的模型就變成

b=argmin m(b)"Am(b)

剩下的就可以交給matlab來解了,解法的intuition是求將moment condition求一階導,並設為零,講b用m(b)來表示,因為m(b)是你的moment condition的總和,包含x y(你收集數據)的信息,這樣最終b=f(x,y),可以類比b=inv(X"X)X"Y,你就用數據identify出你model的parameter了。

最後,推薦一本很好,很直觀的書 Microeconometrics Cameron and Trivedi

http://www.centroportici.unina.it/centro/CameronTrivedi.pdf

如果決定數學很複雜的話,可以跳過數學,想想直覺上他想幹什麼,然後結合學過的理論,加上一些notation,就是你看到的公式了。

----------------------------------------------

Appendix

(1)

很多moment condition的例子就是比如你要estimate 警察多少對犯罪率的影響,這會在當期數據嚴重的內生性的問題,因為你期望警察多犯罪少,但往往這一期的警察多是由於犯罪率高才多的,所以你需要一個典型的假設,今天shock不會影響過去的決策,就是過去的警力不會因為今天犯罪高而多,因為不可預測,所以你就有了 Cov(x_t-1, u_t )=0 (可以作為一個moment condition)但過去警力與今天的警力是有關係的 Cov(x_t, x_t-1)
e不等 0。如果你有很多期的話,滾動回去,你就有很多IVs(moment condition)


高票回答的內容寫得非常好!確實讓人佩服!我這邊從GMM發展歷程上梳理下,希望能從另一方面幫助理解。

其實在統計學習世界裡, GMM有高美美和廣美美之分,Gaussian mixture model vs Generalized moment method。 這裡我們討論的是廣美美GMM,是一個諾貝爾經濟學獎的發明,是如何又廣又美了的呢?

引文

Lars Peter Hansen 漢森, 美國人, 博士畢業於明尼蘇達大學University of Minnesota, 憑藉發明了GMM獲得了2013年諾貝爾經濟學大獎。 這裡八卦下,他的老婆蔣人瑞是華人,岳父蔣碩傑是民國時期最傑出經濟學家。

誕生

GMM 發表在1982年,一共27頁。 其中部分證明發表在2012年, 有16頁的補充證明。 或許知道要獲諾貝爾經濟學大獎了, 順勢補全下下證明。

這篇論文裡面, 滿滿的全是數學證明, 有興趣可以去讀下下。 所以學好經濟學本身, 對數學的掌握也是要認證對待的。

歷程

那麼, 漢森是如何發明廣義矩估計的呢? 他在他的論文裡面並沒有說起思想的來源和發展。 因此這裡我只能按圖索驥的推測。 首先, 從他引用論文開始, 我們發現他很認真的強調了2階段最小二乘法2SLS和3階段最小二乘法 3SLS。譬如在他的論文裡面對1, 2, 5 和11 都特彆強調了。 前面我們說過,Theil發明的2SLS可以看成是工具變數IV的泛化, 那麼為什麼這裡要不停的強調3SLS?

我們大膽卻又合理的假設, 3SLS觸發了漢森發明GMM的靈感。那麼如何來證實這個3SLS可以引出GMM呢? 在說明這個之前, 先要說明3SLS存在的意義。

為什麼要有2SLS

當存在測量誤差的時候, E(X, U) = 0 就不滿足了, 或者特殊的一階自相關的時候, 2SLS就可以發揮神奇了, 並且對於E(X, U) ≠ 0 的情況下, 工具變數IV也是極好的處理辦法。

我們稍微從另外一個角度回顧一下, 對於線性的估計來說, 最優估計要求 E(X, U) = 0 。而經典的最小二乘法OLS就是直接求導這個最優的過程。

既然2SLS有存在的必要的, 那麼為什麼要有3SLS呢?

為什麼要有3SLS

當除了E(X, U) ≠ 0 測量誤差時候, 還有似不相關seemingly unrelated regressions (SUR)的情況的時候, 就需要3SLS了。

似不相關SUR也的確如它的名字一樣, 有m個參數估計, 表面上看是m個獨立的表達式, 完全可以使用m個2SLS去進行參數估計。

但是骨子裡還是有相關的地方的, 就在於這些誤差在同一時刻的時候相關的,而不同時刻的時候不想關。

那麼, 對於利用矩陣統一後, SUR的m個回歸的協方差矩陣就會不太一樣了。

這裡要特別注意的是, 這個矩陣和之前我們看到的一個表達式裡面的協方差矩陣很不一樣,為什麼呢? 因為上面這個矩陣的每個元素都是矩陣。 而經典的協方差矩陣每個元素都是標量。

另外, 根據SUR特殊的同一時間的相關性, 我們知道只有對角線存在元素。 這種情況,我們可以使用廣義最小二乘法GLS進行處理的。

其實, 某種意義上, 這種只有對角線存在元素的情況, 只要加權最小二乘法WLS進行處理就好了。

這樣我們把3SLS的過程總結如下:

1)先用2SLS進行獨立的參數估計

2)估算協方差矩陣

3)估計FGLS結果

這樣, 當不存在SUR的情況的時候, 那麼3SLS就是2SLS的獨立解。 因為Σ是嚴格對角陣。

2SLS作為IV -&> 3SLS作為廣義IV

在矩陣滿秩情況下, 2SLS和IV是嚴格等價的。 現在3SLS情況下, 我們完全可以把2SLS退化成工具變數IV了, 由第三階段FGLS進行泛化。 這種泛化的工具變數也是漢森當時考慮的熱點。 幾乎和GMM論文同時發表, 並且進行循環引用的另外一篇論文(Generalized Instrumental Variables Estimation of Nonlinear Rational Expectations Models)說明了漢森當時的這種考慮。

這種相互引用的論文發表過程, 說明了這種思考是幾乎同時進行的。 因此, 某種意義上GMM也是建立在建立一個廣義的IV的基礎上產生的。 而3SLS提供了這個基礎。

幾乎同時發表的文章, 循環引用。

在這個理解的基礎上, 那麼廣義IV距離GMM就一步距離了, 就是如何把IV看成矩估計。

IV作為矩估計MME

矩估計MME非常有用, 如果直接從IV思想出發, 假設工具變數就是自變數本身的話, 那麼矩估計MME代入就是最小二乘法OLS。 在一定的替換條件下, 最大似然估計可以看成矩估計。 這裡我們簡單說明了, 最小二乘法也可以看成矩估計, 只要在IV思想下把自變數看成工具變數, 這也恰好是最小二乘法要滿足的假設之一。

那麼IV過程本身是如何看成MME的呢?

其實這個過程十分簡單, 和上面非常相似, 也是直接從IV的思想出發。

這說明, IV思想和MME結合會發揮巨大的作用, 而這個替代和作用的過程, 用到一個工具:向量值函數Vector-valued function。 我們知道, 在3SLS裡面, 2SLS是一組值, 那麼把這種一組值依然表示為向量。 同時引入函數思想, 我們就得到了向量值函數。

廣義IV作為GMM: MME + FGLS -&> GMM

通過 3SLS 和 向量值 函數的思想的引入 :

3SLS (2SLS + FGLS) -&> (IV + FGLS) -&> (MME + FGLS) -&> GMM

.^.

Vector-valued function .. |

我們就得到了形式完美的廣義矩估計 GMM:

這樣, GMM某種意義上含有3SLS同等強大的能力, 甚至更強。 下面舉個簡單的例子說明求解過程:

這樣, 我們根據論文思想和合理假設, 推理了一下漢森發現GMM的整個思路。

希望梳理的過程對大家理解GMM略有幫助,更多技術相關文章,可看我的其他回答。

謝謝!


簡單的理解的話,感覺GMM其實有點像解方程

對於不同的模型,往往有一個E(g(b))=0的條件去滿足identification的要求,在估算estimator的時候,用這個式子可以算出來estimator是什麼

GMM的最好用之處就在於適用於很多模型~


推薦閱讀:

有沒有可能相關係數很高,可是兩組數據其實並沒有關係?(即便從圖上看也是如此)
正態分布可以生成均勻分布嗎?
最大熵和正態分布的關係是什麼?
計量經濟學中,樣本容量是不是越大越好?
相關係數具有傳遞性嗎?

TAG:統計學 | 經濟學 | 計量經濟學 | 資產定價 |