如何用簡單的例子解釋什麼是 Generalized Method of Moments (GMM)？

01-02

GMM estimator 在asset pricing領域十分有用，能不能用簡單的例子解釋下？最近在學習Cochrane的asset pricing，有點不太理解

既然被邀請和提到，在這裡我來寫一個最簡單的GMM快速入門手冊吧，因為這個技術聽起來非常的高大上，但其實非常簡單。如果你有本科的統計知識，看懂下文是不成問題的。

GMM的全名是Generalized Method of Moments，也就是廣義矩估計。只看這個名字的話，如果去掉「廣義」這個詞，可能學過本科統計的人都認識，就是「矩估計」。

矩估計是什麼呢？簡單的說，就是用樣本矩代替總體矩進行統計推斷的方法。一個最基礎的例子是正態總體的參數估計問題。如果 $x_isim N(mu,sigma^2)$ ，如何估計μ和σ呢？

本科的統計學一般會介紹兩種方法：極大似然估計和矩估計。其中矩估計是我們今天的主角。觀察到：

$Ex_i=mu$ ， $E(x_i^2)=mu^2+sigma^2$

而根據大數定理，在一定的條件下，我們有：

$ar{x_i}-mu=o_p(1),ar{x_i^2}=mu^2+sigma^2+o_p(1)$

也就是說，當樣本量足夠大的時候，樣本矩與總體矩只差了一個無窮小量，那麼我們是不是可以用樣本矩代替總體矩得到參數的估計呢？

按照上面的思路，我們把op(1)去掉，同時把未知的總體參數寫成其估計值，也就是帶hat的形式，我們得到了：

$hat{mu}=ar{x_i}, hat{sigma^2}=ar{x_i^2}-ar{x_i}^2$

如此，我們得到了兩個總體矩的點估計。在這個簡單的例子裡面，你只要把上面的大數定理的結論帶到上面兩個式子裡面，很容易的就可以證明出兩個點估計是一致的估計量。

當然，值得注意的是，即便我使用的是矩條件，σ的估計也不是無偏的。一般而言，除了特殊情況，不管是MLE還是MM還是GMM，都不一定可以得到無偏的估計量。特別是在比較複雜的應用裡面，一致就很不錯了，無偏性的討論真的繁瑣。

好了，上面是矩估計，非常簡單是吧？但是什麼又是廣義矩估計呢？

在上面的例子中，我們只使用了兩個矩條件。然而我們知道，正態分布的矩是有無窮多個可以用的，那麼我們是不是可以使用更多的矩條件呢？

但是有個問題不好解決。在這個例子裡面，我們有兩個未知參數，如果只使用一階矩，那麼只有一個方程解兩個未知數，顯然是不可能的。像上面一樣，我們用兩個矩條件解兩個未知數，就解出來了。然而，當我們用一到三階矩，總共三個方程求解的時候，三個方程求解兩個未知數，可能無解。

方程數多了，反而沒有解了，為什麼呢？其實很簡單，用三個方程中的任意兩個方程，都可以求出一組解，那麼三個方程我們就可以求出三組解。所以應該如何把這些矩條件都用上呢？

到這裡我們不妨引入一些記號。還是使用上面的例子，我們把上面的三個矩條件寫到一個向量裡面去，記：

$g(x_i, heta)=left[ x_i-mu, x_i^2-mu^2-sigma^2, x_i^3-mu^3-3musigma^2 ight]$

我們可以得到一個3*1的列向量，並且：

$Eg(x_i, heta)=0$

上面就是我們要用的矩條件。而根據上面的思路，用其樣本矩代替總體矩：

$frac{1}{N}sum_i g(x_i,hat{ heta})=0$

解這個方程應該就可以得到參數θ的估計。但是正如上面所說的，三個方程兩個未知數，並不能確保這個方程有解，所以必須想一些其他辦法。

一個比較自然的想法是，上面的矩條件等於0，雖然我不太可能保證三個方程同時等於0，但是仿照OLS，我們可以讓他們的平方和最小，也就是：

$min_{hat{ heta}} left[ frac{1}{N}sum_i g(x_i,hat{ heta}) ight]$

這樣我們就能保證三個矩條件的樣本矩都足夠貼近於0，當然不可能同時為0。這樣不就綜合使用了三個矩條件的信息么？

更一般的，由於上面的g函數是一個3*1的列向量，我們可以使用一個權重矩陣W來賦予每個矩條件以不同的權重：

$min_{hat{ heta}} left[ frac{1}{N}sum_i g(x_i,hat{ heta}) ight]$

只要這個W是一個正定矩陣，那麼仍然可以保證每個樣本矩都足夠貼近於0。

那麼問題來了，既然對W的要求只要求正定矩陣，那麼使用不同的權重矩陣就有可能得到不同的結果。問題是，有沒有一個最優的權重矩陣呢？當然是有的。可以證明，最優的權重矩陣應該是：

$left[E g(x_i, heta)g(x_i, heta)$

使用這個權重矩陣，就得到了最有效的估計。

比如上面的例子，用gretl分別估計兩個矩條件、三個矩條件使用單位陣作為W、三個矩條件使用最優權重矩陣做估計：

nulldata 1000 set seed 1988 series x=randgen(N,1,2) series x2=x^2 series x3=x^3 series e series e2 series e3 scalar mu=0 scalar sigma2=1 matrix W2=I(2) gmm series e=x-mu series e2=x2-sigma2-mu^2 orthog e; const orthog e2; const weights W2 params mu sigma2 end gmm matrix W3=I(3) scalar mu=0 scalar sigma2=1 gmm series e=x-mu series e2=x2-sigma2-mu^2 series e3=x3-3*mu*sigma2-mu^3 orthog e; const orthog e2; const orthog e3; const weights W3 params mu sigma2 end gmm scalar mu=0 scalar sigma2=1 gmm series e=x-mu series e2=x2-sigma2-mu^2 series e3=x3-3*mu*sigma2-mu^3 orthog e; const orthog e2; const orthog e3; const weights W3 params mu sigma2 end gmm --iterate

首先是使用兩個矩條件的結果：

為什麼兩個矩條件的時候不使用最優權重矩陣呢？因為兩個未知參數，兩個矩條件，不存在過度識別的問題，存在唯一解的，所以不管使用任何的正定矩陣，得到的結果都是一樣的。

三個矩條件，這個時候使用什麼樣的權重矩陣就不一樣了。先使用單位陣作為權重矩陣：

這裡需要注意的是，即使使用了更多的矩條件，估計量的standard error還是變大了。感興趣的可以做一個蒙特卡洛模擬試試，一定是會變大的。為什麼呢？因為沒有使用最優的權重矩陣，所以使用單位陣作為權重矩陣得到的結果不是最有效的。那麼如果使用最優的權重矩陣呢？結果：

嘿！standard error是變小了，但是跟使用兩個矩條件的好像沒有什麼本質變化啊？為什麼呢？

因為這裡舉的這個例子太特殊了，我們使用的前兩個矩條件，剛好是一個充分統計量，也就是說，使用額外的矩條件不會帶來附加信息的。但是如果是其他情況，一般來說更多的矩條件是可以帶來更多的信息的，比如工具變數的回歸。

另外如果細心觀察，最後一張表格多了一個J-test。這又是啥呢？

這個東西就比較有意思了。知道現在，我們都是假設使用的矩條件成立，那麼這些矩條件真的是成立的么？未必啊。比如，如果x本來就不服從正態分布，那麼使用上面的估計顯然是錯的。那麼是不是可以檢驗矩條件是否成立呢？

一般來說，如果你有K個未知的參數，以及K個矩條件，那麼矩條件是不能檢驗的。但是如果你有更多的矩條件，那麼就有了檢驗的可能。這個檢驗的直覺很簡單，比如上面的例子裡面，我們有3個矩條件。我可不可以先使用前兩個矩條件估計這兩個參數，然後把這兩個參數帶入到第三個矩條件裡面，看看是不是充分接近於0，如果充分接近，那麼看來這三個矩條件彼此印證了。

實際使用的時候沒有那麼麻煩。可以證明，當使用了最優的權重矩陣的時候，GMM的目標函數漸進服從卡方分布，因而只要檢驗這個卡方分布就可以了，也就是上面的J-test。p-value為0.6884，看來這三個矩條件沒有矛盾的地方。

但是一定要注意，即使通過了這個檢驗，也不代表矩條件一定是成立的，因為有可能三個矩條件都是錯的，只不過錯的方向是一致的。比如這個例子裡面，有可能x的分布前三階矩跟正態分布是一樣的，但第四階就不一樣了。因而通過這個檢驗不代表x一定服從正態分布。當然，如果通不過，可以比較自信的說，x不服從正態分布。

比如，我們把上面的數據生成過程改為gamma分布，得到的結果：

p-value為0.0000，拒絕了原假設，也就是說，三個矩條件不同時成立，數據很有可能不是從正態分布中生成的。

計量經濟學的很多很多問題基本都可以歸結為GMM的問題。從最簡單的OLS、2SLS到稍微複雜一點的面板數據、動態面板等等，本質上都是在找矩條件。比如工具變數的2SLS，可以發現矩條件不過就是：

$E[(y_i-x_i$

套一下上面的公式，最優權重矩陣(的逆)為：

$E[(y_i-x_i$

帶入到目標函數中，就得到了2SLS。

甚至，一些其他的估計量，比如MLE、M-estimator等，在一定的條件下也可以轉化為GMM，因為這些估計量的一階條件可以看成是矩條件。所以GMM也就變成了一個統一的框架。

為什麼GMM這麼受歡迎呢？因為GMM把複雜的統計過程抽象化成為一個（看似）簡單的過程：找矩條件。只要你能找到矩條件，你就能估計。GMM把估計的繁瑣細節全都抽象了，面對一個模型，你所需要做的所有事情就是找到矩條件，證明這個模型是可以識別的，然後什麼也不用管，一股腦兒塞進去，結果就出來了。

所以呢如果你去看一些稍微複雜的模型，基本都可以歸結為矩條件。

至於題主提到的資產定價，剛好Gretl提供了一個可以使用的數據集和code。資產定價最簡單的模型應該就是C-CAPM了，其重要結論就可以直接歸結為這麼一個矩條件：

其中Ft為第t期所知道的所有信息，包括Ct、rt等等。所以根據這個式子，如果令

那麼e_t跟Ct、rt等等都是正交的，自然可以作為矩條件來用。

Gretl自帶了Hall的數據集，在user guide第206頁開始給出了說明和代碼，以及結果，感興趣的可以去看看，很簡單的一個程序。

我猜想上面的兩個例子已經足夠簡單了，特別是正態分布的例子，應該不可能更簡單了哈哈～

GMM簡直是計量的良心

它可以涵蓋幾乎所有常用的estimator

OLS, IV, 2SLS, GLS, RE, FE, SUR, 3SLS, Pooled OLS.........全是它的特殊情況

所以LZ你說用簡單的例子解釋一下，我瞬間不知道該從何講起......

因為GMM的應用......實在太尼瑪廣泛了

-------------------------------------------------------------------

LZ看樣子是做宏觀或者金融的，那我就來根據Hayashi的econometrics來大致解釋一下GMM。

GMM是一個framework，本質是運用矩條件，對參數進行估計。所以我們叫他廣義矩估計。

我們現在線性模型 $y_{i} =x$ 的框架下討論，這樣比較清晰。

假設y是因變數，x是原自變數，z是工具自變數（可以和原自變數一致，也可以不一致）

我們定義 $g_{i}=z_{i}*varepsilon _{i}$

所謂矩條件，就是我們假設模型的真實參數和總體，滿足這樣一個條件：

$E(g(z,eta ))=0$

也就是 $E(z_{i}*(y_{i}-x$

然後在這個條件下，我們用某種方法去估計參數 $eta$

看上去是不是很混亂？OK讓我們做一個小小的變換~~~

假設向量xi=zi，也就是說工具變數和自變數完全一樣。這時候矩條件就變成了：

$E(x_{i}*(y_{i}-x$

回想起來這是啥了沒？就是簡單的線性投影條件呀！它的sample analogue是啥？就是OLS！

好，OLS首先被裝到了GMM這個框里。

但是當zi不完全和xi一樣的時候呢？那我們就得分類討論了。

1.如果zi里的變數數量小於xi，那就是under-identified（識別不足），這個時候我們沒辦法用GMM估計。（想想簡單IV里最基本的估計條件就是IV數量比內生變數數量多）

2.如果zi里的變數數量等於xi里的，那就是just-identified（恰好識別），這個時候我們的sample analogue和用樣本估計參數的方法都很直接而且簡單，就是用簡單算術平均。

定義 $g_{n}=frac{1}{n} *sum_{i=1}^{n}{z_{i}*(y_{i}-x$

估計方法就是直接讓 $g_{n}=0$ ，解出對應的 $eta$ 就好了，沒啥花樣兒。

所以我們很清楚可以看到，恰好識別的時候，GMM Estimator就是：

$hat{eta } _{GMM}=(sum_{i=1}^{n}{z_{i}x$

是不是很熟悉？YES！就是簡單的IV Estimator~

當zi=xi時，就直接變成OLS Estimator了。

3.如果zi里的變數數量大於xi里的，那就是over-identified（過度識別），這就到了GMM不一樣的地方了。這時候我們不能直接簡單用 $g_{n}=0$ 的條件去求解 $eta$ 了，因為這時候我們的矩條件比未知數要多，也就是說方程組裡的方程數量比未知數多，一般情況下找不到解。咋辦？那我們就找一個解得出來的方程組，並且要讓 $g_{n}$ 盡量「靠近」零。因為 $g_{n}$ 其實是空間里的一個點，所以我們這裡用一個小技巧，把這種靠近，定義為最小化 $g_{n}$ 這個點，和原點的空間距離。

我們定義 $J(hat{eta},hat{W})=n* g$

這個J就是我們要的距離。W是一個對稱且正定的矩陣，表示我們對這個空間距離的某種度量。當W=I的時候，我們定義的這個距離就是簡單的歐式空間距離。

前面乘以一個n沒啥別的意思，是為了某些統計量比較好算......

所以我們估計參數 $eta$ 的方法就是：

$hat{eta}_{GMM}=argmin_{hat{eta}}J(hat{eta},hat{W})$

取一個讓距離最小的 $hat{eta}$ ，就得到了我們要的GMM估計量。簡單求個導，解一下一階條件我們就有了顯性表達式：

$hat{eta}_{GMM}=(S$

其中 $S_{zx}=sum_{i-=1}^{n}{z_{i}x$ ， $S_{zy}=sum_{i-=1}^{n}{z_{i}y_{i}}$

這就是單方程GMM的一般解。

當我們選取不同的W矩陣，也就是選擇不同的空間距離度量時，GMM會變成各種我們熟悉的estimator，比如2SLS等等。

以上是關於線性模型的。

更一般的GMM，其實差別不是很大，無非是去掉了矩條件是線性的這個假設。這時候我們有：

$E(g(x,eta ))=0$

x是自變數， $eta$ 是真實參數

同樣我們也是最小化一個空間距離：

$J(hat{eta},hat{W})=n* g$

$hat{eta}_{GMM}=argmin_{hat{eta}}J(hat{eta},hat{W})$

只不過在具體求解的時候，如果g是一個很複雜的非線性函數的話，那就不一定有解析解，需要用數值逼近，然後漸進方差要用delta method計算。（這塊general的GMM具體操作方法我也不是很了解，hayashi和hansen的書上也都沒有太多介紹，可以諮詢 @慧航）

以上是最基本的GMM內容，從0開始定義。更多的重要內容，包括最優權矩陣，多方程GMM等等，還是看書吧~

推薦Bruce Hansen的Econometrics，裡面關於GMM的章節很精練，適合快速閱讀快速理解，並且是基於iid sample假設

Hayashi的Econometrics對GMM的介紹非常全面，適合進階閱讀，基於ergodic stationary假設，偏時間序列。

參考：

Hayashi, Econometrics

Bruce Hansen, Econometrics

大晚上打字好累，送大家一隻萌妹紙

今天複習GMM的時候想到了一個工具變數的找法很開森，於是愉快地決定強答一發GMM回（bao）報（fu）社會，然後發現前面三位大神已經把能填的坑都填上了。= =b。

找個沒填完的小坑，稍微灌點水吧，補充一下 @劉澈沒講完的具體的GMM提升精度的方法。

前面大神們提到了，GMM估計相當於給不同的矩條件賦予了不同的權重，然後才能這個權重得到最小化條件，不同的權重陣其實就對不同的估計量，就像 @Huang Zibin 說的，「OLS, IV, 2SLS, GLS, RE, FE, SUR, 3SLS, Pooled OLS.........全是它的特殊情況」

那麼結果來了，權重矩陣辣么多，要挑不過來，怎麼選取最好呢， @慧航也指出了，最優權重陣這樣，

當然了，根據slutsky』s theorem，拿樣本模擬總體一般錯不了。

所以樣本模擬最優權重陣的結果就是這樣：

那麼問題來了，要估計最優權重陣就要估計參數，要估計參數就要知道最優權重陣（循環一二起，要估計最優權重陣就要估計參數，要估計參數就要知道最優權重陣…）。

不要擔心，我們有Hansen（1982）。

第一種叫one-step GMM，玩不出來我就不玩了唄，沒有胡屠夫還不吃帶毛豬了，我找不到最優權重陣，我找個過的去權重陣差不多意思意思，反正滿足內生性條件之後，大樣本性質總歸是好的，至於小樣本性質，那再說吧。

一般Wn =In（單位陣）或者
=inv(Z』Z)（工具變數陣乘積的逆）

第二種叫做two-step GMM，現在不是有了參數的一個估計了嘛，那往前再走一步咯，我根據參數得到最優權重陣的一個估計，

然後再來一次GMM估計嘛。

第一二種方法有一個小小的缺陷，就是初始權重陣的選取，會影響到參數的數值（numerical value）。

第三種叫做Iterated Efficient（迭代有效）GMM，怎麼講，2步迭代不夠那3步迭代，3步不夠迭代4步，總有一步，會得到最優的估計的。那怎麼判定是不是差不多最優了呢，一般用這次迭代得到的新參數和上次的參數做差，差充分小的時候，就表示逼近已經很成功了。

第四種方法理解起來複雜，叫做Continuous-updating （連續更新）GMM。GMM估計是在最小化方程

然後最優權重陣W=

我們直接代進去嘛，這樣這個估計方程裡面不就沒有W只有參數了，然後估計參數就好了。

第三第四種方法的解，不依賴初始權重陣。理論上說，第三第四種方法的估計應該是漸進等價的，當然小樣本性質可能有所差異。

但要注意，如果矩條件不是線性的，那麼啥好說的大家都是非線性參數估計；如果矩條件是個線性的，前三種就是線性估計第四種方法還是非線性估計，相比來說，計算更加繁重，但其有限樣本性質要稍好些，另外如果存在弱工具變數的問題，其也相對穩健（robust）。

之前的答案沒有針對金融/Asset pricing的，補充一個。

-------

題主看Cochrane的Asset Pricing學GMM，是想了解宏觀金融。GMM即是Hansen and Singleton (1982)專門為了解決宏觀金融模型的參數估計問題開發的；Hansen因其突出貢獻還與其他兩位金融經濟學家共同獲得了2013年諾貝爾經濟學獎。GMM被資產定價學者開發以後，由於其泛用性，傳播到了經濟學的其他各個領域，成為了計量經濟學中的一種典型方法。

總的來說，GMM想解決的是複雜系統中的參數估計問題。對於一個複雜的含參系統，估計其中的參數是很困難的，因為你的估計策略不可能照顧到這個系統的所有特徵。GMM方法提出，如果你的估計策略不能面面俱到，那麼退而求其次，你的估計策略至少應當考慮到這個系統最重要的特徵。GMM的精髓就是這種簡化的思路。

設想你只有一個簡單的含參系統，例如一個線性均值方程E(y|X) = b0 + b1*X. 如果你想估計整個系統，那麼你只需要估計其中的參數b0與b1即可。假設方程真實成立，那麼想用數據{y, X}估計出b0與b1非常簡單：只需將y對X做最簡單的線性OLS回歸即可。

但是設想你的參數系統比較複雜，比如宏觀資產定價里最簡單的一種Euler Equation (with power utility): $E_t[eta(frac{C_{t+1}}{C_t})^{-gamma}R_{i,t+1}] = 1$ -- [1] (其中 $E_t$ 是t時刻的條件期望， $R_i$ 是市場中任意一種資產的毛收益率， $C_t$ 為t時刻的消費， $eta$ 是主觀折現因子， $gamma$ 是風險厭惡係數)。如果你想估計整個系統，那麼你只需要估計其中的參數 $eta$ 和 $gamma$ 即可。但是很顯然，假設你能拿到消費、任意資產的毛收益率等一些經濟數據，而且假設經濟數據（作為隨機變數）真的服從等式，那麼一個簡單的OLS也是不能搞定參數估計的。原因很簡單，因為這個系統太複雜了。

所以，想估計這個系統，就必須簡化問題。這個系統複雜的原因在於：

a. 式[1]對於市場上的所有資產全都成立。所以實際上式[1]包含了無窮多個方程。但是這個太複雜了，估計出使得式[1] 對於所有資產都成立的 $eta$ 和 $gamma$ 很困難。所以我們退而求其次。如果有 $eta$ 和 $gamma$ 會使得式[1] 對於所有資產都成立，那麼他們也會使得式[1] 對你認為的最重要的資產成立。比如，如果你認為一個市場中最重要的資產是市場指數與無風險債券，那麼當然式[1]對市場指數與無風險債券均成立，亦即 $E_t[eta(frac{C_{t+1}}{C_t})^{-gamma}R_{m,t+1}] = 1$ -- [2-(1)] and $E_t[eta(frac{C_{t+1}}{C_t})^{-gamma}]R_{f,t} = 1$ -- [2-(2)]。如果估計[2]就能夠成功得到 $eta$ 和 $gamma$ ，那麼就估計更為簡單的[2]好了，因為其得到的 $eta$ 和 $gamma$ 也能使[1]成立。

b. 但是，估計式[2]也太複雜了，因為式[2]仍然用「t時刻的條件期望」寫成：對於任意的時間t，[2]式都必須成立。所以式[2]實際包含了無窮多個方程，這種複雜程度使得我們沒法進行參數估計。所以，我們必須進一步簡化，簡化的方式就是將[2]中的條件期望 $E_t[~]$ 簡化為無條件期望 $E[~]$ —— 自然是通過期望迭代定律（Law of Iterated Expectations）實現。但是，如果我直接將條件期望簡化為無條件期望，我將無窮多等式簡化為兩個等式，損失的信息實在太多，這樣不好。所以，為了避免在簡化的過程中損失過多信息，我們一般會使用一些「工具變數」（instrumental variables）來豐富信息含量。

假設你認為市場中的Price-dividend ratio是比較重要的經濟變數，你希望在你的估計中體現它，那麼你就可以用它來做一個工具變數。記t時刻的Price-dividend ratio為 $z_t$ 。[2-(1)]式可以變換為： $z_tE_t[eta(frac{C_{t+1}}{C_t})^{-gamma}R_{m,t+1} -1] = 0$ ,因為 $z_t$ 是時刻t的變數，所以可以進一步變換為 $E_t[z_t(eta(frac{C_{t+1}}{C_t})^{-gamma}R_{m,t+1} -1)] = 0$ 。等式兩邊使用迭代期望定律，得到無條件期望等式 $E[z_t(eta(frac{C_{t+1}}{C_t})^{-gamma}R_{m,t+1} -1)] = 0$ -- [3-(1)]。同理，[2-(2)]式也可以變換為 $E[z_t(eta(frac{C_{t+1}}{C_t})^{-gamma}R_{f,t} -1)] = 0$ -- [3-(2)]。這樣，我們就進一步將複雜的[2-(1)][2-(2)]簡化成了[3-(1)][3-(2)]。

採用一個 $z_t$ ，我們將無窮多個式子簡化為了兩個式子，簡化程度很大。為了避免簡化程度過大，我們一般會多選用一些工具變數。每選用一個工具變數，就增加兩個無條件期望等式。比如，常數變數「1」顯然也是一個工具變數。重複上面的操作，我們得到 $E[eta(frac{C_{t+1}}{C_t})^{-gamma}R_{m,t+1} -1] = 0$ -- [3-(3)] and $E[eta(frac{C_{t+1}}{C_t})^{-gamma}R_{f} -1] = 0$ [3-(4)]。

所以，為了估計[1]，我們利用「合理選用重要資產」與「工具變數+迭代期望定律」的策略將[1]式簡化為了幾個較為簡單的等式，並且選用了多個工具變數（本例為2個）來避免簡化過度。最終，我們得到式[3]（本例包含4個式子/無條件期望等式/「矩條件」）。這個系統中有兩個參數，四個等式。等式個數多於待估參數個數，可以進行估計。需要的數據為消費、市場指數收益率、無風險收益率和Price-dividend ratio。事實上，這就是你建立的GMM問題。為了避免實際計算時可能出現的過度識別（Over-identification）問題，採取 @慧航和 @Huang Zibin 答案中的策略求解 $eta$ 和 $gamma$ 的GMM估計量：將[3]簡記成 $E[ extbf{g}(C, R_f, R_m, z; eta, gamma)] = f{0}$ ，這是一個4*1的向量等式。用樣本矩 $extbf{$ar g$} = frac{1}{T}sum_t g_t$ （平均數）替代總體矩（期望），對於一個4*4維的正定矩陣W，求解 $min_{eta, gamma} ar g$ ，得到的解即為估計結果。求解一般通過數值方法，另如需提升估計精度可以使用兩階段GMM、Continuous-updating GMM等，均數細節，不再贅述。

本例與Hansen and Singleton (1982)不盡相同。可補充閱讀Hansen and Singleton (1982)。

沒有公式的直觀理解

---------------------------------------------------------------

GMM重點在於構建moment condition

以下討論是linear GMM

Generalized Methods意味著OLS，2SLS等estimator 都可以用GMM表示，這是因為moment condition的原因

Moment Condition其實是你用於identify你的model的一個條件，就比如SLM（standard linear model）中E(X"U | X)=0 就是你用於解model的條件。

加起來Generalized Methods of Moment ，就意味著你已經超越OLS，你手上有很多moment condition，建立moment condition是重點（1 例子在Appendix）而且需要利用所有的信息。於是乎，你把這些moment condition 堆疊成matrix矩陣形式（b是你要解的模型parameter參數），並參照Least Square的思想，寫成矩陣平方，你要解的問題就變成，b=argmin m(b)"m(b)，這就是很基礎的GMM公式。

稍微拓展以下就是加上weighting matrix A，意思是你覺得每個moment condition對你model的貢獻是不一樣，而他的貢獻應該基於這個moment 包含信息的方差，如果方差越大，這個信息價值越小，所以A中的元素，應該對應moment condition 方差的倒數。

你的模型就變成

b=argmin m(b)"Am(b)

剩下的就可以交給matlab來解了，解法的intuition是求將moment condition求一階導，並設為零，講b用m(b)來表示，因為m(b)是你的moment condition的總和，包含x y（你收集數據）的信息，這樣最終b=f(x,y)，可以類比b=inv(X"X)X"Y，你就用數據identify出你model的parameter了。

最後，推薦一本很好，很直觀的書 Microeconometrics Cameron and Trivedi

http://www.centroportici.unina.it/centro/CameronTrivedi.pdf

如果決定數學很複雜的話，可以跳過數學，想想直覺上他想幹什麼，然後結合學過的理論，加上一些notation，就是你看到的公式了。

----------------------------------------------

Appendix

（1）

很多moment condition的例子就是比如你要estimate 警察多少對犯罪率的影響，這會在當期數據嚴重的內生性的問題，因為你期望警察多犯罪少，但往往這一期的警察多是由於犯罪率高才多的，所以你需要一個典型的假設，今天shock不會影響過去的決策，就是過去的警力不會因為今天犯罪高而多，因為不可預測，所以你就有了 Cov(x_t-1, u_t )=0 （可以作為一個moment condition）但過去警力與今天的警力是有關係的 Cov（x_t, x_t-1）
e不等 0。如果你有很多期的話，滾動回去，你就有很多IVs（moment condition）

高票回答的內容寫得非常好！確實讓人佩服！我這邊從GMM發展歷程上梳理下，希望能從另一方面幫助理解。

其實在統計學習世界裡， GMM有高美美和廣美美之分，Gaussian mixture model vs Generalized moment method。這裡我們討論的是廣美美GMM，是一個諾貝爾經濟學獎的發明，是如何又廣又美了的呢？

引文

Lars Peter Hansen 漢森，美國人，博士畢業於明尼蘇達大學University of Minnesota，憑藉發明了GMM獲得了2013年諾貝爾經濟學大獎。這裡八卦下，他的老婆蔣人瑞是華人，岳父蔣碩傑是民國時期最傑出經濟學家。

誕生

GMM 發表在1982年，一共27頁。其中部分證明發表在2012年，有16頁的補充證明。或許知道要獲諾貝爾經濟學大獎了，順勢補全下下證明。

這篇論文裡面，滿滿的全是數學證明，有興趣可以去讀下下。所以學好經濟學本身，對數學的掌握也是要認證對待的。

歷程

那麼，漢森是如何發明廣義矩估計的呢？他在他的論文裡面並沒有說起思想的來源和發展。因此這裡我只能按圖索驥的推測。首先，從他引用論文開始，我們發現他很認真的強調了2階段最小二乘法2SLS和3階段最小二乘法 3SLS。譬如在他的論文裡面對1， 2， 5 和11 都特彆強調了。前面我們說過，Theil發明的2SLS可以看成是工具變數IV的泛化，那麼為什麼這裡要不停的強調3SLS？

我們大膽卻又合理的假設， 3SLS觸發了漢森發明GMM的靈感。那麼如何來證實這個3SLS可以引出GMM呢？在說明這個之前，先要說明3SLS存在的意義。

為什麼要有2SLS

當存在測量誤差的時候， E(X, U) = 0 就不滿足了，或者特殊的一階自相關的時候， 2SLS就可以發揮神奇了，並且對於E(X, U) ≠ 0 的情況下，工具變數IV也是極好的處理辦法。

我們稍微從另外一個角度回顧一下，對於線性的估計來說，最優估計要求 E(X, U) = 0 。而經典的最小二乘法OLS就是直接求導這個最優的過程。

既然2SLS有存在的必要的，那麼為什麼要有3SLS呢？

為什麼要有3SLS

當除了E(X, U) ≠ 0 測量誤差時候，還有似不相關seemingly unrelated regressions (SUR)的情況的時候，就需要3SLS了。

似不相關SUR也的確如它的名字一樣，有m個參數估計，表面上看是m個獨立的表達式，完全可以使用m個2SLS去進行參數估計。

但是骨子裡還是有相關的地方的，就在於這些誤差在同一時刻的時候相關的，而不同時刻的時候不想關。

那麼，對於利用矩陣統一後， SUR的m個回歸的協方差矩陣就會不太一樣了。

這裡要特別注意的是，這個矩陣和之前我們看到的一個表達式裡面的協方差矩陣很不一樣，為什麼呢？因為上面這個矩陣的每個元素都是矩陣。而經典的協方差矩陣每個元素都是標量。

另外，根據SUR特殊的同一時間的相關性，我們知道只有對角線存在元素。這種情況，我們可以使用廣義最小二乘法GLS進行處理的。

其實，某種意義上，這種只有對角線存在元素的情況，只要加權最小二乘法WLS進行處理就好了。

這樣我們把3SLS的過程總結如下：
1）先用2SLS進行獨立的參數估計
2）估算協方差矩陣
3）估計FGLS結果

這樣，當不存在SUR的情況的時候，那麼3SLS就是2SLS的獨立解。因為Σ是嚴格對角陣。

2SLS作為IV -&> 3SLS作為廣義IV

在矩陣滿秩情況下， 2SLS和IV是嚴格等價的。現在3SLS情況下，我們完全可以把2SLS退化成工具變數IV了，由第三階段FGLS進行泛化。這種泛化的工具變數也是漢森當時考慮的熱點。幾乎和GMM論文同時發表，並且進行循環引用的另外一篇論文（Generalized Instrumental Variables Estimation of Nonlinear Rational Expectations Models）說明了漢森當時的這種考慮。