如何理解計量經濟學中的「檢驗過度識別約束」？

01-06

如何理解計量經濟學中的「檢驗過度識別約束」（Testing overidentifying restrictions）？

開一個腦洞，我們以一個不那麼計量的問題講一下什麼是「過度識別」。

我們假想這麼一個問題。在一塊平地上，有兩個基站，一個人手持接受設備可以測量到基站的距離，兩個基站的坐標分別為：(0,0), (10,0)

現在假想，如果一個人站在(2,0)處，那麼可以測量出到兩個基站的距離分別為2和8，聯立：

$x^2+y^2=4$

$(x-10)^2+y^2=64$

可以解出唯一解，即(2,0)，我們稱這種有唯一解的情況為「恰好識別」。

然而，這個恰好識別的情況出現的非常特殊。比如仍然是這兩個基站，如果一個點位於(6,3)：

那麼同樣解方程：

$x^2+y^2=45$

$(x-10)^2+y^2=25$

很可惜，在這種情況下，設備不能確保自己在(6,3)還是(6,-3)的位置，這種有不止一個解的情況，我們稱之為「不能識別」。

有什麼解決辦法呢？如果我們在除去x軸的任何一個地方放一個新的基站，比如在(10,0)處放一個新的基站：

這個時候，我們聯立三個方程：

$x^2+y^2=45$

$(x-10)^2+y^2=25$

$x^2+(y-10)^2=85$

這個時候，解唯一了，三個圓確定一個點，仍然能達到「恰好識別」。

什麼是「過度識別」呢？如果我們有第四個基站，比如在(10,10)這個位置：

現在我們有四個基站都可以用來測量，聯立四個方程，仍然能得到未知的位置坐標。

然而我們很清楚，如果測量是準確的，只用三個基站就可以了。只是如果測量是有誤差的，比如對四個點測量的距離為：(28,49, 82, 68)，真實值為(25,45,85,65)，那麼任意三個或者全部四個沒有一個唯一的交點：

這個時候可以使用一定的演算法（比如簡單的取任意兩個圓的兩個交點中距離最近的三個點的幾何平均）估算出位置坐標。可以想像，基站越多，對於自身位置的信息也越多，對於位置坐標的估算就越準確。

講到這裡，那麼問題來了，為什麼還要做「過度識別檢驗」呢？

我們之前的結論都是建立在所有基站都是work的，或者都是真實的假設下。但是有沒有一種情況，有人用了假的基站誤導你的定位呢？

比如在(10,10)的基站是假的，距離這個基站的距離本來是√65，但是假基站卻告訴你距離為3，那麼在計算坐標的時候，如果不加以檢驗，很容易被這個假基站誤導：

如何檢驗呢？

其實思路很簡單。我先用任意三個基站計算一個位置。雖然由於度量誤差的存在，使用任意三個基站計算的位置不可能一模一樣，但是應該大差不差（沒有顯著差別）。但是，當存在假基站的時候，使用假基站跟其他任意兩個基站計算出來的位置應該是差了很多的（有顯著差別），那麼這個時候就需要懷疑一下是不是有基站作假了。

現在回到計量上，如果你把每個基站看成是一個總體的估計條件，把自己的位置看成是要估計的參數，那麼其實恰好識別就是剛好估計有唯一解的情況，而過度識別就是你有了更多的條件，方程數大於未知數的情況。而過度識別檢驗就是為了檢驗是不是所有的條件都是對的，既然有更多的條件去估計參數，那麼用不同的估計條件估計出來的參數是不是大差不差，相互印證的？如果是，那麼很好，更多的條件很多時候可以提高估計精度；如果不是，那麼很有可能估計的條件有的是不對的。

至於具體的例子，可以看：能否用簡單的例子解釋下什麼是 Generalized Method of Moments (GMM)？ - 慧航的回答