在計量經濟學的實際操作當中，如何處理預設數據?

01-05

在跑回歸的時候經常會遇到數據預設不全的情況，請問1、統計軟體（題主常用stata）一般都是怎樣處理這種數據集的？2、這樣的處理會對回歸的結果產生怎樣的影響？3、應該怎樣處理這種預設的數據？這種處理會對結果產生什麼影響？

一開始被邀請回答這個問題的時候，我是拒絕的。因為題主沒有提任何的背景，而這個問題在不同背景下的處理顯然是不一樣的。

然而剛看到了@杜小希的答案，還是忍不住過來說兩句：

我用紅色箭頭指的那句話，是錯的。我評論裡面讓她改，不知為什麼她刪掉了之前@張鑫的東西，但是這句話還是沒有改。

其實，他給的材料是可以說明一部分問題的，只是她給的材料直接把她那句話否定了：

這個東西我們研一都推過，其實說的問題是，如果缺失數據是隨機的，那麼刪去這些缺失的數據是不會導致inconsistency的，刪掉一樣做就好了。

什麼情況下是會導致inconsistency呢？當數據缺失時非隨機的時候。特別是y的缺失，更需要引起注意。這也就是Heckman的Sample selection要解決的問題。

比如@張鑫提到的企業的數據，並非樣本大就沒有問題了，要看這種缺失是不是系統性缺失。

可以說，這個問題沒有標準答案，具體問題具體分析，而且在cross sectional, panel data 和time series不同的數據類型處理方法很大，比如在panel data裡面可能直接就變成unbalanced panel了，具體怎麼處理，有些方法不是問題，有些方法海處理不成unbalanced panel。

就這樣吧。下次提問具體一點。

參考 multiple imputation 的文獻，貼一點進來：

Rubin, Donald B. 1996. 「Multiple Imputation After 18+ Years.」 JASA.
Schafer, Joseph L. 1999. 「Multiple Imputation: A Primer.」 Statistical Methods in Medical Research.
Schafer, Joseph L. and John W. Graham. 2002. 「Missing Data: Our View of the State of the Art.」 Psychological Methods.
King, Gary, James Honacker, Anne Joseph, and Kenneth Scheve. 2001. 「Analyzing Incomplete Political Science Data.」 APSR.
Blackwell, Matthew, James Honaker, and Gary King. 2012. 「Multiple Overimputation: A Unified Approach…」 Working paper.

總結一下文獻的話：

數據完全是因為隨機原因丟失的（和樣本無關），如果樣本足夠大，可以刪；樣本不夠大，則做 multiple imputation.
數據的丟失原因可以用樣本內信息預測，則做 multiple imputation.
樓上提到的 EM 演算法不錯，但是 EM 演算法只能給出點估計，你需要 S.E. 則需要做模擬，參考上邊 King APSR 的文章，推薦了幾種演算法幫你搞定 EM 之後 S.E. 的問題。

要我說的話，直接換貝葉斯方法，貝葉斯方法對於參數和缺失數據的處理都是一樣的，MCMC 完畢之後既能給你參數的後驗分布，又能給你缺失數據的後驗分布，配合 JAGS 連代碼都不用怎麼寫，絕對碉堡。

EM不好么？

原理上伍德里奇說的很清楚，可以去看看：NBER: Missing Data。

- 只要當你隨機抽樣以後，直接刪去缺失數據都會導致各種各樣的偏誤或者不擬合的情況。

- 而Stata默認忽略。

- 具體情況具體分析。可以設定矩陣（correlate、pwcorr）、可以改變權重、可以改變時間維度（比如取平均值可以是該變數在不同時間維度上的均值而非同個時長下的）等。

MCMC插值

均值

刪除

方法一大堆

上課的時候，教授說過缺失數據，如果是Numeric,可以用Median代替