在計量經濟學的實際操作當中,如何處理預設數據?
在跑回歸的時候經常會遇到數據預設不全的情況,請問1、統計軟體(題主常用stata)一般都是怎樣處理這種數據集的?2、這樣的處理會對回歸的結果產生怎樣的影響?3、應該怎樣處理這種預設的數據?這種處理會對結果產生什麼影響?
一開始被邀請回答這個問題的時候,我是拒絕的。因為題主沒有提任何的背景,而這個問題在不同背景下的處理顯然是不一樣的。
然而剛看到了@杜小希 的答案,還是忍不住過來說兩句:
其實,他給的材料是可以說明一部分問題的,只是她給的材料直接把她那句話否定了:
什麼情況下是會導致inconsistency呢?當數據缺失時非隨機的時候。特別是y的缺失,更需要引起注意。這也就是Heckman的Sample selection要解決的問題。
比如@張鑫 提到的企業的數據,並非樣本大就沒有問題了,要看這種缺失是不是系統性缺失。
可以說,這個問題沒有標準答案,具體問題具體分析,而且在cross sectional, panel data 和time series不同的數據類型處理方法很大,比如在panel data裡面可能直接就變成unbalanced panel了,具體怎麼處理,有些方法不是問題,有些方法海處理不成unbalanced panel。
就這樣吧。下次提問具體一點。參考 multiple imputation 的文獻,貼一點進來:
- Rubin, Donald B. 1996. 「Multiple Imputation After 18+ Years.」 JASA.
- Schafer, Joseph L. 1999. 「Multiple Imputation: A Primer.」 Statistical Methods in Medical Research.
- Schafer, Joseph L. and John W. Graham. 2002. 「Missing Data: Our View of the State of the Art.」 Psychological Methods.
- King, Gary, James Honacker, Anne Joseph, and Kenneth Scheve. 2001. 「Analyzing Incomplete Political Science Data.」 APSR.
- Blackwell, Matthew, James Honaker, and Gary King. 2012. 「Multiple Overimputation: A Unified Approach…」 Working paper.
總結一下文獻的話:
- 數據完全是因為隨機原因丟失的(和樣本無關),如果樣本足夠大,可以刪;樣本不夠大,則做 multiple imputation.
- 數據的丟失原因可以用樣本內信息預測,則做 multiple imputation.
- 樓上提到的 EM 演算法不錯,但是 EM 演算法只能給出點估計,你需要 S.E. 則需要做模擬,參考上邊 King APSR 的文章,推薦了幾種演算法幫你搞定 EM 之後 S.E. 的問題。
EM不好么?
原理上伍德里奇說的很清楚,可以去看看:NBER: Missing Data。
- 只要當你隨機抽樣以後,直接刪去缺失數據都會導致各種各樣的偏誤或者不擬合的情況。
- 而Stata默認忽略。
- 具體情況具體分析。可以設定矩陣(correlate、pwcorr)、可以改變權重、可以改變時間維度(比如取平均值可以是該變數在不同時間維度上的均值而非同個時長下的)等。MCMC插值 均值 刪除 方法一大堆
上課的時候,教授說過缺失數據,如果是Numeric,可以用Median代替
推薦閱讀:
※PSL 亮相!央行發行1萬億支援國開行,對金融從業者,老百姓有什麼影響?
※菲律賓為何從亞洲最富裕的國家之一變成今天高度貪腐、政治混亂、嚴重貧富差距、經濟後於四小龍的現狀?
※國家新發行的貨幣算是財政收入嗎?
※滬市和深市有什麼區別?
※經濟學的經典通俗的書有哪些推薦?