計量模型變數的相關性過高怎麼辦?
計量模型變數的相關性過高怎麼辦,我現在很頭疼,本來計量就不好。現在我選得模型相關性太高了,我想改數據,但是又怕變數本身之間就有很大聯繫
第一次回答被邀的問題。。。好激動。。。
先大概說說為什麼多重共線性會有問題。
假設計量模型滿足:Y=X*b+e,為簡便假設獨立同分布以及同方差,b的OLS估計量是(X"X)^(-1)*(X"Y),條件方差是(X"X)^(-1)*sigma^2。
當嚴格的多重共線性存在時,X矩陣變成非滿秩,因此X"X不可逆,b的OLS估計值也求不出來了。當近似的多重共線性存在時,X矩陣近似非滿秩,因此X"X矩陣變成近似於一個奇異矩陣(奇異矩陣非滿秩)。這樣一個可能的後果就是估計係數的標準差變得很大,估計的精度會變得很差,結果很多係數就不顯著了。嚴格的多重共線性基本上見不到,所以以下討論的「多重共線性」指的是近似的多重共線性
多重共線性要怎麼解決呢?
根據我的認識本質上多重共線性的根本原因是樣本沒有達到「大樣本」的要求。(見Woodridge的Introduction to Econometrics)理論上「大樣本」的意義是樣本量無窮大,所以解決多重線性的一個方法是增大樣本量,前提是這一點可以做到。實際上對很多計量實證的作者而言樣本量往往是給定的(因為往往是二手數據),因此增大樣本量一般來說是不可行的。比較推薦的一個解決方法是採用嶺回歸(Ridge Regression)。大致的原理是對OLS估計量做一個修改,使得b的估計量變成(X"X+1/n*a*I)^(-1)*(X"Y),其中n為樣本量,a為某個可調整的係數,I為單位矩陣。這麼做的原因是使得X"X(現在是X"X+1/n*a*I)變得不那麼「奇異」(即不那麼「非滿秩」),從而提高係數估計的精度。
相對於無偏的OLS,嶺回歸估計量是一個有偏估計,但是在存在較為嚴重多重共線性的情形下其估計精度一般大大優於OLS,所以在均方誤差的判定標準上有可能比OLS更好。另外在大樣本下嶺回歸估計量是一個一致估計量。
對於主成分分析或者因子分析等降維方法,除非降維之後的因子和主成分具有明顯的經濟意義,否則我個人覺得還是不要作為首選。因為計量模型的設定下,每個進入模型的自變數都有其理論基礎,隨便降維把某幾個變數合併了並不一定能有很強的理論支撐在背後。
先寫這麼多吧,想到再補充。
請問是什麼類型的數據?截面數據還是時間序列? 一般來說,多重共線性的解決方法有:差分法(做一階差分),數據變換法(取對數),增加數據量,變數組合(如每月工作時間和月工資可以合併成每小時工資),或者刪除重複性變數。系統性的方法有:嶺回歸,主成分分析法(降維,將多個相關變數簡化成一兩個),偏最小二乘法以及做時序橫截面模型。
推薦閱讀:
※計量經濟學中有哪些傳神的比喻(比方)?
※計量經濟學中,如果幾個數據都是 Random Walk,加起來還是 Random Walk 嗎?
※什麼是 wald estimator?什麼是 wald test?
TAG:計量經濟學 |