計量模型變數的相關性過高怎麼辦？

01-23

計量模型變數的相關性過高怎麼辦，我現在很頭疼，本來計量就不好。現在我選得模型相關性太高了，我想改數據，但是又怕變數本身之間就有很大聯繫

第一次回答被邀的問題。。。好激動。。。

先大概說說為什麼多重共線性會有問題。

假設計量模型滿足：Y=X*b+e，為簡便假設獨立同分布以及同方差，b的OLS估計量是(X"X)^(-1)*(X"Y)，條件方差是(X"X)^(-1)*sigma^2。

當嚴格的多重共線性存在時，X矩陣變成非滿秩，因此X"X不可逆，b的OLS估計值也求不出來了。

當近似的多重共線性存在時，X矩陣近似非滿秩，因此X"X矩陣變成近似於一個奇異矩陣（奇異矩陣非滿秩）。這樣一個可能的後果就是估計係數的標準差變得很大，估計的精度會變得很差，結果很多係數就不顯著了。

嚴格的多重共線性基本上見不到，所以以下討論的「多重共線性」指的是近似的多重共線性

多重共線性要怎麼解決呢？

根據我的認識本質上多重共線性的根本原因是樣本沒有達到「大樣本」的要求。（見Woodridge的Introduction to Econometrics）理論上「大樣本」的意義是樣本量無窮大，所以解決多重線性的一個方法是增大樣本量，前提是這一點可以做到。實際上對很多計量實證的作者而言樣本量往往是給定的（因為往往是二手數據），因此增大樣本量一般來說是不可行的。

比較推薦的一個解決方法是採用嶺回歸（Ridge Regression）。大致的原理是對OLS估計量做一個修改，使得b的估計量變成(X"X+1/n*a*I)^(-1)*(X"Y)，其中n為樣本量，a為某個可調整的係數，I為單位矩陣。這麼做的原因是使得X"X（現在是X"X+1/n*a*I）變得不那麼「奇異」（即不那麼「非滿秩」），從而提高係數估計的精度。

相對於無偏的OLS，嶺回歸估計量是一個有偏估計，但是在存在較為嚴重多重共線性的情形下其估計精度一般大大優於OLS，所以在均方誤差的判定標準上有可能比OLS更好。另外在大樣本下嶺回歸估計量是一個一致估計量。

對於主成分分析或者因子分析等降維方法，除非降維之後的因子和主成分具有明顯的經濟意義，否則我個人覺得還是不要作為首選。因為計量模型的設定下，每個進入模型的自變數都有其理論基礎，隨便降維把某幾個變數合併了並不一定能有很強的理論支撐在背後。

先寫這麼多吧，想到再補充。

請問是什麼類型的數據？截面數據還是時間序列？

一般來說，多重共線性的解決方法有：差分法（做一階差分），數據變換法（取對數），增加數據量，變數組合（如每月工作時間和月工資可以合併成每小時工資），或者刪除重複性變數。

系統性的方法有：嶺回歸，主成分分析法（降維，將多個相關變數簡化成一兩個），偏最小二乘法以及做時序橫截面模型。