為什麼變數間的相關關係會使變數係數不能通過t檢驗?


謝邀。你說的這叫多重共線性。

這個問題回答很多次了,本不想回答。不過你想問為什麼,可以從這麼幾個方面來思考。

從線性代數來考慮,想一個極端情況,如果是完全共線會發生什麼?對,矩陣不可逆了。如果不是完全共線,僅僅是強相關,那麼矩陣的逆矩陣就會非常不穩定(可以用條件數判斷),稍微一點擾動就會造成結果很大的改變。

當然更直接的是考慮係數的協方差矩陣。相關性越強,則其逆矩陣的對角線越大,也就是係數方差越大(sigma^2(X),下面舉個例子,看看相關性為0.9和0.2其逆矩陣的對角線元的大小。

julia&> a=[1 0.9;.9 1]
2x2 Array{Float64,2}:
1.0 0.9
0.9 1.0

julia&> inv(a)
2x2 Array{Float64,2}:
5.26316 -4.73684
-4.73684 5.26316

julia&> a=[1 0.2;.2 1]
2x2 Array{Float64,2}:
1.0 0.2
0.2 1.0

julia&> inv(a)
2x2 Array{Float64,2}:
1.04167 -0.208333
-0.208333 1.04167

還有,最直白的理解,你的工作經驗每年都在增加,時間也在一年又一年,你怎麼知道你的收入增加是因為工作經驗還是大的趨勢?這個時候你能用的信息很少,因為兩個一起變,相關性很高。但是你中途間隔年了,工作經驗不增加了,時間還在走,這個時候相關性就低了,你才可以看到底咋回事。


請看伍德里奇的計量經濟學導論第四版第三章定理3.2的證明以及書中對於多重共線性的解釋。伍德里奇的書還是入門級別的,所以理解起來應該不難。


謝邀。極簡答案:會增大t統計量的分母。更深奧的數學證明和直觀理解,請牛人補充。


多重線性回歸模型中幾個變數間的相關性太高,它們的係數就很可能不正確。


推薦閱讀:

Logistic 回歸模型的參數估計為什麼不能採用最小二乘法?

TAG:統計學 | 回歸分析 | 回歸模型 | 線性回歸 | 多元線性回歸 |