為什麼變數間的相關關係會使變數係數不能通過t檢驗?
01-11
謝邀。你說的這叫多重共線性。這個問題回答很多次了,本不想回答。不過你想問為什麼,可以從這麼幾個方面來思考。
從線性代數來考慮,想一個極端情況,如果是完全共線會發生什麼?對,矩陣不可逆了。如果不是完全共線,僅僅是強相關,那麼矩陣的逆矩陣就會非常不穩定(可以用條件數判斷),稍微一點擾動就會造成結果很大的改變。
當然更直接的是考慮係數的協方差矩陣。相關性越強,則其逆矩陣的對角線越大,也就是係數方差越大(julia&> a=[1 0.9;.9 1]
2x2 Array{Float64,2}:
1.0 0.9
0.9 1.0
julia&> inv(a)
2x2 Array{Float64,2}:
5.26316 -4.73684
-4.73684 5.26316
julia&> a=[1 0.2;.2 1]
2x2 Array{Float64,2}:
1.0 0.2
0.2 1.0
julia&> inv(a)
2x2 Array{Float64,2}:
1.04167 -0.208333
-0.208333 1.04167
還有,最直白的理解,你的工作經驗每年都在增加,時間也在一年又一年,你怎麼知道你的收入增加是因為工作經驗還是大的趨勢?這個時候你能用的信息很少,因為兩個一起變,相關性很高。但是你中途間隔年了,工作經驗不增加了,時間還在走,這個時候相關性就低了,你才可以看到底咋回事。
請看伍德里奇的計量經濟學導論第四版第三章定理3.2的證明以及書中對於多重共線性的解釋。伍德里奇的書還是入門級別的,所以理解起來應該不難。
謝邀。極簡答案:會增大t統計量的分母。更深奧的數學證明和直觀理解,請牛人補充。
多重線性回歸模型中幾個變數間的相關性太高,它們的係數就很可能不正確。
推薦閱讀: