一個變數的計量結果原本不顯著,但增加控制變數後變得顯著,其結果是否可信?

這樣的結果可信度高嗎?

PS:新增的控制變數具有一定必要性,但內在上可能和要觀測的變數有一定相關度;回歸方法是普通的GLS.


反對 @DY Lancelot的答案

首先,線性回歸沒有「自變數之間互相獨立」這個基本假設,高斯馬爾科夫假定只要求任何兩個不能完全線性相關,換言之,只要不完全相關就不會影響估計值的BLUE性。

多重共線性不好,只是因為它會導致估計量標準差被高估,使得顯著性等參數不可信。

所以多重共線性是有成本的,但不足以構成拒絕添加一些變數的充分理由。

你舉的那個例子,avg_ed變數的確不應該添加,但這不是因為多重共線性,而是因為它所包含的信息——父母受教育水平——已經被完全包含在其他幾個變數中了,因而從理論上說,添加這個變數沒有好處。因而在權衡取捨之後,我們不應當添加這個變數。

相反,如果某個變數包含了重要的信息,從理論上講就與被解釋變數十分相關,那我們就絕不能因為多重共線性就從回歸中剔除掉它。

回到題主的例子。從題主給出的信息看,這新變數必須添加。

原因很簡單,題主說它有一定必要性,亦即它與被解釋變數相關;然後它又與要觀測的變數相關。在這種情況下,如果不在回歸中納入這麼變數,那就意味著它被遺漏在殘差項中,會造成殘差與被解釋變數相關。這將直接導致回歸結果有偏,這是遠比多重共線性更嚴重的問題,這才是計量最忌諱的問題。


謝邀。先挖坑佔位。本人非統計非計量科班出身,請專業人士輕拍。

首先,我建議樓主一要謹慎選擇控制變數,二要重新回顧一下你的理論和假說。增加控制變數的目的有兩個:(1)排除虛假關係(spurious relationship);(2)控制變數是自變數(X)作用於因變數(Y)的制約條件。在解釋結果錢,需要仔細思考為什麼要添加這個控制變數(而不是其他控制變數);有什麼理論或實踐中的證據支持你選擇的這個變數作為你的控制變數。

再確定,還應該仔細檢查數據中所有變數的賦值(coding)、樣本的缺失值、具體選擇的模型是否合適、以及程序的代碼是否正確。

如果都沒有問題的話, 亦或者我們只是在討論線性回歸中最簡單的多變數關係的話,那麼就有可能是以下的情況:

1. 兩個自變數間存在多重共線性(multicollinearity),即存在高度相關關係。這違反線性回歸「自變數之間互相獨立」的基本假設。

借用一個網上的例子:

api00:因變數,孩子的學術表現; acs_k3:自變數,孩子的某項基本能力;grad_sch,col_grad,some_col分別代表父母的教育水平(研究教育、本科教育、一些大學教育)

在第一個回歸方程的結果里,可以看見acs_k3的p-value是0.002,,標準誤差是3.66。結果顯著。

下面,看看添加了多一個自變數(avg_ed,樣本中孩子父母的平均教育水平):

(來源:Regression with Stata Web Book: Chapter 2)

第二個回歸方程里的acs_k3結果看上去也顯著(而且標準誤差更小,R平方更大了)。但是第二個方程的結果是不能接受的:因為avg_ed這個變數實際上和其他三個關於父母教育的變數高度相關。

所以這種情況下,結果不可行,這個模型也是錯誤的。

順便一提stata里測試共線性的兩個命令:vif和collin。

2. 如果兩個變數是獨立的,那麼有可能是:

(1)新添加的變數可能吸收(或減弱了)部分的剩餘方差(residual variability,即不能被任何因素解釋的誤差)。

這個帖子里有三個非常好的答案(尤其是第四個,非常有意思),建議樓主看一下。我遲點再翻譯解釋一下。

regression - How can adding a 2nd IV make the 1st IV significant?

(2)新添加的變數是抑制變數。

抑制變數這一塊我不太懂怎麼解釋,求統計的朋友出來解釋一下。

3. 你的「控制變數」實際上並不是控制變數,而是一個會影響原先那個自變數作用於因變數的制約條件。

借用一個通俗的例子:

通過一群人的年齡、性別等數據來預測他們的身高。假設我們先假設:男性比女性高,所以可以建立了一個簡單模型:用性別來預測身高。很顯然,結果應該是不顯著的(5歲的正太怎麼可能高過20歲的少女啊)。

那麼,如果我們加入年齡(或父母的身高,或人種)這個自變數進入模型,我們就會發現:年齡和性別都同時結果顯著了。

這個結果可信嗎?我們能得出什麼結論呢?

結論就是一開始所假設的模型太簡單了,用來預測身高的信息太少了,所以原來的簡單模型預測不準確。年齡不是影響身高的最重要因素。這種情況下,你要完全修改你的理論和假說,建立一個更加完全的模型。


謝 @馮子寧 邀,但我不懂計量啊←_←。從之前的回答和提問時間看,題主應該已經把問題解決了。我來從我學過的回歸分析的角度稍微補充一下吧。

首先考慮到統計推斷主要是扯談,變數取捨還是要從模型出發。既然題主認為從模型上考慮,新加入的變數有添加的必要性,那自然可以基於添加變數後的模型進行分析。

添加新變數以後原有的某個自變數從不顯著變為顯著,的確是一很容易出現的情況。當新添加的自變數與原有的自變數正交時,這種情況尤其容易發生。通過簡單的分析,可以發現在新增自變數和原有自變數正交時,原有自變數的F值(t值)總是會增大。

考慮應變數Y和兩個分別由若干自變數張成的空間X_2X_1. 分別記X_1,X_2上的投影矩陣為P_1,P_2. 模型1是Ysim X_1,模型2為Ysim X_2+X_1. 回憶起最小二乘無非是(某種度規下)應變數在自變數張成的空間上的垂直投影。而F值則是投影長度與垂直距離之比的平方。那麼模型1中的F值為

F_1=frac{|P_1Y|^2}{|(I-P_1)Y|^2}=frac{|P_1Y|^2}{|(I-P)Y|^2+|(P-P_1)Y|^2},

其中PX_1+X_2上的投影矩陣。模型2中X_1的F值為

F_2=frac{|(P-P_2)Y|^2}{|(I-P)Y|^2}.

X_1X_2正交,則P-P_2=P_1. 那麼顯然F_1<F_2. 如果兩個模型的殘差自由度相差不大,X_1在模型2中很容易比在模型1中顯著。

我們也可以通過簡單的幾何分析來看看兩個自變數間成任意角度時F值的變化情況。

如圖表示的是Ysim X_2+X_1的模型,其中自變數X_1,X_2都是單個向量(右圖為左圖在自變數所張成的平面上的部分)。令兩個自變數間的夾角為	heta=	heta_1+	heta_2. 我們看到|P_1Y|=|PY|cos	heta_1, |(P-P_1)Y|=|PY|sin	heta_1, |(P-P_2)Y|=|PY|sin(	heta-	heta_1). 則

F_1=frac{cos^2	heta_1}{1/F+sin^2	heta_1},F_2=frac{sin^2(	heta-	heta_1)}{1/F},

其中F=frac{|PY|^2}{|(I-P)Y|^2}是整個模型2的F值。當	heta=pi/2時,

F_2=frac{cos^2	heta_1}{1/F},

F_1/F_2隨著	heta_1接近pi/2而減小。也就是說在X_1,X_2正交時,X_1相對於X_2對應變數的解釋力越差,越容易出現增加自變數後F值增大的情況。這在實際研究中可能值得重視(不了解,也可能不,畢竟統計推斷主要是扯談)。

現以F=F_{0.05, 2, 1}approx18.5為例,描繪一下F固定時,兩個模型的X_1的F值之差和p值之差在不同的	heta下隨	heta_1的變化情況。

並不知道為什麼圖片上傳完會那麼丑。。。從上圖可以看到,在很多情況下,F_1是確實比F_2小的。多個	hetaF_2-F_1 sim 	heta_1曲線的包絡也顯示了這一情況:

而兩個模型下X_1的p值比如上圖。當p_2-p_1<0時,模型2中的X_1比模型1中的更為顯著。在三種	heta下,當	heta_1接近pi/2(即X_1相對於X_2對模型解釋力不強的時候)模型2中X_1的顯著性都會較模型1增強。

多個	hetap_2-p_1 sim 	heta_1曲線的包絡也顯示了這一情況。

綜上所述,題主描述的情況確屬正常。值不值得警惕可能要看對模型的解釋符不符合具體學科的邏輯了。


同意那個匿名回答,再補充一點,遺漏變數造成的內生性不僅會造成係數估計有偏,更會造成估計的不一致。而多重共線性主要是會高估標準誤,造成變數顯著性水平降低。


把vif值列出來不就行了,多重貢獻性吵那麼久,多重共線性肯定對參數是有影響的,特別是出現了參數跟理論預期值相反的時候。上面說blue那個,多重共線性導致非滿秩,X不可逆,(向量,格林教材),或者一階偏導不存在(伍德里奇,線性代數記不太清楚了),這時候參數值已經不能用ols測度,還說什麼BLUE。

自變數個數的選擇是通過降低自由度來提高擬合優度,但是如果無限制的增加自變數個數理論上可以把r2提高到1,因比一般看調整r2,也就是加上懲罰機制後的。也可以參考aic和bic準則。

最重要的一點,回歸的假設是控制其他自變數不變的情況下對說某一因素做回歸(伍德里奇),也就是說從理論上來如果自變數之間完全獨立在方程中再增加一個自變數是不會影響原方程自變數回歸係數


推薦閱讀:

面板數據可以用非線性模型嗎?
什麼是時間序列模型,什麼是弱平穩和嚴格平穩?
如何確定此概率的上界?
二元離散模型需不需要進行設定檢驗?若需要應如何進行?
泊松回歸模型和對數線性模型的區別是什麼?

TAG:統計學 | 社會學 | 經濟學 | 計量經濟學 | 數理統計學 |