加入某個控制變數後原解釋變數不顯著了是什麼原因?

折磨許久找不到除了換題以外的解決方法…求大神支招

回歸中加入某控制變數後,解釋變數就不顯著了(沒加前很顯著),新加入的控制變數顯著性很高,回歸中還有其他顯著的控制變數,都沒有共線性。原因是什麼呢,難道我只能通過換解釋變數的方式解決問題嗎??


額……這不是很正常的事情么。建議lz 複習一下 mediator variable 的概念。


問題在於數學對象的語言誤讀。加了不同的控制變數,原來的回歸係數定義相應發生變化,數學上可能從正(顯著)變零(不顯著),甚至可能從正變負。放幾頁課件,講一下多數教材在回歸章節的這個盲點:

1.

上面這個式子不涉及統計與分布的個體差異,懂初中數學的同學都應該看得懂、推得出。

2.

然後給出違和感的由來:因為短時記憶窄帶寬,自動省略某個細節信息,導致誤讀。下面解釋省略了什麼信息

3.

真相大白:控制其它X變數(IV=Independent Variable)不變,這半句話的省略造成最後的誤讀

4. 第一遍學這個知識點,可以自測一下上面的第3種說法「父親收入+1;同時母親收入-1 」,不同的人頭腦中的解讀可能不同!

有經驗的研究者預期父親收入與母親收入相關不低,比如0.5,在研究的群體中,如果兩個個案父親收入差距為1,母親收入的差距自動預期為0.5,從0.5變成-1是-1.5的變化程度,需要選那種母親原生家庭階層比父親原生家庭階層低非常多的特殊個案。語文成績與數學成績類似,這種特殊個案的偏科程度比字面上第一印象的解讀要嚴重得多。

現在流行的大多數教材都把這個(回歸係數名字引發的第一印象解讀 ≠ 數學內容的)效度問題避而不談,只談(多重共線性引起的標準誤放大的)信度問題。這是錯誤的。因為可以設計出很極端的數據讓父親收入與家庭總收入相關很低(父親收入與母親收入負相關),這個時候信度問題沒了但效度問題仍然存在。

這其實是教學層面比較基礎的問題。我自己上世紀就學了回歸,十幾年都沒有意識到這個問題,後來2008年開始教書,大約在2009年偶然發現。2010年我博士畢業到復旦作 Job Talk 仔細講了這個問題,發現還真是一個很普遍的盲點,所有到場的同行都是第一次了解到。

  • 與中介模型的關係

@gesellschaft 的回答一語中的,熟悉中介變數的研究者與初學者對這個問題感覺非常不同。中介模型 X → M → Y ,改變M的內涵(不是改變M的水平),X 到 Y 的「直接效應」的數學定義就發生了改變。然後可以發現「直接效應」這個術語也是誤導的,其實這個效應並不會更直接,相反,這個效應是「剩餘的、過程未被研究的」。回歸方程中X_2, X_3, ...,X_k內涵的選擇(不是數量的選擇)決定了X_1回歸係數eta_1的內涵,這個命題在中介模型里就是 M 內涵的選擇決定了 X 到 Y 所謂的「直接效應」的內涵。

可能因為中介模型太強調因果方向。即使很熟悉中介模型的研究者,多數人也沒有留意到:如果 X 的內涵改變,居然導致中介模型中 M 到 Y 的回歸係數內涵改變。我的意思是:熟悉中介模型對這個現象的理解有幫助,但是「回歸係數的內涵效度受其它自變數內涵影響」這個現象,與中介或者因果方向都沒有關係,適用於所有情形的回歸方程解讀。


因為共線性 樓主怎麼判斷他們沒有共線性?


確定沒有共線性?你後加的變數是個干擾變數,與解釋變數存在競爭性。換句話說,原解釋變數很可能解釋力不足,真正的核心解釋因素應該是後加入的變數。

往模型中加控制變數是門手藝。二三十年前,學術界的定量研究傾向於在模型中加各種變數直到整體模型解釋力最強(其實,變數越多,決定係數值必然越大,因此研究者通常會把所有相關變數一股腦加到模型當中)。近些年來,隨著定量研究的精細化發展,學者們的模型設置準則發生了改變。對某個關鍵因素影響的評估成為了著重關注點,加入其他變數是為了輔助評估關鍵因素的影響。如果我們關注的核心相關性在模型加入控制變數後不再成立,那麼很大程度上可以判定其為虛假關係。James Lee Ray在Explaining Interstate Conflict and War: What Should Be Controlled for?一文中提醒定量研究者不能一味在模型中加變數。他給出了四條控制變數的加入原則:

第一,控制干擾變數(confounding variable,也叫confounder)而非中介變數(intervening variable,也叫mediator)。干擾變數和中介變數的共同點在於,只要放入模型中,關鍵因素的影響都可能減小甚至消失(p值變大,顯著性降低),但這種變化的原因卻完全不同。干擾變數先於自變數和因變數發生並對二者同時產生影響,而中介變數是指自變數通過該變數而對因變數產生影響的中間因素(見下圖,圖片credit to田宇學長)。控制干擾變數可以剔除由於第三個因素對自變數和因變數產生影響造成的雙變數(只有AC)模型的係數和顯著性的誇大,但是如果被控制變數是中介變數,回歸結果會對研究者造成誤導,把本來存在的A對C的影響給過濾掉後得出錯誤的結論(棄真錯誤)。

B作為中介變數(mediator)

B作為干擾變數(confounder)

B作為調節變數(moderator)

第二,區分補充性解釋因素(complementary explanatory factors)和競爭性解釋因素(competing explanatory factors)。區分二者的關鍵在於,模型中加入控制變數後,研究者關注的核心變數(自變數和因變數)關係是增強還是減弱了,背後的原因是變數A和C是否相關。如下圖所示,A和B的二元相關係數為0.4,加入變數C後左邊的自變數和因變數的相關方向改變,而右圖的相關係數反而加強。對於前者,變數C相對變數A是競爭性因素,或者稱為干擾變數,通常用於發展新理論時用以證明新解釋優於原有解釋;對於後者,變數C是補充性解釋因素,或稱調節變數,與變數A間存在交互作用。

C作為干擾變數,競爭性

C作為調節變數,補充性

基於以上兩條原則得出第三條,不要因為某個變數對因變數有影響就把它當作控制變數放入模型。比如說對於國際衝突這個因變數,很難判別在眾多可能的自變數中哪些因素是重要的。因此,Christopher Achen提出了「三變數規則」:任何含有超過三個解釋變數的模型設置都是毫無意義的。Lee Ray認為,也許變數控制不必如此嚴格,比較理想的做法是添加那些有清晰理論支撐的變數,而不是把所有可能相關的變數一股腦的加到模型中。他還駁斥了KKV為了解決遺漏變數偏誤問題而同時控制所有可收集到的變數的觀點,指出在大量相關變數不可能全部收集到的情況下遵循KKV的原則只會使多元分析的結果更加令人困惑無從解釋。最後,不要控制那些與核心解釋變數或其他控制變數定義重合的變數。定義相近的變數的分析結果顯示顯著相關性只反映定義的關聯而不是真實世界的因果關聯,換句話說,不要玩「概念遊戲」。

總結一下,研究者在設置模型時應該如何操作?理論應作為實證檢驗的先導,因此首先我們要根據理論假設和邏輯推演畫出一幅完整的因果關係圖(因果機制的可視化),釐清不同因素間如何影響,是單向還是雙向影響,是直接還是間接影響,因素的聯結遵循相關路徑還是非相關路徑。其次,檢驗核心解釋變數與被解釋變數間是否存在顯著相關關係,在不加入其他控制變數的情況下運行二元回歸。如果二者無顯著相關性,則模型多半不成立;反之,嘗試在模型(通過forward selection, backward elimination或者stepwise regression等方法)中加入其他有理論依據支撐的控制變數,並關注操作後模型的相關參數的變化。


Have a look at this post. How can adding a 2nd IV make the 1st IV significant?

Adding new variables into the model can make original variables insignificant, or even significant.


我也不是很懂,但是大學統計學課本不是告訴我們先看看correlation matrix么~


推薦閱讀:

市場調研中如何做數據分析?
數據分析如何轉數據挖掘?
一般通過什麼軟體收集、分析和可視化數據?
怎樣分析烘焙店客戶滿意度數據,怎樣撰寫研究報告?
數據化的自我都用哪些???

TAG:統計學 | 數據分析 | 線性回歸 | 多元線性回歸 | Stata |