虛擬變數的設置

虛擬變數的設置

假如現有4個省份,分別是山西,山西,江蘇,江西。我們可以設置3個虛擬變數加入回歸認為是控制了省份變數。那麼,假如分別對4個省份賦值,分別為山西=1,陝西=2,江蘇=3,江西=4這樣加入回歸中算是控制了省份變數嗎?這樣的解釋和虛擬變數有什麼差別?

這裡要理解虛擬變數的真正含義:是要體現出不同省份之間的差異,而並不是所謂的控制變數。而其要充分理解多元線性回歸當中參數估計量的真正含義:是偏回歸係數,即自變數的邊際量,表明了在其他條件不變的情況下,自變數每增加一個單位因變數的變化。如果按照你的理解假設X為地區變數,X的取值為1代表山西;2代表陝西;3代表江蘇;4代表江西,那麼回歸完了以後如何來解釋X前面的參數:X前面的參數表示X每增加一個單位因變數增加多少,而此時按照X的取值,陝西和山西之間相差一個單位,陝西和江蘇之間也是差一個單位、江蘇和江西之間也差一個單位,那麼這個係數究竟是說明陝西和山西之間的差別呢?還是陝西和江蘇還是江蘇和江西之間的差別呢?這顯然無法解釋。還有X前面的回歸參數是一個常數,那麼就是說陝西和山西、陝西和江蘇、江蘇和江西之間因變數的差異是相同的,這顯然是不合理的。要把四個省份用數值區分開來,那為什麼要用1,2,3,4呢?我用10,20,30,40也可以,那樣的話參數估計量就更沒法解釋了。所以,虛擬變數的定義一定是按照1和0來定義,即是就等於1,不是就等於0,比如,假設模型中有常數項,那麼可以定義3個虛擬變數,D1為陝西(是陝西D1=1,不是陝西D1=0);D2為江蘇(是江蘇D2=1,不是江蘇D2=0);D3為江西(是江西D3=1,不是江西D3=0),那麼山西呢?如果D1,D2,D3都同時為0,肯定就是山西了,這樣回歸之後D1前面的參數表明了陝西與山之間的差別;D2前面的參數表明了江蘇與山西之間的差異;D3前面的參數表明了江西與山西之間的差異,參數的經濟意義非常明確。從深層次上講虛擬變數模型實際上是解決了方差分析只能說明不同省份之間有無差異,而不能說明不同省份之間的這種差異究竟有多大的問題。


推薦閱讀:

計量經濟學十日談(一)
Day4-《The Introduction of Statistical Learning》學習筆記
計量經濟學證明常需要用的一些定理
對P值的批評|Enough,就這幾個理由顛來倒去
政治科學中的量化文本分析(二):內容分析的發展歷史

TAG:計量經濟學 | 自然科學 | 經濟學 |