固定效應模型與隨機效應模型的區別?
謝邀。那我繼續嘗試『不用公式講計量』的系列,說說面板數據常見的兩種分析方式,固定效應和隨機效應。
面板數據和橫斷面數據的區別就在於,面板數據多了一個時間的維度。也就是說,一個人的數據不但能夠橫向的和同一時間的其他人相比,也能夠縱向的和之前之後的自己相比。如果把一個人在不同時間的數據稱為一組數據的話,那麼前者稱為組間差異,後者稱為組內差異。
在這種情況下,如果我們要估計出準確的參數,組間和組內差異都要考慮到,不然這些擾動就會鑽到估計的參數裡面去搗亂。
固定效應的辦法就是給每個人單獨的創造出一個名義變數,數據屬於這個人就為1,不屬於這個組就為0,於是這個名義變數就可以看作是承載著這個人的所有不隨著時間變化的特質的綜合。於是把這些名義變數代入進回歸方程式進行回歸,相當於『吸』走了每個人不隨著時間變化的特質組間差異,只留下了組內差異,從而得到準確的回歸結果。通俗的說,如果我們對贊數和答案質量進行回歸的話,有的人無論何時出場自帶200贊,那麼他的固定效應就會被以他的名字命名的名義變數給吸收掉,參數估計出來就是+200,而這個參數被吸附掉之後,質量和贊數之間的真實關係才會被我們估計出來。
而隨機效應則比較複雜——比如說我們考慮很多淘寶店,有的商店有很多商品,那麼我們對商店評分就可以把這些商品的評分平均,這是固定效應的估計方法;但是有的商店只有一個商品,然後評分很高——比如就是5分,如果我們還用固定效應的方法,那麼似乎有點不妥,這樣會導致商店越大,出售的東西越多,評分反而不如很小的店,那麼這個時候就需要用隨機效應來估計了,隨機效應會利用組間差異,進行估計的時候相當於在所有商店的所有商品評分的總平均值和這家商店的這一個商品的的評分之間取一個加權平均,也就是說隨機效應是利用了組間差異,然後和組內差異取一個平衡,看上去是不是客觀了許多?
至於什麼時候用什麼,用豪斯曼檢驗當然是一條路,但是豪斯曼檢驗是一個純的統計的檢驗,它並不能體現數據樣本背後的暗示,因為固定效應和隨機效應其背後的模型設定還是有挺大的區別的。
簡單的說,如果你擁有的數據是全的,比如你想研究中國的企業內部激勵,結果你的資料庫里有中國所有企業的數據。這個時候適用的就是固定效應fixed effect,因為在你看來,所謂的『組』是完全確定的,所以是可以完全控制掉——也就是用名義變數分別的吸掉個體不隨著時間改變的差異,得出更準確的計量結果。
但是如果你擁有的數據不是全的,比如你就抽樣了幾個省總共1600家企業,那麼這個時候就需要認真的考慮隨機效應random effect了。因為你的樣本中的固定效應只是總體的一個子集,還有很多很多的公司你沒有搜集到——或者說你再搜集一遍可能就是另外的1600家企業了。這個時候你需要用手頭現有的樣本去推測整體的規律,那麼random effect就可以利用同一時間下的個體間差異起到見微知著,以樣本來估計總體的效果。
我們來看Likelihood Function:
固定效應認為,效應是外生固定的,最下一行中 和 是確定值(無需假定是否和 相關);
隨機效應認為,效應是隨機的實現,最下一行中 和 與 無關且滿足特定的參數分布;
如果實際上符合隨機效應中滿足特定分布的假設,意味著對於每一個observation,其它observation也提供了信息,於是在隨機效應下GLS估計比CV估計(相當於加上dummy variable的OLS)更有效率;
反之,如果實際上是固定效應模型,CV估計是有效率的,而GLS估計則是有偏的,且在只有N趨於無窮時不一致(錯誤地利用了其它observation);
以上兩條說明可能可以用Hausmann檢驗來進行模型選擇(更具體來說,可以用Mundlak"s Formulation來保證)。
固定效應的好處在於無需假設各固定效應與解釋變數之間的關係,壞處在於固定效應需要估計更多的參數(incidental parameters),因為相當於給每個個體/時間都加一個dummy,另外不隨時間/個體變化的變數會被吸收進dummy而無法估計。
反之,隨機效應需要估計的參數是固定的(解釋變數,加上隨機效應滿足特定分布所需的參數),而且能估計不隨時間/個體變化的變數,但是所需的假設變強了。
P.S.拿著蕭政教授的課件來回答這道題,有一種「奉天承運皇帝詔曰」的感覺……
固定效應擾動項不隨時間變化,隨機效應的擾動項隨時間變化
推薦閱讀:
※如果用總體作為數據,那麼回歸係數的顯著性還有意義嗎?
※為什麼異方差只有對非線性模型來說才是致命的?
※計量經濟學中t檢驗f檢驗是什麼 他們有什麼關係?
※一個變數的計量結果原本不顯著,但增加控制變數後變得顯著,其結果是否可信?
※面板數據可以用非線性模型嗎?