內生性和選擇性偏誤有什麼區別？

01-23

感覺實際問題中很多時候既可以說有內生性問題，又可以說是selection bias

selection bias是內生性的一種特殊情況。比如最經典的設定：

$Y^*=X$

$D=1{Z$

Y*只有在D=1的時候才能被看到，在Z的某些外生性假定下，可以得到：

$E(Y^*|Z,D=1)=X$

也就是說，真實看到的Y實際上是：

$Y=X$

如果直接做OLS，忽略了ρ，而ρ又是跟X相關的，所以OLS的regressor跟誤差項相關了。所以從這個方面來說，選擇偏差就是遺漏變數帶來的內生性問題。

========

回答 @田心雨的問題。

如果也有內生性，假設：

$Y^*=X$

$D=1{Z$

$W=Z$

注意由於selection equation一般需要一個額外的外生變數，W還需要一個工具變數，所以一般Z比X至少要多兩個變數。

這裡有一個設定上比較微妙的東西，就是W是只有D=1時可見呢，還是無論D取何值都可見。

先不管，計算reduced-form：

$E(Y^*|Z,D=1)=X$

這其中 $E(u|vgeq-Z$ 這一項跟上面一樣，可以假設u和v的聯合正態，用inverse-mills ratio做。

下面就要分情況討論了。

如果不管d的值，W都能看到，那麼可以輕易的估計出γ。在一般的模型裡面，沒有 $E(e|vgeq-Z$ 這一項，因為沒有v。但是現在有了這一項之後，雖然e和Z是條件獨立的，但是e和v是不是獨立的呢？如果是，那麼這一項就可以忽略，就可以直接使用上面的方法調整selection bias，再使用2SLS，只不過需要調整方差，因為有generated regressor。
如果e和v不是獨立的，需要多做一步，也是一個inverse-mills ratio。

如果W是離散的，而且Y也是離散的，乾脆直接設定(e,u,v)的聯合正態做極大似然吧。

簡單地回答：在 treatment effects 文獻中，這兩者是同一個問題的不同表述。

假設 Y(1) 是接受 treatment 後的結果， Y(0)是沒有接受 treatment 的結果，D＝1 代表接受 treatment, 否則 D=0。我們普遍關心的是 Average Treatment Effects (ATE): E[Y(1)-Y(0) ]。

在最理想的情況下 -- ideal randomized experiment，D 是外生的，或者說：是否接受 treatment是一個和任何其他因素不相關的變數。在這種情況下，我們說不存在 selection bias。我們可以將 Y=Y(1)*D + Y(0)*(1-D) 直接回歸到 D 而得到ATE的一致估計。

在現實情況中，D往往是內生的，或者說：是否接受 treatment是一個和某些其他因素相關的變數。在這種情況下，我們說會有 selection bias，導致OLS不是一致的。

通俗地講：如果D是外生的，那麼 control group 和 treatment group 的人群特徵是一樣的，直接比較兩個群體的平均結果就可以得到ATE。但如果D是內生的，control group 和 treatment group 的人群特徵不一樣，這兩組的平均結果的差別可能是其他因素造成的。

舉個經典的例子: 我們想知道，接受高等教育能不能帶來更高的收入。通常的做法是比較一群高中畢業的人和一群大學畢業生的工資。在現實中，我們是不能安排別人的教育水平的，因此是否接受大學教育這一 treatment 是和很多個人和家庭因素相關的 --- 有沒有上大學這一變數是內生的。換個說法，大學畢業生和沒上過大學的人的很多條件都是不一樣的（比如父母收入，父母受教育水平，智商。。。），這叫 selection bias。因此，即使我們發現大學生的平均工資比沒上過大學的人的平均工資高，也不能得出上大學可以提高收入的結論，因為這個出現這個差異有可能是僅僅是因為上大學的人平均智力水平高，而上大學本身並不能幫助我們提高收入。

內生性就是模型中的解釋變數與隨機擾動項即error term相關，是計量模型中最為常見的一種問題之一，在實際數據分析中很難避免。

一般出現原因為 1.丟失解釋變數，且該變數與模型中其他解釋變數關聯明顯。2.解釋變數和被解釋變數關係明顯含因果關係。

selection bias是指收集的sample並不是完全隨機的。

總而言之，內生性屬於模型構建方面問題。至於selection bias，則是sample內部的問題。二者沒啥關係。。。