樣本選擇偏差(Sample Selection Bias)

02-05

1簡單歷史回顧

樣本選擇偏差(sample selection bias) 的研究工作始於諾貝爾獎得主Heckman. 1979年他在計量經濟學領域發表了一篇著名的論文」Sample Selection Bias as A Specification Error」 [1].之後,在統計學領域以及計量經濟學領域對於樣本選擇偏差的研究,基本上集中在線性回歸上面.

2004年,Zadrozny將樣本選擇偏差引入機器學習領域[3],研究了(a)在有偏樣本的情形下,哪些學習模型的學習會受到影響，哪些不會; (b)提出了樣本選擇偏差糾正理論.關於(a),區別於把機器學習模型分為判別學習模型(discriminant learning model)與生成學習模型(generative learning model)的傳統分類方法，作者提出了一種新的分類方法: 把機器學習模型分為局部學習模型(local learner)與全局學習模型(global learner).並針對當時流行的五種不同的學習模型:貝葉斯分類器,樸素貝葉斯，邏輯斯特回歸, 決策樹,SVM進行了歸類.在進行學習時，若將要學習的概率模型與真實的概率模型處於同一參數空間(i.e. without model misspecification)[2]，那麼這個有偏的樣本不會對學習造成不良影響.貝葉斯分類器，邏輯斯特回歸,硬間隔線性SVM都屬於局部學習模型.而樸素貝葉斯，決策樹與軟間隔線性SVM屬於全局學習模型.關於(b),樣本選擇偏差糾正理論的作用在於:在知道選擇概率等條件的情況下，可以利用已產生的有偏樣本來估計一個假設h的泛化誤差.其實,這個理論與[2]中的importance sampling identity 有極高的相似度,兩者的主要區別在於：文獻[1]是處在sample selection bias 的環境下，針對分類問題,使用的是一般的損失函數；文獻[2]是處在covariate shift的環境下，針對回歸問題，使用的是log損失.但其實，後面我們將看到，sample selection bias 其實是covariate shift裡面的一種特殊情況而已.樣本選擇偏差糾正理論對後來的基於樣本加權的遷移學習方法提供了理論支撐.本文以下部分主要圍繞樣本選擇偏差的非正式定義以及相應的糾正理論展開論述.

參考文獻

[1] Heckman. Sample Selection Bias as A Specification Error. 1979

[2]H. Shimodaira. Improving predictive inference under covariate shift by weighting the log-likelihood function. Journal of Statistical Planning and Inference. 2000.

[3]Zadrozny. Learning and evaluating classifiers under sample selection bias. ICML2004.

[4]Corinna Cortes. Sample Selection Bias Correction Theory. 2008