如何運用斷點回歸的方法來檢測數據造假?
關於這個話題,下面這篇文章有研究「McCrary, Justin, 2008. Manipulation of the running variable in the regression discontinuity design: a density test. J. Econ. 142 (2), 698–714.「
希望有大神能來具體講一下。
謝邀。
(回答問題之前先問個問題,running variable 該怎麼翻譯??)
這是08年JoE的paper,但是題主的問題問的不好,因為這篇文章講的不是用斷點回歸來檢測數據造假,而是要檢驗斷點回歸的running variable是不是被操縱(造假)。
比如我現在規定,全校學生某次考試超過90分的就可以上實驗班。因為這個90分對於學生來說是common knowledge,所以有些學生,可能本來可以考90分以上,但是為了避免上實驗班給自己太大壓力,會故意考到89分。那麼問題來了,RD的識別雖然需要的假設很少,但是關鍵假設就是,你的running variable(分數)應該是連續的。這種自己選擇的行為會導致成績在90分左右的地方分布不連續,RD就不能用了。
那麼怎麼檢驗呢?其實最簡單的就是,你可以畫個直方圖,看看在90分前後,直方圖的高度是不是差別很大。這篇文章深化了這個做法,分兩步做:
1、先畫直方圖,注意不要把90分分在一個區間裡面。對於直方圖的每一個區間,計算出區間中心的數字以及區間內的數據個數。
2、拿區間內的數據個數對區間中心做nonparametric的回歸,為了避免邊界估計很差,使用local polynomial(而非local constant)的估計,檢驗在90分處是不是有斷點,如圖:
第一張圖是沒有操縱的時候,應該是連續的。第二張圖是有操縱的時候,在cut處應該有一個跳躍。檢驗到這個跳躍,就說明RD的假設是不滿足的。
LZ可以搜索下《數據造假理論》,
裡面有介紹利用回歸分析後的殘差分析識別造假的案例。
對於統計數據的造假識別,回歸分析很好用。
對於比較抽象的數據/信息,聚類分析更合適。
推薦閱讀:
※正態分布隨機變數的和還是正態分布嗎?
※醫患糾紛是否降低了從醫意願?
※對於候選人來說,「10 人錄取 1 人」和「100 人錄取 10 人」兩種規則難度一樣嗎?
※基於次線性期望(Sublinear expectation)的概率論體系有何價值?