如何運用斷點回歸的方法來檢測數據造假？

12-15

關於這個話題，下面這篇文章有研究「McCrary, Justin, 2008. Manipulation of the running variable in the regression discontinuity design: a density test. J. Econ. 142 (2), 698–714.「
希望有大神能來具體講一下。

謝邀。

（回答問題之前先問個問題，running variable 該怎麼翻譯？？）

這是08年JoE的paper，但是題主的問題問的不好，因為這篇文章講的不是用斷點回歸來檢測數據造假，而是要檢驗斷點回歸的running variable是不是被操縱（造假）。

比如我現在規定，全校學生某次考試超過90分的就可以上實驗班。因為這個90分對於學生來說是common knowledge，所以有些學生，可能本來可以考90分以上，但是為了避免上實驗班給自己太大壓力，會故意考到89分。那麼問題來了，RD的識別雖然需要的假設很少，但是關鍵假設就是，你的running variable（分數）應該是連續的。這種自己選擇的行為會導致成績在90分左右的地方分布不連續，RD就不能用了。

那麼怎麼檢驗呢？其實最簡單的就是，你可以畫個直方圖，看看在90分前後，直方圖的高度是不是差別很大。這篇文章深化了這個做法，分兩步做：

1、先畫直方圖，注意不要把90分分在一個區間裡面。對於直方圖的每一個區間，計算出區間中心的數字以及區間內的數據個數。

2、拿區間內的數據個數對區間中心做nonparametric的回歸，為了避免邊界估計很差，使用local polynomial（而非local constant）的估計，檢驗在90分處是不是有斷點，如圖：

第一張圖是沒有操縱的時候，應該是連續的。第二張圖是有操縱的時候，在cut處應該有一個跳躍。檢驗到這個跳躍，就說明RD的假設是不滿足的。

LZ可以搜索下《數據造假理論》，

裡面有介紹利用回歸分析後的殘差分析識別造假的案例。
對於統計數據的造假識別，回歸分析很好用。
對於比較抽象的數據/信息，聚類分析更合適。