什麼是winsorize處理?

在Stata中會用到


上下1%極端值處理

如果一個樣本某變數的值大於該變數的99分位數,則該樣本的值被強制指定為99分位數的值;類似的,如果一個樣本某變數的值小於該變數的1分位數,則該樣本該變數的值被強制指定為1分位數。


接樓上 winsor是處理異常值的方法 先執行ssc install winsor2,replace 安裝winsor程序包 再執行winsor2 變數名1 變數名2,suffix(w)cut(1,99) 就可以生成新的處理過後的變數


stata數據處理中縮尾處理 處理極端值 以免極端值最後對峰值偏度什麼的產生影響


Winsorize變換其實挺簡單的,對於給定分位數界限(比如5%),對於超出上下界的部分用分位數代替,這樣可以減少極端值對於分布的影響。演算法挺簡單的,用Excel都能完成。

之前我在使用gretl的時候發現gretl沒有這個函數,於是順手寫了個包提交了……


推薦閱讀:

三個月內如何快速學會辦公三大件 excel word ppt ?
數學系學生向數據分析師發展所需培養的硬技能?
數據挖掘和數據分析之間的聯繫,搞數據分析基礎是啥?就業情況怎樣?
請各位大牛推薦幾本關於「Python 數據挖掘」方面的書??
職業規劃:Data Scientist(數據科學家) 和 Software Developer,如何選擇?

TAG:數據分析 | 數據統計 | Stata |