數據處理-signlog
01-29
對數化是金融數據處理的常用手段,最普遍的應用是對數收益率,使累計收益率的計算從乘法降階為加法,且log(x)與(x-1)在x=1處的一階導數值相等。
知乎上對log處理已有的討論不少,但多從時間序列角度考慮。事實上,對數化處理在橫截面上的應用同樣普遍,例如對長尾分布阿爾法因子的處理。
先貼代碼:
代碼非常簡單,效果如下圖所示。儘管是signlog是分段函數,但在x=0處的左右一階導數值相等,因此是一階平滑的。相比於y=x的圖像而言,signlog(x)的左右尾部更加靠近x軸。
這一點在abs(x)較大時更加明顯,如下圖所示,曲線明顯被強力「拉向」x軸。舉例一個具體應用:size因子的處理。
size一般表徵的是流通市值或總市值,特點是右尾極值很大,下圖為A股size分布圖。
使用右2%尾部歸併處理後分布圖如下:
使用signlog處理後分布圖如下:
不難得見,尾部歸併處理過於僵硬,會造成尾部數據單調性與數值差異的損失,且結果不可逆。而signlog保留了單調性與數值差異,只是將數值差異進行了弱化,且結果可逆。
通過signlog處理,我們將一個橫截面分布非常不均的size因子,處理成一個更趨近於正態分布的因子,部分統計特徵發生改變,為size因子的研究提供了新空間。
推薦閱讀:
※【債券日評】20170502 如何理解公開市場操作
※金融賬戶涉稅信息自動交換下「投資機構」的判定
※騰天是誰?怎樣才能像他/她一樣懂這麼多?
※投行實習?