標籤:

數據處理-signlog

對數化是金融數據處理的常用手段,最普遍的應用是對數收益率,使累計收益率的計算從乘法降階為加法,且log(x)與(x-1)在x=1處的一階導數值相等。

知乎上對log處理已有的討論不少,但多從時間序列角度考慮。事實上,對數化處理在橫截面上的應用同樣普遍,例如對長尾分布阿爾法因子的處理。

先貼代碼:

代碼非常簡單,效果如下圖所示。儘管是signlog是分段函數,但在x=0處的左右一階導數值相等,因此是一階平滑的。相比於y=x的圖像而言,signlog(x)的左右尾部更加靠近x軸。

這一點在abs(x)較大時更加明顯,如下圖所示,曲線明顯被強力「拉向」x軸。

舉例一個具體應用:size因子的處理。

size一般表徵的是流通市值或總市值,特點是右尾極值很大,下圖為A股size分布圖。

使用右2%尾部歸併處理後分布圖如下:

使用signlog處理後分布圖如下:

不難得見,尾部歸併處理過於僵硬,會造成尾部數據單調性與數值差異的損失,且結果不可逆。而signlog保留了單調性與數值差異,只是將數值差異進行了弱化,且結果可逆。

通過signlog處理,我們將一個橫截面分布非常不均的size因子,處理成一個更趨近於正態分布的因子,部分統計特徵發生改變,為size因子的研究提供了新空間。

推薦閱讀:

【債券日評】20170502 如何理解公開市場操作
金融賬戶涉稅信息自動交換下「投資機構」的判定
騰天是誰?怎樣才能像他/她一樣懂這麼多?
投行實習?

TAG:量化 | 金融 |