數量化投資模型 常用的基礎數據處理方法(四)

  9、概率密度函數PDF

  概率密度函數PDF(Probability Density Function)可以查閱到的定義很簡明:描述隨機變數的輸出值,在某個確定的取值點附近的可能性的函數。PDF的函數值高低,描述了數據在哪個區域分布高低。

  如果要舉個例子,用正態分布最容易理解:

  比如正態分布,在μ處數據分布最多(我們描述為概率密度值越高),所以函數值最高。在左右兩側,概率密度值降低,說明數據點分布變得稀少。

  這個函數圖像上,f(x)是指隨機變數X(大寫X,變數集合)在觀察值為x(小寫x,某個數值)時的概率密度值,可不是概率值。PDF函數曲線與X軸所圍成的面積表示概率,該面積等於1,因為隨機變數的所有可能取值(即:100%)都在X軸上。

  μ是變數X的均值,如果是標準正態分布,μ=0。比如我們理解為,數據量很大的情況下,股票每日漲跌幅服從類似正態分布的概率密度函數。實際上股票價格服從的是尾部更肥碩,表示極端大漲大跌更多,右偏,表示上漲總體情況還是偏多,這樣的一種類似正態的分布。

中證500指數歷史漲跌幅分布情況,將價格做price2ret之後,用histfit繪圖

左側明顯肥尾,整體峰度偏向右側

  左右側的-1σ(sigma)和+1σ(sigma),界定了變數在1個標準差內的分布情況。

  對於服從正態分布的變數,其觀測值:

  落在距均值的距離(xi-μ),為1倍標準差範圍內的概率為0.68,

  落在距均值的距離(xi-μ),為2倍標準差範圍內的概率為0.95,

  落在距均值的距離(xi-μ),為3倍標準差範圍內的概率為0.9973。

  我們常用的布林帶設置上下軌=2倍標準差,然後突破交易的含義為:當前值與均值的距離,突破2倍標準差(之前統計量有5%的數據是這樣分布),即做趨勢追蹤交易。

  當然最簡單的情況,是均勻分布的密度函數。它的概率密度函數:

  也就是說,當x不在區間[a,b]上的時候,函數值等於0;而在區間[a,b]上,每個瞬時的函數值相等,都等於這個函數1/b-a。反覆去記憶PDF的概念,在某個確定的取值點附近的可能性,一個均勻分布的變數,在定義域內取值的可能性,都是恆定的。

  上圖是連續型均勻分布的概率密度函數,分布概率始終相等,這個PDF圖像看起來和隨機變數的PDF相比,顯得非常奇怪,但是這樣真實地表達了,在區間[a,b]上,分布的密度情況是完全不變的,均勻的。

  還可以記憶一個定義:任何連續概率密度在(負無窮,正無窮)積分後結果都是1。這裡利用定積分的性質,其結果是一個數值而不是一個函數,對於一個給定的正實值函數,在一個實數區間上的定積分可以理解為:在坐標平面上,由PDF函數曲線、直線以及軸圍成的曲邊梯形的面積值。隨機變數X取到其具體某個值x的所有概率之和等於100%,這個積分值就等於1。

  10、累計概率分布CDF

  CDF(cumulative distribution function)的概念是:它完整描述一個實數隨機變數X的概率分布,是概率密度函數的積分。PDF是密度,CDF是分布,一定要區分清楚,兩者也有很多聯繫。

  CDF作為概率的累計情況,其圖像的縱軸,是累計概率。橫軸是隨機變數X的分位數。

  它表示了隨機變數小於或者等於某個數值的概率P(X<=x),即:f(x) ==""><>

  以上圖中的紅線(均值=1,標準差=1的正態分布隨機變數)為例:

  階段1(x<>從左向右看,隨著樣本值越來越多,CDF的曲線開始緩慢上行。你可以理解為X取到小於-2值的概率非常小,往Y軸上對應可以看到,大概在0.05左右。

  階段2(-2<><>x=-1個標準差的時候,由於樣本值在這個區間密度增加,CDF曲線開始加速上行,取到這個部分任何數值(-2,2)的概率都在快速增加。這一段的CDF函數值在0.05~0.95之間,你可以理解為,大部分取值的可能性都在這個區間發生了。

  階段3(x>2時):CDF曲線再次減速緩慢上行,但是依然是上行的。和區間1類似,由於隨機變數X在這部分的值已經不集中了,自然,X取到某個值小x的概率,也就變得更小,增量最後趨近於0,函數值趨近於1。

  剛才我們談到了CDF曲線上行的速度,實際上累積分布函數存在以下幾個特點:

  累積分布函數是X軸單調遞增函數。對於給定的數據集,累積分布函數是唯一的。累積分布函數值趨近於1。

  你有沒有發現CDF和PDF的關係?

  其實很簡單,PDF描述了CDF的變化趨勢,即PDF是CDF曲線的斜率。PDF無論如何是一個大於0的數,表示了斜率無論如何也不會到0軸以下(即CDF永遠是增加的),PDF最終趨近於0,代表上升速度變緩(即CDF最終逐漸地累計上升到趨近於1)。

  另外CDF和PDF的橫軸X都是一樣的,它表示了將變數X按順序排列。

  最後放上中證500的漲跌幅CDF圖像:可以看到,我放置了兩個游標,x小於-0.04(跌幅超過4%)的分布總量大概是y=0.04936,也就是大約5%的下跌日,其幅度都是超過4%幅度的。

  而x=0.04011對應的y=0.9742,意味著超過4%漲幅的日上漲天數,不足總體樣本的3%。可見A股下跌起來都比較猛,而漲起來比較慢。這是符合行為金融學的,不過最終總體趨勢還是上漲的,因為上漲的天數,還是要多一些,雖然幅度小。

  所以CDF方便的幫助我們觀察到,大於橫軸某一數據點(分位數)的數據點,佔總體的比例。

  原文鏈接依然是車票。


推薦閱讀:

鉤針基礎教程----鉤花片
素描基礎-眼睛結構詳解
肱三頭肌的基礎進階丨窄距俯卧撐
[基礎理論]中國政治思想通史的貫通性理解與整體性呈現

TAG:數據處理 | 投資 | 量化 | 數據 | 方法 | 模型 | 處理 | 基礎 |