數量化投資模型常用的基礎數據處理方法（四）

07-25

　　9、概率密度函數PDF

　　概率密度函數PDF(Probability Density Function)可以查閱到的定義很簡明：描述隨機變數的輸出值，在某個確定的取值點附近的可能性的函數。PDF的函數值高低，描述了數據在哪個區域分布高低。

　　如果要舉個例子，用正態分布最容易理解：

　　比如正態分布，在μ處數據分布最多（我們描述為概率密度值越高），所以函數值最高。在左右兩側，概率密度值降低，說明數據點分布變得稀少。

　　這個函數圖像上，f(x)是指隨機變數X（大寫X，變數集合）在觀察值為x（小寫x，某個數值）時的概率密度值，可不是概率值。PDF函數曲線與X軸所圍成的面積表示概率，該面積等於1，因為隨機變數的所有可能取值（即：100%）都在X軸上。

　　μ是變數X的均值，如果是標準正態分布，μ=0。比如我們理解為，數據量很大的情況下，股票每日漲跌幅服從類似正態分布的概率密度函數。實際上股票價格服從的是尾部更肥碩，表示極端大漲大跌更多，右偏，表示上漲總體情況還是偏多，這樣的一種類似正態的分布。

中證500指數歷史漲跌幅分布情況，將價格做price2ret之後，用histfit繪圖

左側明顯肥尾，整體峰度偏向右側

　　左右側的-1σ（sigma）和+1σ（sigma），界定了變數在1個標準差內的分布情況。

　　對於服從正態分布的變數，其觀測值：

　　落在距均值的距離（xi-μ），為1倍標準差範圍內的概率為0.68，

　　落在距均值的距離（xi-μ），為2倍標準差範圍內的概率為0.95，

　　落在距均值的距離（xi-μ），為3倍標準差範圍內的概率為0.9973。

　　我們常用的布林帶設置上下軌=2倍標準差，然後突破交易的含義為：當前值與均值的距離，突破2倍標準差（之前統計量有5%的數據是這樣分布），即做趨勢追蹤交易。

　　當然最簡單的情況，是均勻分布的密度函數。它的概率密度函數：

　　也就是說，當x不在區間[a,b]上的時候，函數值等於0；而在區間[a,b]上，每個瞬時的函數值相等，都等於這個函數1/b-a。反覆去記憶PDF的概念，在某個確定的取值點附近的可能性，一個均勻分布的變數，在定義域內取值的可能性，都是恆定的。

　　上圖是連續型均勻分布的概率密度函數，分布概率始終相等，這個PDF圖像看起來和隨機變數的PDF相比，顯得非常奇怪，但是這樣真實地表達了，在區間[a,b]上，分布的密度情況是完全不變的，均勻的。

　　還可以記憶一個定義：任何連續概率密度在（負無窮，正無窮）積分後結果都是1。這裡利用定積分的性質，其結果是一個數值而不是一個函數，對於一個給定的正實值函數，在一個實數區間上的定積分可以理解為：在坐標平面上，由PDF函數曲線、直線以及軸圍成的曲邊梯形的面積值。隨機變數X取到其具體某個值x的所有概率之和等於100%，這個積分值就等於1。

　　10、累計概率分布CDF

　　CDF（cumulative distribution function）的概念是：它完整描述一個實數隨機變數X的概率分布，是概率密度函數的積分。PDF是密度，CDF是分布，一定要區分清楚，兩者也有很多聯繫。

　　CDF作為概率的累計情況，其圖像的縱軸，是累計概率。橫軸是隨機變數X的分位數。

　　它表示了隨機變數小於或者等於某個數值的概率P（X<=x），即：f(x) ==""><>

　　以上圖中的紅線（均值=1，標準差=1的正態分布隨機變數）為例：

　　階段1（x<>從左向右看，隨著樣本值越來越多，CDF的曲線開始緩慢上行。你可以理解為X取到小於-2值的概率非常小，往Y軸上對應可以看到，大概在0.05左右。

　　階段2（-2<><>x=-1個標準差的時候，由於樣本值在這個區間密度增加，CDF曲線開始加速上行，取到這個部分任何數值（-2,2）的概率都在快速增加。這一段的CDF函數值在0.05~0.95之間，你可以理解為，大部分取值的可能性都在這個區間發生了。

　　階段3（x>2時）：CDF曲線再次減速緩慢上行，但是依然是上行的。和區間1類似，由於隨機變數X在這部分的值已經不集中了，自然，X取到某個值小x的概率，也就變得更小，增量最後趨近於0，函數值趨近於1。

　　剛才我們談到了CDF曲線上行的速度，實際上累積分布函數存在以下幾個特點：

　　累積分布函數是X軸單調遞增函數。對於給定的數據集，累積分布函數是唯一的。累積分布函數值趨近於1。

　　你有沒有發現CDF和PDF的關係？

　　其實很簡單，PDF描述了CDF的變化趨勢，即PDF是CDF曲線的斜率。PDF無論如何是一個大於0的數，表示了斜率無論如何也不會到0軸以下（即CDF永遠是增加的），PDF最終趨近於0，代表上升速度變緩（即CDF最終逐漸地累計上升到趨近於1）。

　　另外CDF和PDF的橫軸X都是一樣的，它表示了將變數X按順序排列。

　　最後放上中證500的漲跌幅CDF圖像：可以看到，我放置了兩個游標，x小於-0.04（跌幅超過4%）的分布總量大概是y=0.04936，也就是大約5%的下跌日，其幅度都是超過4%幅度的。

　　而x=0.04011對應的y=0.9742，意味著超過4%漲幅的日上漲天數，不足總體樣本的3%。可見A股下跌起來都比較猛，而漲起來比較慢。這是符合行為金融學的，不過最終總體趨勢還是上漲的，因為上漲的天數，還是要多一些，雖然幅度小。

　　所以CDF方便的幫助我們觀察到，大於橫軸某一數據點（分位數）的數據點，佔總體的比例。

　　原文鏈接依然是車票。

數量化投資模型 常用的基礎數據處理方法（四）

數量化投資模型常用的基礎數據處理方法（四）