概率論(2)
4、期望、方差、標準差
對於概率分布,有一些重要的指標被用來更簡單、直觀地描述一種概率的幾個關鍵特性,期望、方差、標準差是其中最重要的幾個。
期望(mean),從離散分布的角度可以理解為所有取值的加權平均值,而連續分布可以用取值趨向於無窮多的離散分布來逼近。從直觀上理解,期望代表了對平均結果的估計。期望值一般記為希臘字母繆 μ。
下面以正態分布為例,我們重新繪製一個正態分布曲線,同時將其期望值標記出來。從圖上可以很容易看到,其實期望 μ 可以理解為分布曲線下方積分區域(桔色部分)的重心位置。
下面是指數分布和伽馬分布的期望:
方差(variance),則用來描述一個概率分布,其隨機變數取值的離散程度。離散程度對概率的重要程度不言而喻,比如有兩個人射箭,一個人每箭都射中靶心,射中點的期望就在靶心;另一個人每箭都射偏了,但是射中點的期望可能也在靶心,但是很顯然,第二個人的射箭技術要差得多,因為射中點很離散。
對於隨機變數 X,其期望,則方差 。
從離散分布的角度去理解,方差就是所有取值和期望值的差的平方(可以理解為非負的距離,能夠表示這個取值和期望值的遠近,越遠代表偏差越大)的期望值,也就是說,這個值代表了所有取值和期望值之間偏差大小的一個平均估計。類似的,連續分布也可以通過離散分布逼近去理解。
方差的平方根就是標準差(standard deviation,簡寫std),一般用希臘字母西格瑪 σ 表示。方差和標準差都描述了概率分布的離散程度,方差或者標準差越大,離散程度越大。
標準差 σ 有個很有意義的使用場景,對於任意一種分布,其任意一個隨機變數偏離期望值大於一個或幾個標準差 σ 的可能性,只和分布的類型有關。如下圖,對於正態分布,隨機變數位於一個 σ 內的概率約 68%,2σ 內的概率約為 95%,3σ 內的概率約為 99.7%……。工業界著名的「六西格瑪」管理,就和這個 σ 有關(但這其中還考慮了零件規格誤差引起的期望值偏移等因素,和單純的正態分布 6σ 並不完全等同)。
那麼不同類型的分布和 σ 有沒有類似的關係呢?有一個切比雪夫不等式回答了這個問題:對於任意數據分布,位於期望值附近 k 個標準差範圍內的概率總是大於 。
也就是說:
數據至少有 75% 的概率位於期望值附近的 2σ 範圍內
數據至少有 89% 的概率位於期望值附近的 3σ 範圍內
……
5、多維隨機變數
當然,在現實中更普遍的情況是某件事情和很多因素有關,比如一個產品的銷量,會和價格有關、同時也和質量有關、還可能和營銷投入多少有關,等等。顯然,我們需要同時估計這些因素產生的影響,那麼,就需要聯合考慮各個因素(隨機變數)的分布。
先假設有兩個隨機變數 X、Y 需要考慮,同時這兩個隨機變數都符合正態分布。那麼從圖形上想像一下,這應該是一個 3D 的曲面,並且需要滿足不管是 X 軸還是 Y 軸方向,任意截面上都應該呈現正態分布的形態。
%matplotlib inlineimport numpy as npimport scipy.stats as statsfrom matplotlib import pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Drv = stats.multivariate_normal([0, 0])x, y = np.mgrid[-5:5:0.1, -5:5:0.1]z = rv.pdf(np.dstack((x, y)))ax = Axes3D(plt.figure())ax.plot_surface(x, y, z, cmap=rainbow)plt.show()
既然單一隨機變數的概率密度曲線下的面積代表了概率,顯然兩個隨機變數形成的概率密度曲面下的體積代表了多維分布的概率。由此推廣到 N 個隨機變數,雖然無法通過 3D 圖形來直接可視化,但是從思維上可以將多維隨機變數的概率密度對應到 N 維空間曲面下的「體積」,由此又可以將概率計算問題轉變為多維空間中的積分問題。
6、協方差與相關係數
對於多維隨機變數,有一個重要的問題,不同維度的隨機變數之間有沒有聯繫?比如現在考察水體樣本的某個特性,分別觀察了兩個隨機變數 X 和 Y,其中 X 代表了水的重量、Y 代表了水的體積。顯然,X 和 Y 存在很強的聯繫,因為重量等於水的密度乘與體積。
概率中定義了一個協方差(Covariance)的概念:
可見,協方差也是一個期望,反映的是不同隨機變數取值的偏離程度相乘後的一個平均估計,這個值可以用來描述兩個隨機變數相互關聯的程度。但是由於隨機變數的取值多種多樣,因此需要一個歸一化的變數來反映更普遍的關係,這個變數就是相關係數 ρ :
相關係數 ρ 的取值為 -1 ~ 1 之間。
先看一種極端情況,如果 X 取值始終為 ,那麼不管 Y 如何分布,X 和它都沒有關係,這種情況也可以理解為 X 取值和 沒有任何偏離,但是 Y 和 存在離散的偏離,顯然,這表明 X 和 Y 沒有任何聯繫,Cov(X, Y) = 0,ρ = 0。另一種極端情況,如果 X 和 Y 的分布完全相同,那麼 Cov(X, Y) = E( (X - )^2 ) = ^2,ρ = 1,兩者完全正相關,當然,如果 ρ = -1 則代表兩者完全負相關。因此, ρ 是一個非常有效的描述兩個隨機變數是否相關的指標。
推薦閱讀:
※各種空間
※隨機、賭徒謬誤、小數定律,概率論中最簡單的智慧!
※概率收斂、均方收斂、分布收斂、幾乎處處收斂區別與聯繫的直觀解釋?
※#fight math# 概率論學習心得
※集成學習
TAG:概率論 |