幾種常見的概率分布

04-25

Geomotric Distribution (幾何分布)

幾何分布滿足的性質

進行一系列的獨立實驗，這個實驗的次數可能有限，也可能無限次做下去
每一次實驗有兩種結果，成功或者失敗，且每單次實驗成功或失敗的概率相同
重點感興趣的是取得第一次成功需要進行多少次實驗

幾何分布的期望是 E(X)=1/p ,方差Var(X)=q/p^2
與二項分布的區別在於，它是關注第一次成功的概率，而二項分布則是關心n次獨立事件中有多少次成功，多少次失敗的概率

Geomotric Distribution 的python實現過程

#首先導入科學計算包from scipy import statsimport numpy as npimport matplotlib.pyplot as pltk=5# 表示第k次做某件事才取得第一次成功p=0.6 #表示單次實驗取得成功的概率X=np.arange(1,k+1,1)Plist=stats.geom.pmf(X,p)# 這裡並沒有傳入參數kPlistarray([ 0.6 , 0.24 , 0.096 , 0.0384 , 0.01536])#幾何分布可視圖plt.plot(X,Plist,marker="o",linestyle="None")plt.vlines(X,0,Plist)plt.title("Geomotric Distribution:p=%2f"%p,fontsize=15)plt.xlabel("隨機變數：第一次成功的次數",fontsize=15)plt.ylabel("概率")plt.show()

由此看出幾何分布成功次數的眾數為1

二項式分布：

二項式分布的性質：

1 試驗是由一個包括n次相同的試驗的序列組成

2 每次實驗有兩種結果，成功和失敗，且每次成功的概率相同

3 試驗都是相互獨立的

4 關心的是n次試驗中成功或失敗的次數，這點與幾何分布不同

二項式分布的期望，方差公式：

$E(X)=mu=np$

$Var(X)=sigma^{2}=np(1-p)$

import numpy as npimport matplotlib.pyplot as pltfrom scipy import statsn=100p=0.09X=np.arange(0,n+1,1)Plist=stats.binom.pmf(X,n,p)# 在此要輸入一個參數n，實驗次數Plistarray([ 8.01935118e-005, 7.93122644e-004, 3.88281470e-003, 1.25444783e-002, 3.00860701e-002, 5.71304716e-002, 8.94625517e-002, 1.18815257e-001, 1.36604904e-001, 1.38106057e-001, 1.24295451e-001, 1.00578737e-001, 7.37761613e-002, 4.93919862e-002, 3.03562992e-002, 1.72130224e-002, 9.04393005e-003, 4.41965812e-003, 2.01555838e-003, 8.60313523e-004, 3.44598109e-004, 1.29832882e-004, 4.61094802e-005, 1.54652915e-005, 4.90725596e-006, 1.47541234e-006, 4.20922794e-007, 1.14096288e-007, 2.94196474e-008, 7.22392251e-009, 1.69087417e-009, 3.77614579e-010, 8.05283837e-011, 1.64113789e-011, 3.19846848e-012, 5.96511861e-013, 1.06519975e-013, 1.82226034e-014, 2.98791675e-015, 4.69782347e-016, 7.08545353e-017, 1.02550118e-017, 1.42475439e-018, 1.90064347e-019, 2.43514011e-020, 2.99709552e-021, 3.54410483e-022, 4.02720353e-023, 4.39783902e-024, 4.61580772e-025, 4.65638625e-026, 4.51491879e-027, 4.20769059e-028, 3.76886240e-029, 3.24425884e-030, 2.68356276e-031, 2.13273728e-032, 1.62823205e-033, 1.19387230e-034, 8.40535911e-036, 5.68054489e-037, 3.68401398e-038, 2.29189810e-039, 1.36722336e-040, 7.81740003e-042, 4.28205851e-043, 2.24583488e-044, 1.12715348e-045, 5.40989952e-047, 2.48136815e-048, 1.08681588e-049, 4.54171625e-051, 1.80920015e-052, 6.86314073e-054, 2.47660113e-055, 8.49120386e-057, 2.76246511e-058, 8.51566239e-060, 2.48343493e-061, 6.83989590e-063, 1.77574220e-064, 4.33636680e-066, 9.93726512e-068, 2.13138746e-069, 4.26612090e-071, 7.94209967e-073, 1.37002742e-074, 2.18041498e-076, 3.18567124e-078, 4.24808611e-080, 5.13504915e-082, 5.58090114e-084, 5.39958185e-086, 4.59375981e-088, 3.38329282e-090, 2.11333502e-092, 1.08859977e-094, 4.43974076e-097, 1.34416910e-099, 2.68565255e-102, 2.65613989e-105])#畫出二項式分布圖plt.plot(X,Plist,marker="o",linestyle="None")plt.vlines(X,0,Plist)plt.title("Binomial:i=%d,p=%2f"%(n,p),fontsize=15)plt.xlabel("隨機變數：成功的次數",fontsize=15)plt.ylabel("概率",fontsize=15)plt.show()# 表示當n很大，大於50，概率p較小，小於0.1，就近似服從泊松分布# 當np>5,npq>5,Binomial就近似服從正態分布

泊松分布 Poisson Distribution

泊松分布的性質

單獨事件在給定區間內，隨機獨立的發生，給定的區間可以時間，也可以使空間
已知該區間內的事件平均發生的次數，(也可稱為發生率)

泊松分布的計算公式： $P(X=r)=frac{e^{-lambda}lambda^{r}}{r!}$
泊松分布的期望和方差都為發生率： $lambda$
二項分布與泊松分布的關係

當二項分布的實驗次數n很大時，一般大於50時，且概率p很小，一般小於0.1時，可以用泊松分布來對二項式分布取近似

當X,Y 是；兩個獨立變數，且都符合泊松分布，則X+Y也符合泊松分布

P(X+Y)=P(X)+P(Y)
E(X+Y)=E(X)+E(Y)
即X+Y~Po(lambda1+lambda2)

對Poisson Distribution 在Python中實現

import numpy as npimport matplotlib.pyplot as pltfrom scipy import statslam=2k=4X=np.arange(0,k+1,1)Xarray([0, 1, 2, 3, 4])plist=stats.poisson.pmf(X,lam)plistarray([ 0.13533528, 0.27067057, 0.27067057, 0.18044704, 0.09022352])#可視化圖形plt.plot(X,plist,marker="o",linestyle="None")plt.vlines(X,0,plist)plt.title("Poisson Distribution:lambda=%d"%lam,fontsize=15)plt.xlabel("隨機變數：該區間上發生事故次數")plt.ylabel("概率")plt.show()

正態分布 Normal Distribution

正態分布概率計算的三個步驟
確定分布與範圍
使其標準化：標準化過程中，我們利用標準分的概念，其實就是對原來的正態分布進行平移，壓縮或者擴展
利用概率表查找概率

import numpy as npimport matplotlib.pyplot as pltfrom scipy import statsmu=0sigma=1X=np.arange(-5,5,0.1)y=stats.norm.pdf(X,mu,sigma)# 可視化plt.plot(X,y)plt.xlabel("隨機變數")plt.ylabel("概率")plt.show()

總結：二項式分布，泊松分布，正態分布三者之間的關係

1 當X服從二項分布時，樣本大小n（一般n>50）很大，且p(一般p<0.1)值很小，這時我們可以利用泊松分布來近似求解二項分布中所要求的概率大小。

2 當X服從二項式分布，有時候也可以用正態分布來近似求解二項式分布所要求的概率，一般需滿足以下條件：np>5,np(1-p)>5,可以使用正態分布去近似。

3 當X服從泊松分布時，當 $lambda$ ( $lambda>15$ )很大時，從圖形上可以發現泊松分布與正態分布很接近，此時可以利用正態分布去近似泊松分布。

注意：二項式分布和泊松分布是離散型概率分布，而正態分布是連續型概率分布，所以用正態分布去對這倆種分布進行近似時，一定要進行連續型修正。