離散和連續概率分布

06-08

離散和連續概率分布

一.離散概率分布

1.伯努利分布

分布的作用：

可以用於輔助決策。比如你知道明天下雨概率是80%，你出門帶傘。

如何檢驗：

伯努利試驗僅有兩個互斥結果，比如明天是否下雨，就是伯努利試驗，僅有下雨和不下雨兩種情況。

概率計算：

定義隨機變數

import scipy.stats as stats #統計計算包的統計模塊import pandas as pdimport numpy as np #數組包import matplotlib.pyplot as pltX= np.arange(0,2,1)Xarray([0, 1])p=0.5plist=stats.bernoulli.pmf(X,p)plistarray([ 0.5, 0.5])plt.plot(X, plist, marker=o,linestyle=None)plt.vlines(X, 0,plist) plt.xlabel(隨機變數 : 拋硬幣一次)plt.ylabel(概率)plt.title(伯努利分布：p = %.2f % p)plt.show()

x2 = np.arange(0,5,1)x2array([0, 1, 2, 3, 4])p = 0.5 n = 5plist2= stats.binom.pmf(x2,n,p)plist2array([ 0.03125, 0.15625, 0.3125 , 0.3125 , 0.15625])plt.plot(x2,plist2,marker=o,linestyle=None)plt.vlines(x2,0,plist2)plt.xlabel(隨機變數：拋硬幣正面朝上次數)plt.ylabel(概率)plt.title(二項分布: p=%.2f %p)plt.show()

#二項分布累計分布函數x2= np.arange(0,5,1)y = scipy.stats.binom.cdf(x2,n,p)plt.plot(x2, y, marker=o)plt.show()

2. 幾何分布

分布的作用：可以用於輔助決策。比如你想要知道你賭博十次，第一次贏的概率是多少。

如何檢驗：1、做某件事的次數是固定的，次數為N2、每一次事件都有兩個可能的結果3、每一次成功的概率都相等，成功概率記為P4、想要知道第K次做某件事才能取得第一次成功的概率。

概率計算：

#定義隨機變數k = 5x3 = np.arange(1,k+1, 1)x3array([1, 2, 3, 4, 5])p = 0.5 plist3 = scipy.stats.geom.pmf(x3, p)plt.plot(x3, plist3,marker=o,linestyle=none)plt.vlines(x3,0,plist3)plt.xlabel(隨機變數)plt.ylabel(概率)plt.title(幾何分布： p=%.2f% p)plt.show()

3.泊松分布

分布的作用：

可以用於輔助決策。比如某個路口平常每天平均發生兩起事故，你想知道如果發生4起的概率是多少。

如何檢驗：

1、事件是獨立事件

2、在任意相同的時間範圍內，事件發生的概率相同

3、你想知道某個時間範圍內，發生某件事情K次的概率是多大。

概率計算：

#定義隨機變數hist = 2 #定義某路口每天發生事故的比率是2次k=4 #想知道某路口發生4次事故的概率是多少x4=np.arange(0,k+1,1)x4array([0, 1, 2, 3, 4])#計算概率密度函數plist4= scipy.stats.poisson.pmf(x4, hist)plist4array([ 0.13533528, 0.27067057, 0.27067057, 0.18044704, 0.09022352])plt.plot(x4, plist4 ,marker = o,linestyle = none)plt.vlines(x4,0 ,plist4)plt.xlabel(隨機變數)plt.ylabel(概率)plt.title(泊松分布：平均值 hist =%i %mu)plt.show()

二.連續概率分布

1.正態分布

#生成正態分布mean =950std = 50nor = scipy.stats.norm(mean,std)nor<scipy.stats._distn_infrastructure.rv_frozen at 0xc237588>#繪製正態分布密度分布x = np.arange(700,1200,1)y = nor.pdf(x)plt.plot(x, y)plt.show()

#繪製正態分布的累計密度分布x = np.arange(700,1200,1)y=nor.cdf(x)plt.plot(x,y)plt.show()

知道概率求置信區間，分三種情況

1.計算小於1000出現的概率

# 繪製PDF曲線x=np.arange(700,1200,1)y= nor.pdf(x)plt.plot(x, y)#在1000處繪製豎線plt.vlines(1000, 0, nor.pdf(1000))#填充顏色x2 =np.arange(700, 1000, 1)y2 =nor.pdf(x2)plt.fill_between(x2,y2, color = cyan,alpha =0.1)#設置X軸範圍plt.ylim(0, 0.0085)plt.show()

nor.cdf(1000)0.84134474606854293

計算大於1000的概率：

x = np.arange(700,1200, 1)y =nor.pdf(x)plt.plot(x,y)plt.vlines(1000, 0,nor.pdf(1000))x2 = np.arange(1000,1200,1)y2 = nor.pdf(x2)plt.fill_between(x2, y2, color =cyan,alpha =0.1)plt.ylim(0, 0.0085)plt.show()

1 - nor.cdf(1000)0.15865525393145707nor.sf(1000)0.15865525393145707

計算落在950至1050範圍的概率

x = np.arange(700,1200, 1)y =nor.pdf(x)plt.plot(x,y)plt.vlines(950, 0,nor.pdf(950))plt.vlines(1050, 0,nor.pdf(1050))x2 = np.arange(950,1050,1)y2 = nor.pdf(x2)plt.fill_between(x2, y2, color =cyan,alpha =0.1)plt.ylim(0, 0.0085)plt.show()

nor.cdf(1050) - nor.cdf(950)0.47724986805182079#知道概率值，求X#x小於某個值的概率為0.8413447460685429nor.ppf(0.8413447460685429)1000.0nor.isf(1-0.8413447460685429)1000.0

2. t分布

生成t分布

#為了便於比比較標準正態分布與T分布的區別，也生成了正態分布standard_norm = scipy.stats.norm #生成正態分布t_dist = scipy.stats.t #生成T分布

生成t分布概率密度分布

x = np.arange(-4, 4,0.01)plt.plot(x, standard_norm.pdf(x), label=standard_norm)plt.plot(x, t_dist.pdf(x, df=1),label=t_disterbution)plt.legend()plt.show()

#繪製累計密度分布x=np.arange(-4, 4, 0.01)y=t_dist.cdf(x, df=1)plt.plot(x, y)plt.show()

總結：1、概率分布=隨機變數+概率+分布（在統計圖中的形狀）

2、需要熟練使用科學計算包SCIPY中stats模塊常用指令，pdf,cdf,ppf,sf,isf的具體應用。其中cdf的反函數是ppf,用於知道區間求概率。sf的反函數是isf,用於知道概率求區間。