標籤:

概率論中各種分布的內在聯繫?

我在概率論中一直有一個疑惑。各種分布都有著千絲萬縷的聯繫,二項分布極限一下變成泊松分布,泊松分布二項分布加上一下條件就變成了正態分布。就如這篇文章所說。感覺這些分布都只是某個更深層次原因的一些不同的外在表象。就像在知乎上的這個問題中David Yin在4樓的回答,但是講得太飄了。可否把真正聯繫它們內在的那個東西講一下。還有就是能把指數簇分布也深入的講解一下。


非常簡要初級地介紹一下二項分布, 泊松分布, 正態分布, 指數分布, Laplace分布, Gamma分布之間的聯繫.

動差生成函數(MGF, Moment-generating function)為主要工具展開介紹.

M_x(t)=mathbb{E}[e^{xt}]Xsimeq Y當且僅當M_X(t)=M_Y(t)

1. 二項分布 泊松分布

Xsim Bin(n,p)M_X(t)={(pe^{t}+q)}^{n}={(p(e^{t}-1)+1)}^{n}quad (q=1-p)

np=lambda quad p=frac{lambda }{n}

n
ightarrow inftyquad p
ightarrow 0

使用e^x=1+xx
ightarrow 0M_X(t)={(p(e^{t}-1)+1)}^{n}={e^{(p(e^{t}-1)}}^{n}=e^{np(e^{t}-1)}=e^{lambda (e^{t}-1)}

Ysim Pois(lambda )M_Y(t)=e^{lambda (e^{t}-1)}

M_X(t)=M_Y(t)quad(n
ightarrow infty)

即得到當n
ightarrow inftyquad p=frac{lambda }{n} quad lambda=np時, 二項分布Bin(n,p)逼近泊松分布Pois(lambda )

2. 二項分布 正態分布

由中央極限定理(Central limit theorem)可得兩者聯繫, 這裡使用MGF另外介紹.

Xsim Bin(n,p)M_X(t)={(pe^{t}+q)}^{n}={(p(e^{t}-1)+1)}^{n}quad (q=1-p)

Y= frac{X-np}{sqrt{npq} } quad (q=1-p)

M_Y(t)=mathbb{E}left[ {e}^{frac{X-np}{sqrt{npq} }t}
ight] ={e}^{-frac{np}{sqrt{npq} }t}mathbb{E}left[ e^{Xfrac{t}{sqrt{npq} }}
ight]{e}^{-frac{np}{sqrt{npq} }t}M_Xleft(frac{t}{sqrt{npq} } 
ight)={e}^{-frac{np}{sqrt{npq} }t}left( p{e}^{frac{t}{sqrt{npq} }}+q 
ight) ^n=left( pe^{frac{qt}{sqrt{npq} }}+qe^{frac{-pt}{sqrt{npq} }} 
ight) ^np,q均為常數

使用e^x=1+x+frac{x^2}{2}+O(x^3)x
ightarrow 0M_Y(t)=left( pleft(1+frac{qt}{sqrt{npq} }+frac{q^2t^2}{2npq}
ight)+qleft( 1-frac{pt}{sqrt{npq} }+frac{p^2t^2}{2npq} 
ight) +O(frac{1}{n^frac{3}{2} } ) 
ight) ^n=left( p+q+frac{(pq^2+qp^2)t^2}{2npq}+O(frac{1}{n^frac{3}{2} } ) 
ight) ^n=left( 1+frac{t^2}{2n}+O(frac{1}{n^frac{3}{2} } ) 
ight) ^n

n
ightarrow infty

lim_{n 
ightarrow infty}{left( 1+frac{t^2}{2n}+O(frac{1}{n^frac{3}{2} } ) 
ight) ^n} =e^{frac{t^2}{2} }

Zsim N(0,1)M_Z(t)=e^{frac{t^2}{2} }

即得到當n
ightarrow inftyY= frac{X-np}{sqrt{npq} }sim N(0,1) quad (Xsim Bin(n,p))

3. 泊松分布 正態分布

Xsim Pois(lambda )M_X(t)=e^{lambda (e^{t}-1)}

Y=frac{X-lambda }{sqrt{lambda} }

M_Y(t)=mathbb{E}left[ {e}^{ frac{X-lambda }{sqrt{lambda} } t}
ight] =e^{-sqrt{lambda }t }mathbb{E}left[ {e}^{ frac{X}{sqrt{lambda} } t}
ight]=e^{-sqrt{lambda }t }M_Xleft( frac{t}{sqrt{lambda} } 
ight)=e^{-sqrt{lambda }t } e^{lambda (e^{frac{t}{sqrt{lambda} } }-1)}=e^{lambda (e^{frac{t}{sqrt{lambda} } }-frac{t}{sqrt{lambda }} -1)}

使用e^x=1+x+frac{x^2}{2}+O(x^3)x
ightarrow 0

M_Y(t)=e^{lambda (1+frac{t}{sqrt{lambda} } +frac{t^2}{2lambda}+O(t^3)-frac{t}{sqrt{lambda }} -1)}

=e^{lambda (frac{t^2}{lambda}+O(frac{t^3}{lambda ^{3/2}}))}

=e^{frac{t^2}{2}+O(frac{t^3}{lambda ^{1/2}})}

lambda 
ightarrow inftyM_Y(t)=e^{frac{t^2}{2}}即得到當lambda 
ightarrow inftyY=frac{X-lambda }{sqrt{lambda} } sim N(0,1) quad(X sim Pois(lambda))Xsim N(lambda ,lambda ), 為泊松分布的正態近似

4. 泊松分布 指數分布

(泊松過程,Poisson process)

Xsim Pois(lambda t)X為某事件在時間段[0,t]內發生的總次數

Y為該事件第一次發生的時間

P(Y> t)=P(X=0)quad (tin[0,t])P(Y>t)=e^{-lambda t}frac{(lambda t)^0}{0!} =e^{-lambda t}P(Yleq t)=1-e^{-lambda t}

微分得到密度函數f_Y(t)=lambda e^{-lambda t}

Ysim Expo(lambda )

5. 指數分布 Laplace分布

X,Ysim Expo(1)

Z=X-Y

M_Z(t)=M_X(t)M_{-Y}(t)=frac{1}{1-t} mathbb{E}left[e^{-Yt}
ight]

=frac{1}{1-t}int_{0}^{infty}e^{-tx}e^{-x}dx

=frac{1}{1-t}int_{0}^{infty}e^{-x(1+t)}dx

=frac{1}{1-t} frac{1}{1+t}

=frac{1}{1-t^2}

Z_0sim Laplace(0,1)

M_{Z_0}(t)=mathbb{E}left[e^{Z_0t}
ight]

=int_{-infty}^{infty}e^{tx}frac{1}{2}e^{-|x|};dx

=frac{1}{2}left( int_{-infty}^{0}e^{(1+t)x};dx+int_{0}^{infty}e^{(1-t)x};dx 
ight)

=frac{1}{2} left( frac{1}{1-t}+frac{1}{1+t} 
ight)

=frac{1}{1-t^2}

即得到X,Ysim Expo(1), X-Ysim Laplace(0,1).

6. 指數分布 Gamma分布

X_isim Expo(lambda )

M_{X_i}(t)=frac{1}{1-t}

Y=sum_{i=1}^{n}X_i

M_Y(t)=M_{sum_{}{}{X_i}} (t)=prod_{i=1}^{n}M_{X_i}(t)=left( frac{lambda}{lambda -t} 
ight) ^n

Zsim Gamma(n,lambda )

M_Z(t)=mathbb{E}left[ e^{Zt}
ight]=int_{0}^{infty} e^{tx}frac{1}{Gamma (n)} (lambda x)^ne^{-lambda x}frac{dx}{x}

=frac{lambda^n}{(lambda -t)^n}int_{0}^{infty}frac{1}{Gamma (n)}e^{-(lambda-t)x} ((lambda -t)x)^nfrac{dx}{x}

=left( frac{lambda}{lambda -t} 
ight) ^n quad(t<lambda )

即得到多個指數分布的和為Gamma分布


在這個框架下面有一套比較成熟的有關三角級數弱收斂的理論,叫Stein-Chen theory。

Probability Surveys這是一個一個深入淺出的介紹的介紹,適合初次接觸的人了解這方面的理論。


(一)基於離散次數的隨機試驗(Bernoulli trial)

  • Bernoulli distribution(伯努利分布,0-1分布)描述的是一種隨機試驗(結果只有成功或失敗,可能性是固定的p)發生的概率;

  • Binomial distribution(二項分布)Y~B(N,p) 描述的是N次獨立重複隨機試驗(Bernoulli trial)成功次數的概率;

  • Geometric distribution(幾何分布)Ni~G(p)描述的是Bernoulli trial第i-1次成功到第i次成功所需的試驗次數(描述的事件是無記憶的);

  • Negative binomial distribution(負二項分布)Wk~NB(k,p)描述的是Bernoulli trial第k次成功所需的試驗次數(Wk = N1+N2+...+Nk);

(二)基於連續時間的隨機試驗

  • Poisson distribution(泊松分布)X~P(ν,T)描述的是,單位時間(0,T)(或空間)內隨機事件發生的次數,是二項分布N→∞,p→0,Np = νT (= λ)的極限[TR = 1/ν = T/Np,為平均重現期];(像不像前面的什麼分布,你懂得)

  • Exponential distribution(指數分布ED)Ti~E(ν) 描述的是,隨機事件第i-1次發生到第i次發生所需的時間(描述的事件是無記憶的);(像不像前面的什麼分布,你懂得)
  • Gamma distribution(伽馬分布)Wk~Γ(k,ν) 描述的是,隨機事件第k次發生的時間(Wk = T1+T2+...+Tk);(像什麼我不用說了吧,連符號都懶得換了)

(三)來自無限次數的運算

  • Normal distribution(正態分布)

  • Lognormal distribution (對數正態分布)

  • Extreme value distributions (極值分布)

(四)其他

  • Hypergeometric geometric distribution(超幾何分布)X~NG(N,n,M)描述的是,N個物件中有M個獎品,從中不放回地抽出n次,中獎的的次數;

  • Zeta distribution

  • Uniform distribution (均勻分布)

  • Beta distribution
  • Weibull distribution

  • Rayleigh distribution

  • Cauchy distribution

  • Pareto distribution

  • Laplace distribution

  • Logistic distribution

  • ......

==========累屎了,先寫這些,其餘的看心情。。。。


雖然被邀請...然並不能看懂大部分答案...順便問問有沒有人能告訴我Fisher distribution和t分布的區別,適用於什麼地方...助教不明白只告訴我按答案怎麼做。


推薦閱讀:

數學學的好的人是不是長得都很醜?
什麼是 AdS / CFT ?
1,2,3,6,7,( ),( )空格里填什麼?
說數學是「自洽」的是什麼意思?
如何證明二維離散傅里葉變換的旋轉不變性?

TAG:數學 | 概率論 |