概率論學習筆記（二）

09-01

概率論學習筆記（二）

來自專欄 sola的數學筆記4 人贊了文章

在筆記（一）中，我們基本上介紹完了概率論中的初等部分的大部分內容。本部分以及之後的主要內容都將圍繞分析的部分展開。

我們在高中可能接觸到過隨機變數，那個時候我們沒有概率測度的嚴格定義與概念，我們認為隨機變數就是一個可以取到試驗中所有可能值的變數。現在有了概率空間的定義，我們也可以將隨機變數進行嚴格的定義。

後文均假設 $(Omega,F)$ 為可測空間， $(Omega,F,P)$ 為概率空間。

隨機變數與分布

一、隨機變數，Borel集，隨機變數獨立性

本章中若僅對應用感興趣只需要了解隨機變數獨立的定義即可

在此我們先引入示性函數的定義。

定義：

$Omega$ 為樣本空間， $omega$ 為樣本點， $A$ 為事件，示性函數 $I_A$ 為 $Omega$ 上函數。

$I_A(omega)=egin{cases} 0 omega in A\ 1 else end{cases}$ ，記為 $I_A$ 或 $I[A]$ 。

我們發現給定 $forall xin mathbb{R},left { I_Aleq x ight }$ 都是事件。

詳細地，有 $left { omega|I_A(omega)leq x ight }=egin{cases} varnothing x<0\ overline{A} xin[0,1)\ Omega xgeq 1 end{cases}$

由此，我們引入隨機變數的嚴格定義。

定義：

若 $Omega$ 上函數滿足： $forall xin mathbb{R},left { omega|X(omega)leq x ight }in F$ （回憶： $in F$ 就意味著為事件），就稱 $X(omega)$ 為可測空間 $(Omega,F)$ 上的隨機變數，通常省略樣本點記為 $X$ 。（因為對回答隨機變數有著如何的概率分布這個問題並沒有幫助）

容易驗證若 $X$ 為投擲一次均勻骰子得到的點數 $g$ 為實數域上連續函數， $X,X^2,g(X)$ 均為隨機變數。

接下來所要提出的一個自然的問題是：集合 $A$ 要滿足什麼條件才能使得 $left { xin A ight }in F$ 。即在實數域上，隨機變數的所有可能取值的集合至少所應該滿足的條件是什麼？這樣的集合是沒有任何限制的嗎？

首先我們注意到如果 $X$ 為隨機變數，必有 $left { a<Xleq b ight }in F$ 。（隨機變數定義驗證）

我們從這一點出發，假設 $C$ 為所有 $mathbb{R}$ 中左開右閉的集合所組成的集合。假設 $mathbb{B}$ 為 $C$ 中所有元素（即左開右閉區間）經過交集、補集、可列並運算運算及其反覆運算所得到的集合所組成的集合。容易驗證 $mathbb{B}$ 滿足事件域的定義。稱 $mathbb{B}$ 為Borel域， $mathbb{B}$ 中元素為Borel集。

我們不加證明地給出以下定理

定理：

$X$ 為隨機變數， $A$ 為Borel集，則 $left { xin A ight }in F$ 。

由此，我們知道了隨機變數所有取值的集合最壞也要是一個Borel集。即對Borel集 $A$ ， $P(Xin A)$ 才是可以計算的。

類似地，我們可以把Borel集的概念推廣到更高維的空間，此處不過多涉及。

這裡值得注意的是 $(mathbb{R},mathbb{B})$ 也為可測空間。

若函數 $g$ 滿足： $forall ain mathbb{R},left { x|g(x)leq a ight }in mathbb{B}$ ，則稱其為Borel可測函數。

事實上，我們目前接觸到的幾乎所有集合都是Borel集，幾乎所有函數都是Borel可測函數。

我們很容易得到以下定理（讀者自證）：

定理：

$X$ 為隨機變數， $g$ 為Borel可測函數，則 $g(X)$ 為隨機變數。

這也正是我們可以利用已有的隨機變數造出無窮無盡的隨機變數的方法。

以後總是默認所有出現的函數都是Borel可測函數。

事實上Borel集可以作為事件與隨機變數之間聯繫的橋樑，所以由事件獨立性的定義，我們可以類似地定義隨機變數的獨立性。並可以看到Borel集在維繫隨機變數獨立性中的作用。

定義：

$X_1,X_2,...,X_n$ 為隨機變數， $forall x_1,x_2,..,x_n$ $P(X_1leq x_1,X_2leq x_2,...,X_nleq x_n)=P(X_1leq x_1)P(X_2leq x_2)...P(X_nleq x_n)$ 則稱這些隨機變數相互獨立。

值得強調的是定義中對 $n$ 個實數的選取是任意的！

關於Borel集在維繫隨機變數獨立性中的作用，我們有以下定理。

定理：

$X_1,X_2,...,X_n$ 為隨機變數，相互獨立，則對任何Borel集 $A_1,A_2,...,A_n$ ，事件 $left { X_1in A_1 ight }left { X_2in A_2 ight }...left { X_nin A_n ight }$ 也相互獨立。

事實上，若定理中 $g_1,...,g_n$ 均為Borel可測函數，則 $g_1(X_1),...,g_n(X_n)$ 也相互獨立。

此處僅僅是簡要介紹，讀者若有興趣可以深入了解。

另外還有一個重要的變換技巧。通過下面的例子說明：

例： $X$ 為隨機變數，證明 $forall a,left { X<a ight }$ 為事件。

證明：

隨機變數定義中僅僅告訴我們 $left { Xleq a ight }$ 必定為事件，要如何將兩者關聯起來呢？

這個時候往往要利用到概率的連續性。

我們略施技巧，利用 $left { X<a ight }=igcup_{n=1}^{infty}left { Xleq a-frac{1}{n} ight }$ 。

則由事件域的可列並封閉性，馬上即可得證。

我們在之後處理含小於等於，小於，等於之間的概率的關係時常常仍會用到這個技巧，是需要牢記的。

二、離散型隨機變數

定義：

若隨機變數 $X$ 只能取到有限個或者可列個不同值，則稱 $X$ 為離散型隨機變數。

此時用概率分布列來描述隨機變數的概率分布。

形如 $P(X=x_k)=p_k$

由概率的完全性和非負性，容易知道 $p_k>0,sum_k p_k=1$ 。

接下來介紹一些常見離散概率分布並且給出他們對應的實際模型。讀者可嘗試從模型推導出概率分布。（加深記憶）

讀者可以自行驗證 $sum_k p_k=1$ 的性質對於每個概率分布都成立。（必要的練習）

1、兩點分布 $B(1,p)$

實際模型： $X$ 的值為一個隨機事件中發生的事件數。這個事件發生的概率為 $p$ 。則 $X$ 服從參數為 $1,p$ 的兩點分布，記作 $Xsim B(1,p)$ 。

概率分布： $P(X=1)=p, P(X=0)=1-p$

2、二項分布 $B(n,p)$

實際模型： $X$ 為 $n$ 次獨立重複隨機事件中發生的事件數。這個事件每次發生的概率都是 $p$ 。則 $Xsim B(n,p)$ 。

概率分布： $P(X=k)=inom{n}{k}p^k(1-p)^{n-k}, (k=0,1,...,n)$

概率分布中的組合數意味著從 $n$ 個獨立重複隨機事件中選取 $k$ 個事件發生的方法數，切勿遺漏。並且接下來開始我們要開始注意隨機變數 $X$ 所可能取值的範圍。（在某些概率分布中容易混淆）

值得一提的是，服從二項分布的隨機變數可以看作是 $n$ 個服從 $B(1,p)$ 的獨立的隨機變數之和。同樣地，若 $X_1sim B(n_1,p),X_2sim B(n_2,p)$ ，且 $X_1,X_2$ 獨立，則有 $X_1+X_2sim B(n_1+n_2,p)$ 。我們以後稱這樣的性質為獨立條件下二項分布對於其中的參數 $n$ 具有可加性。關於此條性質的證明，我們暫且擱置，直到後文提及求隨機變數的和的分布方法時讀者可以給出證明。事實上，更巧妙地，在最後我們給出概率母函數的工具時，我們會給出一個更簡單且有普遍性的證明方法。

3、泊松分布 $P(lambda)$

實際模型： $X$ 為某個隨機事件發生的次數，假設每次事件發生與否相互獨立，且平均事件發生 $lambda$ 次，則 $Xsim P(lambda)$ 。

概率分布： $P(X=k)=frac{lambda^k}{k!}e^{-lambda},(k=0,1,2,...)$

這個概率分布較難從實際模型推導得到，我們將在本章的末尾分布之間的關係處給出推導。

另外，此處需要注意的是 $X$ 的取值是包括 $0$ 的，且共有可列個可能取值。

與二項分布類似的是，在獨立條件下泊松分布對於其中的參數 $lambda$ 具有可加性。即 $X_1sim P(lambda_1),X_2sim P(lambda_2), X_1,X_2$ 獨立，則有 $X_1+X_2sim P(lambda_1+lambda_2)$ 。我們同樣地將此結論的證明暫且擱置。但是在我們後文闡釋了二項分布與泊松分布之間的關聯後，讀者將能夠有更直接的感受。

4、幾何分布 $G(p)$

實際模型：重複進行隨機事件，直到事件發生為止才停下。 $X$ 為首次發生時共做的事件的次數。每次發生的概率均為 $p$ ，則 $Xsim G(p)$ 。

概率分布： $P(X=k)=(1-p)^{k-1}p, (k=1,2,...), 0<p<1$

此處需要注意的是 $X$ 的最小取值是 $1$ 而不是 $0$ 。（事實上，我更加推薦大家記住概率分布的實際模型，這樣無論是概率分布還是隨機變數的取值範圍都能夠在忘記時自己推導）

關於幾何分布，我們後文將證明其重要的性質：無記憶性。

5、負二項分布 $NB(r,p)$

實際模型：重複進行隨機事件，直到發生 $r$ 次為止才停止。 $X$ 為到停止為止時事件未發生的次數。事件每次發生的概率為 $p$ ，則 $Xsim NB(r,p)$ 。

概率分布： $P(X=k)=inom{k+r-1}{r-1}(1-p)^kp^r,(k=0,1,...)$

我們容易發現的是當 $r=1$ 時，該分布與 $G(p)$ 相同。

事實上，一個服從負二項分布的隨機變數為 $r$ 個相互獨立的服從幾何分布 $G(p)$ 的隨機變數之和。同樣地，暫時擱置這個證明。

與二項分布類似地，在獨立的條件下負二項分布對於參數 $r$ 具有可加性。

我們在此幫助讀者驗證一下負二項分布滿足概率測度所要求的完全性。其餘的交給讀者自己完成。

例：證明 $sum_{k=0}^{infty}inom{k+r-1}{r-1}(1-p)^kp^r=1$

證明：

我們有 $sum_{k=0}^{infty}inom{k+r-1}{r-1}(1-p)^k=sum_{k=0}^{infty}frac{(-r)(-r-1)...(-r-k+1)}{k!}(p-1)^k$

由Taylor公式，我們有上式 $=p^{-r}$

故 $sum_{k=0}^{infty}inom{k+r-1}{r-1}(1-p)^kp^r=p^rsum_{k=0}^{infty}inom{k+r-1}{r-1}(1-p)^k=1$

6、超幾何分布 $H(n,M,N)$

實際模型： $N$ 個產品，其中 $M$ 個次品，從中任取 $n$ 個。 $X$ 為這 $n$ 個中的次品數，則 $Xsim H(n,M,N)$ 。

概率分布： $P(X=k)=frac{inom{M}{k}inom{N-M}{n-k}}{inom{N}{n}}, (k=0,1,...,M)$

對超幾何分布，我們只需簡單地了解即可。

三、連續型隨機變數

定義：

與離散型相對地，連續型隨機變數指隨機變數有不可列個不同取值的隨機變數。

對於連續型隨機變數，若 $f$ 非負，滿足 $forall a<b, P(a<Xleq b)=int_a^bf(x)dx$ ，則稱 $f$ 為 $X$ 的概率密度函數，簡稱密度。

顯然地，密度要滿足如下性質：

1、 $int_{-infty}^{+infty}f(x)dx=1$ （利用概率的連續性證明）

2、 $lim_{epsilon ightarrow0}int_{a-epsilon}^{a+epsilon}f(x)dx=0$ （利用定積分第一中值定理）

這告訴我們對連續型隨機變數，其在任意單點處取值的概率為 $0$ ，即 $forall a,P(X=a)=0$ 。

故事實上，對連續型隨機變數 $X$ ， $P(a<Xleq b)=int_a^bf(x)dx=P(a<X<b)=P(aleq Xleq b)=P(aleq X<b)$

下面介紹幾個常見的連續型概率分布。概率分布的完全性的驗證交給讀者自己完成。對於連續型隨機變數，我們較難給出準確的實際模型，在此僅大致提到其應用。

1、均勻分布 $U(a,b)$

$a<b$

若 $X$ 有密度： $f(x)=egin{cases} frac{1}{b-a} xin(a,b)\ 0 else end{cases}$ ，則 $Xsim U(a,b)$ 。

為了簡便，以後僅在密度的函數中寫出 $f(x) eq 0$ 的情況，省略為零的情況。（後仍會註明 $x$ 的取值範圍）

容易理解地，均勻分布的密度在非零處均為常值，並且保證了 $mathbb{R}$ 上的積分為 $1$ 。

均勻分布常用在計算機中作為產生各種符合其它分布的隨機數的基礎。

2、指數分布 $varepsilon (lambda)$

$lambda>0$

若 $X$ 有密度： $f(x)=lambda e^{-lambda x}(x>0)$ ，則 $Xsim varepsilon(lambda)$ 。

注意指數分布的隨機變數是非負的。

重要地，指數分布與幾何分布類似，具有無記憶性，我們將在下章介紹。

而且指數分布還與泊松分布有著難解難分的聯繫，用來描述相鄰兩次隨機事件發生之間的等待時間的分布。指數分布還常用來描述電子元件的壽命分布。

3、伽馬分布 $Gamma(alpha,eta)$

$alpha,eta>0$

$Gamma(alpha)=int_0^{infty}x^{alpha-1}e^{-x}dx$ 為伽馬函數

若 $X$ 有密度： $f(x)=frac{eta^{alpha}}{Gamma(alpha)}x^{alpha-1}e^{-eta x}(x>0)$ ，則 $Xsim Gamma(alpha,eta)$ 。

容易發現 $alpha=1$ 時，密度與指數分布相同。事實上，服從伽馬分布的隨機變數可以看成 $alpha$ 個服從指數分布 $varepsilon(eta)$ 的獨立隨機變數之和。這告訴我們在獨立的條件下伽馬分布關於參數 $alpha$ 具有可加性，暫時擱置此證明。伽馬分布常用來描述氣象學中一段時間之內的降水量分布。

4、正態分布 $N(mu,sigma^2)$

$sigma>0$

若 $X$ 有密度： $f(x)=frac{1}{sqrt{2pi sigma^2}}e^{-frac{(x-mu)^2}{2sigma^2}},xin mathbb{R}$ ，則 $Xsim N(mu,sigma^2)$ 。

特別地， $N(0,1)$ 被稱為標準正態分布，在之後的學習中是十分常用的。

其密度，特殊地，記為 $varphi(x)=frac{1}{sqrt{2pi}}e^{-frac{x^2}{2}},xin mathbb{R}$

讀者可以從正態分布的密度出發證明以下分析上的性質：

1、 $f(x)$ 關於 $x=mu$ 對稱。

2、 $f(mu)$ 為最大值。

3、 $x=mu pm sigma$ 為拐點。（凹凸性變化的點）

由於正態分布太常用以及重要（後文中的中心極限定理會告訴我們這點），我們很多情況下需要經常計算 $Xsim N(mu,sigma^2)$ 時， $P(X<a)$ 的值。

由密度的定義，不難得到 $P(X<a)=int_{-infty}^af(x)dx$

我們再引入一個與標準正態密度有關的函數來簡化這個積分的求解。

定義：

$Phi(a)=int_{-infty}^avarphi(x)dx$

則容易知道由於正態密度的對稱性與完全性，有 $forall x,Phi(x)+Phi(-x)=1$

現在我們再來計算上文提到的積分 $int_{-infty}^af(x)dx$ 。

$P(X<a)=int_{-infty}^afrac{1}{sqrt{2pi sigma^2}}e^{-frac{(x-mu)^2}{2sigma^2}}dx=frac{1}{sqrt{2pi sigma^2}}int_{-infty}^ae^{-frac{(x-mu)^2}{2sigma^2}}dx$

$=frac{1}{sqrt{2pi }}int_{-infty}^{frac{a-mu}{sigma}}e^{-frac{x^2}{2}}dx=Phi(frac{a-mu}{sigma})$

我們得到了如下定理。

定理： $Xsim N(mu,sigma^2)$ 時， $P(a<X<b)=Phi(frac{b-mu}{sigma})-Phi(frac{a-mu}{sigma})$

結合標準正態分布函數表，即查得這個函數值的數值。

這樣的做法的意義在於將求正態分布概率的過程統一化了。我們現在只需要能求出標準正態分布的概率即可求出所有不同正態分布的概率。我們下面將會著重介紹分布函數。屆時讀者可以再回來理解此處 $Phi$ 的定義的好處。

四、分布函數，混合型隨機變數

定義：

$X$ 為隨機變數，則函數 $F(x)=P(Xleq x)$ 稱為 $X$ 的概率分布函數，也稱為分布函數。

若 $X$ 為離散型隨機變數，設概率分布為 $P(X=x_k)=p_k$ ，則分布函數 $F(x)=sum_{j:x_jleq x}p_j$ 。

容易知道的是，此時分布函數為階梯函數且單調遞增。且函數值的跳躍發生在所有 $x_k$ 處，跳躍的幅度為 $p_k$ 。

若 $X$ 為連續型隨機變數，設密度為 $f(x)$ ，則分布函數 $F(x)=int_{-infty}^xf(t)dt$ 。

此時 $F(x+Delta x)-F(x)=int_x^{x+Delta x}f(t)dt=P(x<Xleq x+Delta x)$ 。則當 $Delta x ightarrow 0$ 時， $F(x+Delta x)-F(x) ightarrow0$ ，故此時分布函數連續（其實也是可微的）。另外，與離散的情況類似地，分布函數仍舊具有單調遞增的性質。

我們下面進一步給出分布函數的更多性質：（ $F(x)$ 為任一隨機變數 $X$ 的分布函數）

1、 $F(-infty)=0,F(+infty)=1$ （讀者可嘗試利用概率的連續性證明）

2、 $F(x)$ 是單調遞增且右連續的。

證明：

$forall x_1<x_2,F(x_2)-F(x_1)=P(x_1<Xleq x_2)geq 0$ ，故單調遞增，得證。

$lim_{t ightarrow x^+}F(t)=lim_{n ightarrow +infty }F(x+frac{1}{n})=lim_{n ightarrow +infty }P(Xleq x+frac{1}{n})$

由概率的連續性， $=P(igcap _{n=1}^{infty}left { Xleq x+frac{1}{n} ight })=P(Xleq x)=F(x)$

事實上，我們知道單調函數在每一點處左右極限都存在，很自然地， $F(x)-lim_{t ightarrow x^-}F(t)=P(X=x)$ 。那麼，我們可以得到以下的有趣結論。

例：證明若一個隨機變數 $X$ 滿足在所有單個點處取值的概率均為 $0$ ，其分布函數必定連續。

證明：

$forall x,P(X=x)=F(x)-lim_{t ightarrow x^-}F(t)=0$

故分布函數在每一點左連續。

又由分布函數在每一點右連續的性質，故分布函數連續。

接下來，我們不加證明地給出分布函數與密度函數之間的聯繫。

定理：（分布與密度的關係）

若隨機變數 $X$ 的分布函數 $F(x)$ 連續，且在除集合 $A$ 外 $F^{}(x)$ 存在且連續，且 $A$ 只有有限個聚點，則 $f(x)=egin{cases} F^{}(x) xin A\ 0 x otin A end{cases}$ 為密度。

此處值得一提的是，隨機變數的分布函數是唯一的，但是隨機變數的密度（若存在）卻不唯一。（注意到改變被積函數有限個點的取值不改變黎曼積分的值，仍然符合密度的定義）但是，若額外加上了密度連續的條件，則密度是可以唯一確定的。

另外地，需要了解的是，分布函數連續並不能推出 $X$ 為連續型隨機變數，但是分布函數不連續能夠推出 $X$ 不可能是連續型隨機變數。

最後我們介紹一下混合型隨機變數。

混合型隨機變數的分布函數可以拆分為一個單調遞增階梯函數（離散型隨機變數的分布函數）與一個單調遞增連續函數（連續型隨機變數的分布函數）之和。

例：隨機變數 $X$ 的分布函數為 $F(x)=egin{cases} 0 x<0\ x+frac{1}{2} 0leq x<frac{1}{2}\ 1 xgeq frac{1}{2} end{cases}$ ，則間斷點為 $0$ ， $P(X=0)=frac{1}{2}$ （離散部分），密度為 $f(x)=1，(0leq x<frac{1}{2})$ （連續部分）。

一個混合型的隨機變數可以在分離後看作離散部分與連續部分之和。

理所當然地，混合型隨機變數的概率分布也要滿足非負性，完全性等條件。

五、概率分布之間的聯繫

六、隨機變數的函數的分布

（未完待續）