標籤:

2.2 概率論簡要回顧

2.2.1 離散隨機變數

可以定義離散隨機變數 X 來擴展二元事件的概念,它能在有限或可數無窮集合 chi 中取任何值。用 p(X=x)p(x) 表示事件 X=x 的概率。 p() 稱為概率質量函數,滿足 0le p(x)le1sum_{xin X}p(x)=1

2.2.2 基本規則

兩個事件的結合概率:egin{align*} p(Avee B) &=p(A)+p(B)-p(Awedge B) 	ag{2.1}\ &=p(A)+p(B) qquad 	ext{如果 A 與 B 相互獨立} 	ag{2.2} end{align*}

聯合概率: p(A,B)=p(Awedge B)=p(Amid B)p(B)	ag{2.3}

邊緣分布: p(A)=sum_b(A,B)=sum_b p(Amid B=b)p(B=b)	ag{2.4}

鏈式規則:

p(X_{1:D})=p(X_1)p(X_2mid X_1)p(X_3mid X_2,X_1)p(X_4mid X_1,X_2,X_3)ldots p(X_Dmid X_{1:D-1})	ag{2.5}

其中類似於matlab符號的 1:D 表示集合 {1,2,ldots,D}

給定事件 B 為真,事件 A 的條件概率: p(Amid B)=frac{p(A,B)}{p(B)}qquad 	ext{if } p(B)gt 0 	ag{2.6}

貝葉斯規則: p(X=xmid Y=y)=frac{p(X=x,Y=y)}{p(Y=y)}=frac{p(X=x)p(Y=ymid X=x)}{sum_{x^{}}p(X=x^{})p(Y=ymid X=x^{})}	ag{2.7}

假設你做乳腺癌檢查,並被告知測試為陽性,儀器敏度為0.8,那麼:p(x=1mid y=1)	ag{2.8}=0.8

人群患病概率為: p(y=1)=0.004	ag{2.9}

儀器假正概率為: p(x=1mid y=0)=0.1	ag{2.10}

使用貝葉斯規則組合這三項,可以計算出患病概率為: egin{align*} p(y=1mid x=1)&=frac{p(x=1mid y=1)p(y=1)}{p(x=1mid y=1)p(y=1)+p(x=1mid y=0)p(y=0)}	ag{2.11}\ &=frac{0.8	imes0.004}{0.8	imes0.004+0.1	imes0.996}=0.031	ag{2.12} end{align*}

也就是說,即便測試為陽性,你也只有 3\% 概率患癌症。

可以泛化癌症診斷的例子到分類任意類型的特徵向量 mathrm{x}p(y=cmid mathrm{x},	heta)=frac{p(y=cmid 	heta)p(mathrm{x}mid y=c,	heta)}{sum_{c^{}}p(y=c^{}mid 	heta)p(mathrm{x}mid y=c^{},	heta)}	ag{2.13}

這被稱為生成分類器。也可以直接擬合類別後驗, p(y=cmid mathrm{x}) ,這被稱為判別分類器。

2.2.4 獨立與條件獨立

如果能表示聯合分布為兩個邊緣分布的乘積,則稱 XY 為無條件獨立或邊緣獨立,標記為 Xot YXot Y Longleftrightarrow p(X,Y)=p(X)p(Y)	ag{2.14}

如果條件聯合分布能被寫為條件邊緣分布的乘積,則稱 XY 是條件獨立的。 Xot Y mid Z Longleftrightarrow p(X,Ymid Z)=p(Xmid Z)p(Ymid Z)	ag{2.15}

定理2.2.1. 對於所有的 x,y,z 使得 p(z)gt0 ,如果存在函數 gh 滿足: p(x,ymid z)=g(x,z)h(y,z)	ag{2.16}

X ot Y

2.2.5 連續隨機變數

X 是不確定的連續量, Xale Xle b 間的概率可以如下這麼計算。定義事件 A=(Xle a)B=(Xle b)W=(ale Xle b) 。我們有 B=Avee W ,因此 AW 是互斥的,由加法規得: p(B)=p(A)+p(W)	ag{2.17}

因此: p(W)=p(B)-p(A)	ag{2.18}

定義函數 F(q)	riangleq p(Xle q) ,稱其為 X 的累積分布函數。用這個符號可得: p(alt Xle b)=F(b)-F(a)	ag{2.19}

定義 f(x)=frac{d}{dx}F(x) ,稱其為概率密度函數。由概率密度函數可計算概率: P(alt Xle b)=int_{a}^{b}f(x)dx	ag{2.20}

縮小積分範圍可得: P(xle Xle x+dx)approx p(x)dx	ag{2.21}

p(x)gt1 是可能的,例如,考慮均勻分布 Unit(a,b)Unit(xmid a,b)=frac{1}{b-a}I(ale x le b)	ag{2.22}

如果設置 a=0b=frac{1}{2} ,可得 p(x)=2xin [0,frac{1}{2}]

2.2.6 分位數

由於F是單調遞增函數,所以它有反函數, F^{-1}(alpha)x_alpha 的值,滿足 P(Xle x_alpha)=alpha ,這稱為 Falpha 分位。如果 alpha=0.05 ,則中心 95\% 概率區域被 (phi^{-1}(0.025),phi^{-1}(0.975))=(-1.96,1.96)	ag{2.23}

範圍覆蓋。如果分布是 N(mu,sigma^2) ,則 95\% 間隔變為 (mu-1.96sigma,mu+1.96sigma) 。有時這被近似寫為 mupm2sigma

2.2.7 均值與方差

均值也被稱為期望值,寫作 mu 。對於離散值, E[X]	riangleqsum_{xinchi}xp(x) 。對於連續值, E[X]	riangleqint_{chi}xp(x)dx 。如果積分不是有限的,則均值沒有定義。方差寫作 sigma^2 。定義為: egin{align*} var[X]&	riangleq E[(X-mu)^2]=int(x-mu)^2p(x)dx	ag{2.24}\ &=int x^2p(x)dx+mu^2int p(x)dx-2muint xp(x)dx=E[X^2]-mu^2	ag{2.25} end{align*}

從而得到有用的結果:

E[X^2]=mu^2+sigma^2	ag{2.26}

標準差定義為: std[X]	riangleqsqrt{var[X]}	ag{2.27}


推薦閱讀:

《機器學習實戰》學習總結(十一)——隱馬爾可夫模型(HMM)
《信用風險評分卡研究》中最大似然估計分析表的解讀
薦書 | 機器學習、深度學習演算法及其Python實現
台大林軒田機器學習課第二十講筆記:軟間隔支持向量機

TAG:機器學習 |