標籤:

[貝葉斯一]之貝葉斯定理

<個人網頁blog已經上線,一大波乾貨即將來襲:faiculty.com/>

/* 版權聲明:公開學習資源,只供線上學習,不可轉載,如需轉載請聯繫本人 .*/


一、基本概念

貝葉斯理論是機器學習中一個核心方法,它由英國數學家托馬斯貝葉斯在1763年發表的一篇論文中首先提出這個定理。貝葉斯定理是用來度量不確定性事件的,比如今天下雨概率,是一種概率模型。

在介紹貝葉斯理論之前我們先看看統計模式識別(statistical pattern recognition)中的一些概率知識。假設有一組隨機數據X = [x_1, x_2, x_3, ...... x_l]^T in R^l,它們屬於M個類別Omega = {w_1, w_2, w_3, ........, w_m }. 下面有三個比較常用的概念。

  • 首先是類別w_i出現的概率,我們稱之為先驗概率(priori probability)p(w_i), i = 1,2,3,4,......M
  • 然後是某個樣本屬於類別w_i的概率,稱為後驗概率(Posterior probability):p(w_i|x),i=1,2,3……M.
  • 最後是似然(Likelihood):p(x|w_i ),i=1,2,3……M.

貝葉斯定理就是一個條件概率,所謂「條件概率」,就是指在事件B發生的情況下,事件A發生的概率,用p(A|B)= frac {p(AB)}{p(B)}表示。

二、全概率公式

這部分內容主要是屬於概率論中的內容,具體的例子,請看本站的基礎數學部分。這裡簡單明了的直接闡述定理。

定理(來自浙大概率論第4版):設試驗E的樣本空間為SAE的事件,B_1, B_2, B_3 ......, B_nS的一個劃分,且P(B_i)>0  (i=1,2,3,......,n),則

P(A) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ........ +P(A|B_n)P(B_n)

上式就稱為全概率公式

物理意義:全概率公式是由條件概率公式p(A|B)= frac {p(AB)}{p(B)}推導而來,當P(B)>0的時候,P(AB) = P(A|B)P(B).

三、貝葉斯公式

定理(來源於浙大概率論第4版):設試驗E的樣本空間為S.AE的事件,B_1, B_2, B_3 ......, B_nS的一個劃分,且P(A)>0, P(B_i)>0  (i=1,2,3,......,n),則

P(B_i|A)=frac{P(A|B_i)P(B_i)}{sum_{j=0}^n  P(A|B_j)P(B_j)}

證明:由條件概率的定義及全概率公式既得:egin{align} P(B_i|A) &= frac{P(B_iA)}{P(A)}\ & = frac {P(A|B_i)P(B_i)}{sum_{j=0}^n  P(A|B_j)P(B_j)} end{align}

通常的,在進行分類判斷的時候,我們將貝葉斯公式寫成如下形式。p(w_i|x)= frac {p(x|w_i)p(w_i)}{p(x)}

其中:

  • w_i表示第i個類別,w就是總類別的一個劃分
  • x表示一個樣本

我們對上式兩邊取對數,得到如下形式。ln?  p(w_i|x) = ln?  p(x|w_i ) +ln  p(w_i)- p(x)?

三、參考文獻

[1] 《概率論與數理統計(浙大第4版)》


其它平台只是信息轉發(留言可能看不到),歡迎同學們到個人blog交流:faiculty.com/


推薦閱讀:

「伊人」何處,宛在雲中央:用 Datalab 在雲上部署互動式編程環境
斯坦福機器學習筆記10密度分布估計の混合高斯模型
複習:決策樹
2-2 Cost Function
Learning Explanatory Rules from Noisy Data 閱讀筆記3

TAG:機器學習 |