標籤:

[貝葉斯五]之樸素貝葉斯

<個人網頁blog已經上線,一大波乾貨即將來襲:faiculty.com/>

/* 版權聲明:公開學習資源,只供線上學習,不可轉載,如需轉載請聯繫本人 .*/


一、前因

這一章節依然是基礎知識,貝葉斯分類器的核心就是要計算出後驗概率p(w_i|x),依據貝葉斯定理p(w_i|x) = frac {p(x|w_i)p(w_i)}{p(x)}

其中:

  • p(w_i)是類別i出現的概率,這個比較好求。根據訓練樣本

egin{align} p(w_i) = frac {# 類別i訓練樣本數}{# 訓練樣本總數} end{align}

  • p(x)可以用全概率公式進行計算

但是似然(類別條件概率)p(x|w_i)該怎麼求? 很多時候,樣本x都是多屬性的(也就是機器學習中通常說的特徵空間是多維度的)。這就是樸素貝葉斯誕生原因。

二、推導

不是說類別條件概率不好求么?而且不好求的原因是樣本x是多屬性的。那麼我們就假設屬性之間是相互獨立的。這就是樸素貝葉斯。基於這個假設,我們用條件概率的乘法原理重寫貝葉斯公式。(假設輸入樣本是d維的)

egin{align} p(w_i|x) &= frac {p(x|w_i)p(w_i)}{p(x)}\ & = frac {p(w_i)}{p(x)} prod_{k=1}^d p(x_k|w_i) end{align}

繼續改寫p(x),因為對於所有的類別來說都是相等的。

egin{align} f &= underset {i}{argmax}  p(w_i|x)\ &=underset {i}{argmax}  p(w_i) prod_{k=1}^d p(x_k|w_i) end{align}

這就是樸素貝葉斯的目標函數。

三、參考文獻

[1] 周志華. 《機器學習》[M]. 清華大學出版社, 2016.[2] 李航. 《統計學習方法》[M].清華大學出版社,2013.

推薦閱讀:

看得見的資訊理論-為什麼用交叉熵作為邏輯回歸的代價函數
IBM機器學習CTO給2190知乎網友的一封信
斯坦福機器學習筆記10密度分布估計の混合高斯模型
感知機(PLA)
關於不平衡數據集以及代價敏感學習的探討

TAG:機器學習 |