樸素貝葉斯（ Naive Bayes）

01-27

在GDA中 x時連續隨機變數，這篇文章聊聊x是離散隨機變數的情形。回想垃圾郵件分類中我們把郵件分為垃圾郵件和非垃圾郵件，這是典型的文本分類問題。

如何表示一封郵件的內容呢？

此處我們採用特徵向量的方式，存在一個按照字母排序的字符集（也叫字典），如果郵件中出現過某一個單詞，就把特徵向量中對應的元素設為1. 例如郵件中的內容只有「a boy"時對應的特徵向量。

顯然x向量的維度等於字典長度。

接下來我們要對 $p(x|y)$ 建模：

方案1 ：原樣刻畫問題，把x看作多項分布，假設字典包含5000個詞，那麼 $x in {0,1 }^{50000}$ ， x就有 $2^{50000}$ 種可能取值。需要 $(2^{50000}-1)$ 個參數（一個 $2^{50000}-1$ 維度的參數向量）。顯然 $P(x^{(i)} | y)$ 參數過多，不可行。
方案2：做一個比較強的假設再刻畫問題，大大簡化模型。假設每個 $x_{i}$ 相對於y 條件獨立（ Naive Bayes (NB) assumption）。例如： $p(x_{2000}|y) = p(x_{2000}|y,x_{3000}).$ $x_{2000}$ 對應單詞」buy「 , $x_{3000}$ 對應單詞」price" ，它的意思是在已知郵件分類的情況下，「buy"是否在郵件中出現與」price"是否在郵件中出現過沒有關聯。

$phi_{y},phi_{i}|y=0 , phi_{i}|y=1$ 對於每一封郵件 $x^{(i)} = left( x_{1}, x_{2} cdots x_{m} right)^T$ 它對應的分布為 $P(x^{(i)} | y)$ 為：

利用貝葉斯公式得到模型： $p( y^{(i)} | x^{(i)} ) =n frac{ p(x^{(i)}, y^{(i)}) }{p(x^{(i)})} = nfrac {p(x^{(i)} | y^{(i)}) p(y^{(i)}) }{ sum p(x^{(i)} | y^{(i)}) p(y^{(i)}) }$ ，其中 $p(x^{(i)} | y^{(i)}) = prod_{j=1}^{n} p(x_{j} | y^{(i)})$

可見模型參數包括 $phi_{i}|y=1 = p(xi = 1|y = 1) n phi_{i}|y=0 = p(xi = 1|y = 0)n phi_{y} = p(y = 1)$ , 通過極大似然估計可以求解參數。具體如下：

給定訓練集 ${(x(i),y(i));i =1,...,m}n$ ，可以得到聯合似然函數：

其中 $p(x^{(i)} , y^{(i)}) = p(x^{(i)} | y^{(i)}) p(y^{(i)}) = { prod_{j=1}^{n} p(x_{j} | y^{(i)}) } cdot p(y^{(i)})$

求解 $max ; l( phi_{y} , phi_{i} |y=0 , phi_{i} |y=1)$ 得到：

這個結果有著明顯的意義：

$phi_{j} | y=1$ 是包含辭彙j的垃圾郵件與垃圾郵件之比
$phi_{j} | y=0$ 是包含辭彙j的非垃圾郵件與非垃圾郵件之比
$phi_{y}$ 是垃圾郵件所佔比例

已知參數就可以求得任意郵件 $x= left( x_{1}, x_{2} cdots x_{m} right)^T$ 屬於垃圾郵件的概率：

總結一下：

【樸素貝葉斯推廣】

上面第二步驟中假設每個辭彙 $x_{i}$ 只能取兩種值，它服從 Bernoulli 分布。如果它可以取 k個可能值 ${1,2,...,k_{i} }$ 就是多項分布： $p(x^i|y) sim M(n; phi_{1}, phi_{2} cdots phi_{n} ),$ 這就把樸素貝葉斯做了進一步推廣，適用範圍更廣。