標籤:

[貝葉斯二]之貝葉斯決策理論

<個人網頁blog已經上線,一大波乾貨即將來襲:faiculty.com/>

/* 版權聲明:公開學習資源,只供線上學習,不可轉載,如需轉載請聯繫本人 .*/


生活中的許多決策都是不確定性的,比如明天是否下雨,我需要帶傘么?這個時候就需要我們做出決策,如果認為明天會下雨,顯然我們就會帶上傘,否則不然。那麼這個時候我們怎麼判斷我們的決策是否可信?又是否是最佳的決策呢?這個時候往往就需要引入評價準則(evaluation criteria)。不同的評價準則在相同的決策機制中往往會導致不同的決策結果。

貝葉斯決策常用的評價準則一般如下。

  • 最小錯誤概率(The minimum probability of error, the decision is optimal in the sense of minimum PE).
  • 最小風險誤差(the minimum risk, the decision is optimal in the sense of minimum average risk).
  • 個人準則(we should construct the decision rule to have maximum probability of detection while not allowing the probability of false alarm to exceed a certain value.)

一、貝葉斯決策理論

上述準則使用將在貝葉斯決策理論之後進行介紹。接下來,我們將詳細的講述貝葉斯決策理論。我們假設一個樣本的特徵向量x=[x_1 x_2…… x_l]^T. 而這個樣本可能屬於的類別空間為Ω= {w_1 w_2…… w_M },那麼貝葉斯決策理論就是計算出每個後驗概率(給出一個樣本X,計算出樣本X屬於類別w_i的概率),並找到最佳的類別w,判別該樣本屬於wif  P(w_i|x) 
ightarrow max Rightarrow x 
ightarrow w_i那麼我們該如何計算出這個後驗概率呢?答案當然是貝葉斯定理,如果我們能得到所有的先驗概率P(w_1 ) , P(w_2 ) ……P(w_M ),以及樣本x關於類別w_i的似然.P(x|w_i ),i=1,2,3…M 
ightarrow model.我們假設用貝葉斯來做二分類問題,那麼我們可以得到如下判決規則(decision rule)if egin{cases} P(w_1|x)>P(w_2|x), & 	ext{ => decide $ x in w_1$} \ P(w_1|x)<P(w_2|x), & 	ext{ => decide $ x in w_2$} end{cases}

Downarrow

if egin{cases} P(x|w_1)P(w_1)>P(x|w_2)P(w_2 ), & 	ext{ => decide $ x in w_1$} \ P(x|w_1 )P(w_1)<P(x|w_2 ) P(w_2 ), & 	ext{ => decide $ x in w_2$} end{cases}

由此我們可以畫一個簡單的決策圖。

根據上圖可以知道,虛線就是我們想要找的一個決策線,虛線左邊判決給類別1,虛線右側判決給類別2。但是由該圖我們可以清楚的知道,在陰影部分中(比如虛線左側的陰影部分),樣本為類別2也是可能的。我們稱這些陰影部分為決策失誤域,這就是為什麼決策需要一個決策準則(evaluation criteria )。

二、貝葉斯分類規則

2.1 決策錯誤概率(probability of decision error)

P(error|x)= egin{cases} P(w_1|x), & 	ext {=> if x $in w_i $ decision is $w_2$ } \ P(w_2|x), & 	ext{=> if $x in w_2$ decision is $w_1$} end{cases}

由此我們可以得到(如果樣本空間是連續的),如果x是屬於w_1,但是分類到了w_2,這個時候產生的決策錯誤為如下。

P_1(e) = int_{R_2} {p(x|w_1)P(w_1)} ,{
m d}x

如果x是屬於w_2,但是分類到了w_1,這個時候產生的決策錯誤為如下。

P_2(e) = int_{R_1} {p(x|w_2)P(w_2)} ,{
m d}x

color{red}{Total Error}P(e)=P_2 (e)+ p_1 (e) =陰影面積

由此我們可以得到一個結論,貝葉斯在最小錯誤概率(PE)準則中表現是最好的。如下圖所示,貝葉斯找到的是x_0作為分界線,該分解線劃分所得到的錯誤概率(陰影部分的面積)永遠是最小的,所以不可能會有一個演算法MPE值比貝葉斯分類更小。因為不管如何移動該條分界線都會增加陰影部分面積。

2.2 平均風險最小(minimizing the average risk)

在某些特定的場景下,平均風險最小化比錯誤率最低更加重要。比如當判決某個細胞是正常細胞還是癌細胞的時候,顯然把一個正常細胞錯判為癌細胞的風險要比把一個癌細胞錯判為正常細胞的風險大很多,後者的錯誤是致命的。這個時候我們往往需要給錯判的情況加上一個權重,用來顯示風險的大小。

下面我們首先介紹一下風險矩陣,或者又稱為損失矩陣。我們假設進行一個二分類的分類器設計。這個時候風險矩陣可以寫成如下的式子。

L = egin{bmatrix} lambda_{11} & lambda_{12} \ lambda_{21} & lambda_{22} \ end{bmatrix}

其中,lambda_{ij}表示把第j類錯分為第i類的懲罰因子。顯然對角線元素都為0。

那麼這個時候,分類器判決為第1類的風險就可以用如下的式子表示。

r_1= λ_{11} P(w_1│x)+ λ_{12} P(w_2│x)

如果樣本空間是連續的我們可以改寫成如下的式子。

上述式子也是平均風險的定義式。color {red} {註:}λ_{11} = λ_{22}=0, λ_{12} = λ_{21}=1的時候,color {fuchsia} {最小風險貝葉斯決策 = 最小錯誤率貝葉斯決策}


推薦閱讀:

看得見的資訊理論-為什麼用交叉熵作為邏輯回歸的代價函數
CS259D:數據挖掘與網路安全講義筆記
機器學習篇-名詞:候選集,覆蓋率
決策樹與隨機森林
「伊人」何處,宛在雲中央:用 Datalab 在雲上部署互動式編程環境

TAG:機器學習 |