高斯情況下的 Bayesian Inference

高斯情況下的 Bayesian Inference

趕著最近懶癌沒有犯來繼續寫點關於Bayesian的內容。

繼上次大概說了說Bayesian perspective和Frequentist perspective之間的差別,這次以Univariant Gaussian下的分類(or 回歸)來說一說Parameter Inference from Bayesian。多為高斯分布與一維相似,這裡以一維為例。

1. problem setup:

Give: D = {x_{1}, x_{2},..., x_{N}}

Assume: xsim N(mu|sigma^{2})

Task: 根據D來求出對應的μ和σ,得到x的分布。

分三種情況討論:

case 1:μ未知,σ已知;

case 2:μ已知,σ未知;

case 3:μ未知,σ未知;

解釋一下:這裡D是我們的訓練集,我們假設隨機變數x是屬於高斯分布的,那麼Bayesian Inference要做的就是根據我們已有的數據集D,來估計出參數,也就是μ、σ的值,從而我們就得到了x的具體的概率密度分布。因此我們可以用來進行後續的分類或者回歸等。

對於Bayesian Inference,基本的公式是:

p(μ|D) propto p(D|u)cdot p(u)

  • 這裡第一項就是我們需要求的參數μ(or σ);
  • 正比符號後面第一項就是似然概率,也就是得到參數之後觀察到我們訓練集D的概率;
  • 正比符號後面而第二項就是先驗,也就是我們在還沒有看到數據集D之前可以根據我們的經驗對參數進行的假設。

對於Bayesian Inference,我們需要假設prior,也就是先驗概率分布。舉個例子,假設我們想模擬室內溫度,

並且我們假定室內溫度x服從正態分布。如果我們相信室內溫度在24°左右,那麼我們可以assume μ是一個均值

為27的正態分布,從而引入我們的先驗知識。

case 1:

  • prior:

這裡隨機變數是μ,因此我們假設μ服從高斯分布,也就是 musim N(mu|mu_{o},sigma_{o}^{2})

  • likelihood:

p(D|mu) = prod_{i=1}^{N} frac{1}{sqrt{2pi}sigma}exp{-frac{(x^{i}-mu)^{2}}{2sigma^{2}}}

  • 我們因此可以計算出posterior:

[ egin{split} p(mu|D) &propto p(D|mu)cdot p(mu)     \  &propto N(x|mu,sigma^{2})cdot N(mu|mu_{o},sigma_{o}^{2}) \ & propto N(mu|mu_{n},sigma_{n}^{2}) end{split} ]

具體地: [ egin{split} &mu_{n} = frac{Nsigma_{o}^{2}}{sigma^{2}+Nsigma_{o}^{2}}(frac{1}{N}sum_{i=0}^{N}{x_{i}}) + frac{sigma^{2}}{sigma^{2}+Nsigma_{o}^{2}}mu_{o}\ &sigma_{n}^{2} = frac{sigma^{2}sigma_{o}^{2}}{sigma^{2}+Nsigma_{o}^{2}} end{split} ]

所以我們很驚喜發現其實最後得到的也是高斯分布,具體推導過程其實很久但,展開兩個高斯公式最後化簡組合之後就會發現,仍然是關於μ的高斯分布。特么地,這裡的prior稱作likelihood的conjugate distribution(共軛分布),也就是說當prior和likelihood為共軛分布時,posterior和prior是服從同一分布的,比如在這裡都是服從高斯分布。

Conjugate Dist. 在Bayesian中有著非常重要的作用。為什麼我們希望有conjugate distribution呢,因為基於Bayesian的基本公式,我們知道如果要求p(μ|D)(posterior),我們需要對prior和likelihood的乘積進行積分,而積分往往會帶來非常複雜的計算量以及無法得到閉環的解。而加入我們知道我們假設的prior和likelihood的共軛的時候,我們可以清楚地知道我們需要求的posterior也是屬於同一分布,這樣就會大大減少了計算量。我們需要做的其實就是和上式一樣,對參數(這裡是μ)進行一些整理組合成二次項和一次項,使得其與高斯分布公式中的二次項與一次項吻合,這樣我們就可以輕鬆地得到hyper-parameter(這裡指的是prior中的參數)了。具體如下圖所示(懶得敲公式了):

所以說,conjugate dist.在統計學中是非常重要的一項。具體可以後面有空寫一下相關的Exponential Family,可能會更加有概括性。

注意:在 mu_{n} sigma_{n}^{2} 的公式中(其中 mu_{o}sigma_{o}^{2} 是先驗概率參數):

  • 如果sigma_{o}^{2}=0,則 mu_{n}=mu_{o} ,也就是說我們非常確定不管數據集D是什麼樣,最終的mu_{n} 就是我們的先驗概率;
  • 如果 sigma_o^{2}gg sigma^{2} ,則mu_{n}趨近mu_{ml} ,其中 mu_{ml}=frac{1}{N}sum_{i=0}^{N}{x_{i}} ,是我們用ML estimation求出來的解,也就是說如果我們對先驗非常不確定時,我們就給它很大的variance,讓數據來影響最後的結果;
  • 當N趨近無窮大,則mu_{n}趨近mu_{ml} ,也就是說當我們數據集中有無限多的數據的時候,Bayesian求出的解和ML estimator求出來的解其實是一樣的

這也就說明了很多時候,我們可以將Bayesian和Frequentist聯繫起來。


case 2和case 3下次再寫。。。。。。


推薦閱讀:

TAG:機器學習 | 數學 | 自然科學 |