高斯情況下的 Bayesian Inference

10-10

趕著最近懶癌沒有犯來繼續寫點關於Bayesian的內容。

繼上次大概說了說Bayesian perspective和Frequentist perspective之間的差別，這次以Univariant Gaussian下的分類(or 回歸)來說一說Parameter Inference from Bayesian。多為高斯分布與一維相似，這裡以一維為例。

1. problem setup：

Give： $D = {x_{1}, x_{2},..., x_{N}}$

Assume: $xsim N(mu|sigma^{2})$

Task: 根據D來求出對應的μ和σ，得到x的分布。

分三種情況討論：

case 1：μ未知，σ已知；

case 2：μ已知，σ未知；

case 3：μ未知，σ未知；

解釋一下：這裡D是我們的訓練集，我們假設隨機變數x是屬於高斯分布的，那麼Bayesian Inference要做的就是根據我們已有的數據集D，來估計出參數，也就是μ、σ的值，從而我們就得到了x的具體的概率密度分布。因此我們可以用來進行後續的分類或者回歸等。

對於Bayesian Inference，基本的公式是：

$p(μ|D) propto p(D|u)cdot p(u)$

這裡第一項就是我們需要求的參數μ(or σ)；
正比符號後面第一項就是似然概率，也就是得到參數之後觀察到我們訓練集D的概率；
正比符號後面而第二項就是先驗，也就是我們在還沒有看到數據集D之前可以根據我們的經驗對參數進行的假設。

對於Bayesian Inference，我們需要假設prior，也就是先驗概率分布。舉個例子，假設我們想模擬室內溫度，
並且我們假定室內溫度x服從正態分布。如果我們相信室內溫度在24°左右，那麼我們可以assume μ是一個均值
為27的正態分布，從而引入我們的先驗知識。

case 1：

prior:

這裡隨機變數是μ，因此我們假設μ服從高斯分布，也就是 $musim N(mu|mu_{o},sigma_{o}^{2})$

likelihood：

$p(D|mu) = prod_{i=1}^{N} frac{1}{sqrt{2pi}sigma}exp{-frac{(x^{i}-mu)^{2}}{2sigma^{2}}}$

我們因此可以計算出posterior：

$[ egin{split} p(mu|D) &propto p(D|mu)cdot p(mu) \ &propto N(x|mu,sigma^{2})cdot N(mu|mu_{o},sigma_{o}^{2}) \ & propto N(mu|mu_{n},sigma_{n}^{2}) end{split} ]$

具體地： $[ egin{split} &mu_{n} = frac{Nsigma_{o}^{2}}{sigma^{2}+Nsigma_{o}^{2}}(frac{1}{N}sum_{i=0}^{N}{x_{i}}) + frac{sigma^{2}}{sigma^{2}+Nsigma_{o}^{2}}mu_{o}\ &sigma_{n}^{2} = frac{sigma^{2}sigma_{o}^{2}}{sigma^{2}+Nsigma_{o}^{2}} end{split} ]$

所以我們很驚喜發現其實最後得到的也是高斯分布，具體推導過程其實很久但，展開兩個高斯公式最後化簡組合之後就會發現，仍然是關於μ的高斯分布。特么地，這裡的prior稱作likelihood的conjugate distribution（共軛分布），也就是說當prior和likelihood為共軛分布時，posterior和prior是服從同一分布的，比如在這裡都是服從高斯分布。

Conjugate Dist. 在Bayesian中有著非常重要的作用。為什麼我們希望有conjugate distribution呢，因為基於Bayesian的基本公式，我們知道如果要求p(μ|D)(posterior),我們需要對prior和likelihood的乘積進行積分，而積分往往會帶來非常複雜的計算量以及無法得到閉環的解。而加入我們知道我們假設的prior和likelihood的共軛的時候，我們可以清楚地知道我們需要求的posterior也是屬於同一分布，這樣就會大大減少了計算量。我們需要做的其實就是和上式一樣，對參數(這裡是μ)進行一些整理組合成二次項和一次項，使得其與高斯分布公式中的二次項與一次項吻合，這樣我們就可以輕鬆地得到hyper-parameter(這裡指的是prior中的參數)了。具體如下圖所示（懶得敲公式了）：

所以說，conjugate dist.在統計學中是非常重要的一項。具體可以後面有空寫一下相關的Exponential Family，可能會更加有概括性。

注意：在 $mu_{n}$ 、 $sigma_{n}^{2}$ 的公式中（其中 $mu_{o}$ 、 $sigma_{o}^{2}$ 是先驗概率參數）：

如果 $sigma_{o}^{2}$ =0，則 $mu_{n}=mu_{o}$ ，也就是說我們非常確定不管數據集D是什麼樣，最終的 $mu_{n}$ 就是我們的先驗概率；
如果 $sigma_o^{2}gg sigma^{2}$ ,則 $mu_{n}趨近mu_{ml}$ ，其中 $mu_{ml}=frac{1}{N}sum_{i=0}^{N}{x_{i}}$ ，是我們用ML estimation求出來的解，也就是說如果我們對先驗非常不確定時，我們就給它很大的variance，讓數據來影響最後的結果；
當N趨近無窮大，則 $mu_{n}趨近mu_{ml}$ ，也就是說當我們數據集中有無限多的數據的時候，Bayesian求出的解和ML estimator求出來的解其實是一樣的

這也就說明了很多時候，我們可以將Bayesian和Frequentist聯繫起來。

case 2和case 3下次再寫。。。。。。