高斯情況下的 Bayesian Inference
趕著最近懶癌沒有犯來繼續寫點關於Bayesian的內容。
繼上次大概說了說Bayesian perspective和Frequentist perspective之間的差別,這次以Univariant Gaussian下的分類(or 回歸)來說一說Parameter Inference from Bayesian。多為高斯分布與一維相似,這裡以一維為例。
1. problem setup:
Give:
Assume:
Task: 根據D來求出對應的μ和σ,得到x的分布。
分三種情況討論:
case 1:μ未知,σ已知;
case 2:μ已知,σ未知;
case 3:μ未知,σ未知;
解釋一下:這裡D是我們的訓練集,我們假設隨機變數x是屬於高斯分布的,那麼Bayesian Inference要做的就是根據我們已有的數據集D,來估計出參數,也就是μ、σ的值,從而我們就得到了x的具體的概率密度分布。因此我們可以用來進行後續的分類或者回歸等。
對於Bayesian Inference,基本的公式是:
- 這裡第一項就是我們需要求的參數μ(or σ);
- 正比符號後面第一項就是似然概率,也就是得到參數之後觀察到我們訓練集D的概率;
- 正比符號後面而第二項就是先驗,也就是我們在還沒有看到數據集D之前可以根據我們的經驗對參數進行的假設。
對於Bayesian Inference,我們需要假設prior,也就是先驗概率分布。舉個例子,假設我們想模擬室內溫度,
並且我們假定室內溫度x服從正態分布。如果我們相信室內溫度在24°左右,那麼我們可以assume μ是一個均值為27的正態分布,從而引入我們的先驗知識。
case 1:
- prior:
這裡隨機變數是μ,因此我們假設μ服從高斯分布,也就是
- likelihood:
- 我們因此可以計算出posterior:
具體地:
所以我們很驚喜發現其實最後得到的也是高斯分布,具體推導過程其實很久但,展開兩個高斯公式最後化簡組合之後就會發現,仍然是關於μ的高斯分布。特么地,這裡的prior稱作likelihood的conjugate distribution(共軛分布),也就是說當prior和likelihood為共軛分布時,posterior和prior是服從同一分布的,比如在這裡都是服從高斯分布。
Conjugate Dist. 在Bayesian中有著非常重要的作用。為什麼我們希望有conjugate distribution呢,因為基於Bayesian的基本公式,我們知道如果要求p(μ|D)(posterior),我們需要對prior和likelihood的乘積進行積分,而積分往往會帶來非常複雜的計算量以及無法得到閉環的解。而加入我們知道我們假設的prior和likelihood的共軛的時候,我們可以清楚地知道我們需要求的posterior也是屬於同一分布,這樣就會大大減少了計算量。我們需要做的其實就是和上式一樣,對參數(這裡是μ)進行一些整理組合成二次項和一次項,使得其與高斯分布公式中的二次項與一次項吻合,這樣我們就可以輕鬆地得到hyper-parameter(這裡指的是prior中的參數)了。具體如下圖所示(懶得敲公式了):
所以說,conjugate dist.在統計學中是非常重要的一項。具體可以後面有空寫一下相關的Exponential Family,可能會更加有概括性。
注意:在 、 的公式中(其中 、 是先驗概率參數):
- 如果=0,則 ,也就是說我們非常確定不管數據集D是什麼樣,最終的就是我們的先驗概率;
- 如果 ,則 ,其中 ,是我們用ML estimation求出來的解,也就是說如果我們對先驗非常不確定時,我們就給它很大的variance,讓數據來影響最後的結果;
- 當N趨近無窮大,則 ,也就是說當我們數據集中有無限多的數據的時候,Bayesian求出的解和ML estimator求出來的解其實是一樣的
這也就說明了很多時候,我們可以將Bayesian和Frequentist聯繫起來。
case 2和case 3下次再寫。。。。。。
推薦閱讀: