變の貝葉斯
當Laplace攜手Gibbs,再攜手Bayes的時候, 就出現了貝葉斯Bayes之變! 對的今天的主角是Bayes。
邏輯學家 貝葉斯Bayes
貝葉斯,英國人, 出生牧師家庭(1701), 18歲那年開始進入大學專攻邏輯和神學。 之後他在這兩方面各有一篇著作。其中關於Bayes公式的是 《機會的學說概論》("An Essay towards solving a Problem in the Doctrine of Chances") , 他把概率和邏輯的結合就是Bayes公式的基礎。 而Bayes定理的出發點是使用了"逆概率"(inverse probability)這個概念。 他活了59歲,是神的侍奉者!
Variational Bayes, VB 和 Variational Inference, VI
很多時候, VB和VI並不做區分, 但是這裡想強行做點區分,我們知道一個學習理論, 基本會分架構, 推理(學習),和優化。 我們把VB強調是指把變分和Bayes結合起來的架構基礎。 而把VI強調推理學習和優化的部分。
前面(參考 「隨機眼裡的臨界」 ), 我們提到, Michael Jordan的牛掰弟子David Blei (參考 「喬丹上海行」), 在NIPS2016的Tutorial裡面Variational Inference (VI): Foundations and Modern Methods. 介紹到, VI的歷史發展主要得益於三波人: Peterson
和 Anderson (1987), Jordan, Tommi Jaakkola, Lawrence Saul, Zoubin
Gharamani (1990) 和 Geoffrey Hinton and Van Camp (1993)對於第一波人的工作在於如何理解物理上的模型的含義,這部分可以參考 「隨機眼裡的臨界」 。 而對於第二波人, Jordan實驗室早期工作主要是重建了良好的VB架構。 這部分, 希望在這裡概述一把。 對於第三波人, Hinton的工作主要建立了良好的優化基礎, 是和EM演算法聯繫起來, 希望以後能夠擴展。
從Gibbs能量說起
在 「給能量以自由吧!」 我們對Gibbs自由能進行數學上推廣, 利用了Boltzmann分布, Shannon 熵, 並且基於形式的簡單取了負號(導致物理上的能量越小越穩定,變成數學上能量越大越穩定), 我們推到出, 要Gibbs能量最大, 必須要求來自熵的可變概率b(x)的分布,與能量對應的分布 psi(x) 歸一化後的u(x)一致。
類比Laplace近似
我們在 「拉近似」 提到 Laplace 近似不是足夠精確, 這裡, 通過形式上的類比, 就可以通過上面的形式, 寫成log Z的樣子, 從而我們可以得到VB近似 。
同時,由於KL散度是大於等於0的, 所以其實這個近似是找到一個下屆(lower bound)。 並且前面我們知道, 逼近最精確的時候,就是要求Gibbs能量最大。 因為這時候KL距離最小。
引入Bayes公式
根據前面我們對psi(x)的定義要求, 我們可以類比於全概率公式(law of total probability), 同時把u(x) 利用貝葉斯公式(Bayes theorem)化簡, 這樣我們根據之前的均衡條件(equilibrium), 可以得到 P( Z | X ) = Q(Z)。
並且引入了Bayes之後, Gibbs自由能有了一個新名稱叫 the evidence lower bound。 log evidence是指P(X), 就是說我們給log P(X)找到了一個下界
如果我們把對應結果的近似引入,我們可以理解為ELBO:
這樣我們再把過程看一遍, 從Laplace近似, 到Variational 近似, 再到Variational Bayes 近似。
假如進一步, 我們把變分的部分參數化, 那麼我們可以得到如下形式:
這樣我們就得到了ELBO, KL, 和Log Evidence 之間的關係:
小結
這裡通過對Gibbs自由能的擴展, 把Bayes引入進來, 得到Jordan他們擴展的ELBO的框架。 這樣VI 或者VB歷史的前兩波人的工作大概有所介紹, 而第三波人的工作, Hitton是如何和EM演算法建立聯繫的, 希望以後也有擴展。
參考:
https://en.wikipedia.org/wiki/Variational_Bayesian_methods
http://www.blog.huajh7.com/variational-bayes/
推薦閱讀: