機器學習是如何借鑒物理學思想的?從伊辛模型談起(萬字長文)

機器學習是如何借鑒物理學思想的?從伊辛模型談起(萬字長文)

來自專欄數據汪16 人贊了文章

大數據文摘作品

翻譯:大力、白丁、阮雪妮、Lisa、彭湘偉、Shan LIU、錢天培

物理和機器學習,這兩個聽起來不相關的領域,居然有著千絲萬縷的聯繫!

文摘菌第一次聽說時也嚇了一跳。

而就真有這樣一個神奇的模型,將物理和機器學習緊密聯繫到了一起——它就是伊辛模型。

伊辛模型——一個描述物質磁性的簡單模型——會幫助闡釋兩個領域之間的廣泛聯繫。

今天,文摘菌會先從簡單物理直覺談談這個模型,然後導出物理學中著名的變分原理,從而嚴格推出這個模型。

然後我們就會發現,正是這個變分原理打開了機器學習的窗口。我們將玻爾茲曼分布歸為指數組,使一一對應透明化,並且通過變分原理來證明近似後驗推斷與大量的數據之間的關係。

如果你有物理學基礎的話,我希望看了這篇文章後會對機器學習有更好的認知,並且可以讀懂相關領域的論文。如果你專攻機器學習,我希望你看了這篇文章之後可以看得懂統計物理學中平均場論和伊辛模型的論文。

物理學中的伊辛模型

現在我們來思考一個自旋向上或者向下的晶格:

什麼樣的特性會促使這個系統變成一個可靠的磁性模型呢?

想想你玩磁鐵的情景——如果你把兩塊磁鐵放的很近,它們會彼此拉的更近。如果它們是同性的磁極則會相斥。如果它們離的很遠,則完全不會發生這種吸引的情況。

這意味著在我們的模型里,鄰近的自旋會互相影響:如果圍繞s_i點的自旋都是向上的,那它也會是向上的。

我們參照位置i處的自旋為s_i。自旋只能處於兩種狀態中的一種:向上(s_i=+1)或向下(s_i=-1)。

我們引入交互作用參數J,用物理學的直覺來推論出自旋會相互吸引(它們想指向相同的方向)或相互排斥(它們要指向相反的方向)。

這個參數描述了自旋i和自旋j之間的交互強度。

如果兩個相鄰自旋指向相同的方向,我們用J來表示它們交互的總能量;如果指向相反的方向,則用J來表示。

然後我們就可以得到系統的能量方程,或者叫哈密頓量:

如果自旋i和自旋j相鄰,J_ij=J;反之J_ij=0。因子1/2是考慮到i和j求和時候的重複計算。注意系統的自旋是有限多的(N個自旋)。

自旋組態或者系統的狀態是所有自旋的特定值的組合。集合{s_1=+1,s_2=+1,s_3=?1,...,s_N=+1}是組態的一個例子。

熱力學第二定律告訴我們在固定溫度和熵的情況下,系統會尋求最小化其能量的組態方法。這讓我們可以推理出交互作用的情況。

如果交互作用強度J為零,自旋之間沒有交互聯繫,所有組態的系統能量也為零(能量小到可以忽略不計)。但如果強度J為正,自旋會按照某種規則排列起來使系統的能量E(s_1,s_2,...,s_N)最小。由於能量方程中求和前面的負號,這便與最小化一致。

然後引入磁場H。假定自旋的晶格在磁場中,比如地殼周圍的磁場。磁場對每個自旋單獨作用,每個自旋都會試圖與磁場方向保持一致。我們可以加入每個自旋的作用的求和項來表示系統在磁場中的能量方程:

我們可以通過觀察磁場強度H變大或變小(增強或減弱)會發生什麼來推導出H的大小。如果H變大,自旋之間的交互作用減弱,磁場項會起主導作用,自旋就會按照磁場分布排列以使系統能量最小。但是如果磁場很小就很難推導出來了。

現在我們明確了伊辛模型的定義和它的性質,我們來思考一下我們的目標。關於伊辛模型我們可以解決什麼問題?例如,如果我們觀察系統,它會處於什麼狀態?最可能的自旋組態是怎麼樣的?平均磁化強度是怎麼樣的?

玻爾茲曼分布

我們可以把目標設定的更清晰一些數學更簡明一些嗎?那麼我們需要定義一個自旋組態的分布。很顯然的我們可以得出系統處於平衡態的概率。

這便是玻爾茲曼分布。對於一個特定的組態,分子叫做玻爾茲曼因子。這個因子給一個特定的系統和其能量狀態提供了可高可低的權重。

我們想要知道,給定一個特定的自旋組態,系統處於這個狀態的概率的玻爾茲曼分布。

譬如,我們的組態的第一批自旋是向上、向上、向下,等等。我們將這個情況代入到公式裡面得到P(s_1=+1,s_2=+1,s_3=?1,...,s_N=+1)=0.7321這意味著這種狀態發生的可能性很大。

這個分布與直覺相符:低能量的比高能量的狀態更可能出現。例如,在J=+1的情況下,自旋會開始排列,其中最可能出現的排列狀態是所有的自旋指向相同的方向。為什麼呢?因為這符合最小化能量的方程,其中的玻爾茲曼因子有最大的權重。

參數β與溫度的倒數成正比,β=1/T*k_B並且用來方便的標記。(準確的說,這包括了使概率密度無量綱化的常數k_B)溫度控制著粒子間的交互作用的強度進而影響整個模型。如果T→∞,溫度很高,溫度的倒數就很低,β?1,所以交互強度J就不重要。但是在低溫狀態下,J除以一個較小的數就很大,因此交互強度夠大會顯著影響系統狀態。

配分函數

分母Z是最重要的。它確保了分布的積分為1,由此這是一個合理的概率分布。我們需要這個正則化來計算系統的性質。計算平均值和其他值只能藉助一個概率質量函數。Z被稱為「配分函數」或者「正則常數」,它是每個狀態下玻爾茲曼因子的和。

為了闡述為什麼我們不能求出分布的精確解,我將這個和明確地寫出來:我們需要將所有可能的組態求和。每個自旋都有兩種狀態,又有N個自旋。這意味著求和的階數會有2^N。即使對一個只有一百個自旋的微小系統來說,這個計算量已經比整個宇宙的原子數量還要多了,我們沒有可能算得出來。

利用玻爾茲曼分布來計算系統特性

我們得到的概率分布反映了系統可能處於的狀態,但是被卡在了配分函數這個磨人的小妖精上。暫時假定我們能夠通過無窮運算得出玻爾茲曼分布的配分函數,那麼從系統的波爾茨曼分布中我們能了解到哪些有趣的情況呢?

該分布使我們能夠把系統作為一個整體,利用期望值(例如計算可觀測量)來計算其特性。舉個例子,磁化強度m是所有自旋粒子的磁化強度均值。

我們為什麼要關注這個磁化強度呢?因為它能夠反應系統的宏觀狀態,而非某個特定的微觀狀態。我們丟失了特異性,因為我們對第一個自旋粒子s_1一無所知,但是透過所有其餘自旋粒子可能出現的狀態,我們掌握了其運動狀態。

相同的自旋方向意味著系統處於有序狀態,磁性為陰極或陽極;而相反的自旋方向則說明系統處於無序狀態,平均磁化強度為零。

以上都是系統在全球範圍內不同的相位,與溫度息息相關。如果溫度T無限升高,其倒數β則趨近於零度,系統的所有狀態就會像波爾茨曼分布描述的那樣處於等可能狀態,此時系統可以在有序相和無序相間來回切換。

這種相變以及溫度對其的影響方式在衡量伊辛模型與真實世界物質匹配程度高低中發揮著重要作用。

別忘了我們求不出配分函數Z的值。想要回答磁化強度值等此類有趣的問題,我們似乎陷入了一個無解的境地。然而謝天謝地,通過獨立分析每個自旋粒子並估出近似值,這個問題就被進一步簡化了。

物理學中的平均場理論

鑒於我們無法通過計算得出配分函數計算所需的總值,我們就改換山頭轉向平均場理論吧。

這個「約莫」的技巧使我們依然有能力回答平均磁化強度等關於系統的一系列問題。我們將繼續研究磁化強度m與溫度的依賴性。

從單個自旋粒子入手更容易把這個技巧說明白:

伊辛模型在H磁場中的第一個自旋粒子。磁場用虛線表示。其附近的粒子通過互動形成了有效磁場,表示為連接粒子的線。

這個單一粒子對系統全部能量的貢獻一言以蔽之,就是能量中的對應項。

總值大於z距離最近的粒子。在我們正在探討的二維點陣中,z=4。根據單一粒子圍繞平均值上下波動,我們能夠為這個自旋粒子重寫能量函數如下:

接下來的這一步至關重要:我們將忽略相鄰自旋粒子均值附近的波動。換句話說,我們假設項(s_j?m)→0,這樣一來s_0的所有鄰居都等於其平均值,s_j=m

這在什麼時候會成立呢?

當均值附近波動很小時,比如低溫「有序」相。該假設大大簡化了該自旋粒子的哈密爾頓量。

這是單一自旋粒子的平均場能量函數,相當於一個處於有效磁場中的非相互作用自旋粒子H^{eff}=zJm+H。

我們為什麼說這個自旋粒子是非相互作用的呢?該自旋粒子的能量方程僅依賴於其狀態,s_1,與任何其他自旋粒子的狀態無關。通過引入相鄰自旋粒子我們得到了平均磁場強度,進而估算出了交互效果,也就是平均場。

在這個平均場大的模型中,每個自旋粒子都受到整個系統所在的磁場H的影響,以及其相鄰自旋粒子zJm的「有效」平均磁場的影響。

我們用下面的公式來進行說明

公式中ΔH=zJm是每個自旋粒子相鄰粒子的平均磁場(平均場)。

忽略了每個自旋粒子的波動之後,問題被進一步簡化。現在位於均勻磁場H中的是N獨立自旋粒子,而非N相互作用自旋粒子;並通過ΔH這個小小的矯正值來體現相互作用的影響。

我們將平均場模型的能量函數寫作:

可見函數中不再出現相互作用項了(s_is_j這一項未出現在能量函數中)

換句話說,我們既可以單獨觀察每個自旋粒子,也能夠將所有結果合理匯總,得到整個系統的模型。

我們從根本上改變了問題的本質。

我們現在要做的就只是計算單一自旋粒子的配分函數,而非整個系統的配分函數Z了。

我們能夠用解析解4直接作出回答:

那麼由N自旋粒子推導出的整個平均場模型的配分函數就是

配分函數在手,波爾茨曼分布我有;回答諸如磁化強度等與系統有關的問題也不在話下。

我們利用自旋粒子分布的期望值推導除了磁化強度。最後一步需要該值來計算任意自旋粒子i的情況,其平均磁化強度應等於系統整體的平均磁化強度:

由此我們得到了一個簡明易懂的磁化強度等式

這裡我們用到的平均場參數為ΔH=zJm。

這個針對磁化強度m的公式是一個溫度函數。雖然它並沒有封閉解,但是我們能夠調整等式兩端,查找交集部分來得到隱含解(拖動滑塊來設定新溫度):

首先,我們來考慮一下沒有外磁場的情況,即H=0。

高溫條件下等式只有唯一解:m=0。這與我們的直覺是一致的-如果考慮整個系統的能量情況,溫度倒數β趨近於零,所有自旋粒子的所有狀態都處於等可能水平,其平均值為零。

低溫條件下有3個解:m=0和m=±∣m∣。增加的±解的出現條件是tanh函數在原點的坡度大於以下:

相變「臨界溫度」的出現條件是βzJ=(1/T*k_B)*(zJ)=1,或(k_B)*(T_c )= zJ。

由此我們得到了一個可檢驗的預測:我們能夠取一個磁性物體,然後測量其相變溫度。

我們的目標達成了嗎?

我們最初的目標是從磁化強度等全球特質的角度,掌握該模型在不同溫度下的表現。

通過研究單一自旋粒子和估算其他自旋粒子作為有效磁場的影響,我們顯著降低了問題的複雜程度。以此為基礎,我們能夠進一步研究相變。然而,我們的論證總感覺有些底氣不足,所以接下來我們繼續深入研究,打牢地基,證明我們的直覺。

推導變分自由能原理:Gibbs-Bogoliubov-Feynman不等式

我們是否能知道,當我們做出「忽略自旋粒子在其均值附近的波動」的假設時,我們做出了什麼樣的權衡取捨呢?更具體地說,我們應該如何評價我們從平均場理論中所得到的結論呢?

我們可以通過直接研究這個棘手的配分函數來重新得到在之前部分中出現的平均場的結果。我們可以試著用一個簡單一點的函數來估計這個配分函數。

讓我們一起回顧一下,這個系統的配分函數Z是

和之前一樣,系統的能量是

計算這個配分函數的難度來源於帶有s_is_j的交叉項。我們發現如果沒有這一項的話,我們就能把問題簡化為處理一個由獨立的自旋粒子組成的系統了。

為了導出變分原理,我們假設一個有如下形式的能量函數

在之前的推導中我們已經通過我們的物理直覺得到了平均場參數為ΔH=zJm。

現在就有一個問題:這是最優的有效磁場嗎?我們可以認為ΔH是通過調整能得到原始系統最優解的平均場模型的參數。

這被稱為「微擾法」:我們對系統的磁場進行微擾,並試著尋找能夠得到原始系統一個好的近似的最優擾動。

一個好的近似需要什麼?我們的困難在於計算配分函數。因此我們想要用我們的平均場系統的變分函數Z_{MF}來近似估計原始系統的配分函數。但願Z_{MF}是容易計算的,不需要進行和宇宙中原子個數相同量級的求和運算。

首先讓我們看看能否用我們的近似來表達原始系統Z的配分函數。通過計算能量的波動,我們可以計算平均場系統的能量偏離參考系的程度。

讓我們把原來的配分函數重新表達為:

在下一步中,我們需要定義函數A關於平均場波茲曼分布的期望。

這就意味著我們可以把原系統的配分函數表達為平均場配分函數的函數。

這就是原始系統的配分函數的一個因式分解。這是以偏離參考系的能量波動的期望波茲曼因子為權重的平均場配分函數。

然而,對這個複雜的指數函數積分是很困難的,即使是對平均場系統來說也不容易。我們將利用一個經典的物理技巧來簡化這一過程——將它泰勒展開。

假定能量波動很小;ΔE?1。於是我們便可以對這個指數進行泰勒展開:

在上式中我們省略了波動ΔE的二次項。於是我們得到了對原始系統配分函數使用一階微擾法的結果:

這個估計有多好呢?讓我們引入一個簡單的恆不等式:e^x≥(x+1)。

把這個式子用到配分函數的準確因式分解的期望中,取f=?β*ΔE:

現在我們得到了配分函數的一個下界:

這個不等式就是Gibbs-Bogoliubov-Feynman 不等式。這個式子告訴我們,通過平均場近似,我們可以得到原配分函數的一個下界。

利用Gibbs-Bogoliubov-Feynman不等式對伊辛模型進行變分處理

讓我們來應用這一理論:在伊辛模型中我們是否能得到同樣的磁化強度呢?

在平均場伊辛模型中,我們獨立地處理每個自旋粒子,因此系統的能量函數就分解為獨立的部分:

這裡ΔH是有效磁場強度。這是配分函數下界取最大值時的參數。

把它代入從Gibbs-Bogoliubov-Feynman不等式中得到的配分函數的下界中,並求導來使下界取到極大值:

首先我們得求出期望:

在這裡我們用到了平均場的假設:自旋粒子是各自獨立的。因而有:

我們還假定,對於一個足夠大的系統,模型邊緣上的自旋粒子(邊界條件)可以被忽略。因此所有的自旋粒子都有相同的平均磁化強度:

把它代入配分函數的下界並求導,有

這裡用到了之前的結論:

這證實了我們之前的推理:最優的平均場參數是ΔH=Jzm。在這一過程中共有三個步驟。我們首先定義了我們關心的模型,然後寫下了它的平均場近似,最後我們對配分函數的下界求極大值。

以機器學習視角對Ising模型的展望

現在,讓我們以機器學習的語言來構建我們剛剛的思考過程。更具體的說,讓我們以隨機建模的思路來思考這個問題。

在機器學習中,我們需要一些定義來展現變分原理與變分推斷之間的等價關係。

Ising模型是一種無向圖模型,或者說馬爾科夫隨機場。我們可以用圖表來表示模型里的條件依賴關係;圖中的節點為隨機變數。這些隨機變數是伊辛模型的自旋,如果兩個節點會相互影響,就用一條邊鏈接他們。由此我們可以對下圖中隨機變數的聯合分布進行編碼:

Ising模型的無向圖模型表達。節點為隨機變數,邊表示他們分布的條件依賴關係。

將該圖像模型聯合分布參數化,就得到波爾茲曼分布。該圖與物理自旋表現非常相似,再次強調,自旋代表隨機變數。 我們同樣可以將節點分布寫成指數形式。指數族分布可以使我們推導出一個廣泛類的數個模型。

指數族

指數族是一種將類似Ising模型的概率分布數據化的方式。這些分布族支持可以寫成如下具體簡單的數學公式

這裡η是自然參數,h(x)是基礎度量值,t(x)是充分統計量

a(η)是對數配分函數, 也叫對數正規化子。有很長一段時間內我對於指數族倍感困惑,最後是具體是具體的推導過程幫助了我理解。

例如,我們看到過伯努里分布的以下表達:

我們可以把他寫成指數族的形式

與以上公司相比,指數族展示了伯努利的自然參數,基礎度量值,充分統計量,分別為η=log(π1?π),t(x)=x,a(η)=?log(1?π)=log(1+e^η)和h(x)=1。

和物理學更多的聯繫:對數正規化子是配分函數的對數。這一點在伯努利的指數族中尤為明顯:

現在我們可以確定η類似於溫度,擁有自旋x。我沒找到了Ising模型的指數族形式!

Ising模型的指數族形式

讓我們通過伯努利分布的指數族公式把Ising模型的能量公式與指數族形式聯繫起來

我們引入了一些新的注釋到圖像模型中:我們把一個節點分布除以一個圖中在頂點V上的自然變數的集合,並與E中的邊聯合。

這就是Ising模型的指數族形式,一個關於θ的概率模型。為了使它和我們之前得到的形式一樣。如果i和j共享一條邊(比如他們相鄰)設θ_ij=(1/2)*βJ,並設θ_i = H。

我們可以看到,Ising模型有兩組模型參數。自旋與自旋的相互作用參數乘以溫度 βJ的倒數,控制著圖中每條邊的影響。溫度倒數乘以磁場影響著每個自旋。我們也可以得出結論:溫度倒數是一個全局模型參數。對一個已定的互動場或磁場,我們可以通過改變溫度來索引一個具體的模型。

這點既很微妙有很重要。我們的在隨機變數(N自旋)上的聯合分布由模型參數索引。通過改變倒溫度參數β,我們可以選擇一個具體的模型(在對應溫度下的伊辛模型)。對於一個特定的自旋與自旋相互作用參數j也是亦然。

關於模型我們能問什麼問題?

計算磁化強度m=(1/N)*?s_1+...+s_N?=?s_i?意味著計算E_p(si)的期望。從概率的角度來說,這意味著計算node i的邊際期望。

但計算邊際分布是很棘手的,基於我們之前討論過的原因:它需要邊際化所有 j≠i的點

這種情況是不可行的:我們不僅需要為N點的聯合分布計算標準化的定值,這需要2^N個項,而且我們需要邊際化N?1個變數(另外的2^(N-1)個項)

當從物理角度考慮這個模型時,這等同於我們在配分函數裡面看到的那樣。

我們還可以繼續依靠變分原理來回答有關邊際分布的問題嗎?

機器學習中的變分推論

如果我們可以計算所有隨機變數的配置總和,我們就可以計算這個配分函數。但我們不能,因為這個總和以2^N級增長。

以物理學家的身份,我們的策略是估算配分函數。

從機器學習的角度,這個技術叫做變分推論。我們改變一些簡單的東西來推論複雜的東西。

讓我們來看看機器學習是怎樣推導變分自由能,並且應用在估測配分函數上的。

我們有一個隨機變數的概率模型pθ(s_1,...,s_N),然後我們想要尋找計算它的標準化常量或者配分函數。

讓我們構建一個更簡單的概率分布qλ(s_1,...,s_N), 以λ為參數,並且用它來估測我們的模型。

我們的估測怎麼樣呢?一個測量方法是看我們的估測和目標分布之間的Kullback-Leibler差異有多大。

這個qqq和ppp之間的差異,或者相對熵,計算了當使用q來估計p時的信息損失總量(以bits或者nats為單位)這給了一個調整我們估測的標準。我們調整λ參數直到最小化估測的Kullback-Leibler誤差。

KL差異是由以下雙豎線組成的

讓我們假定我們正在處理一個指數家族的分布例如Ising模型。已知能量方程E(s_1, ..., s_N),我們讓p在模型中呈Boltzmann分布

假設qqq的分布的能量方程是有λ參數的:

為了測量我們使用qqq代替ppp來估測所損失的信息,我們把他們代入Kullback-Leibler差異中:

我們定義變數下限L(λ)如下:

我們可以把變數下限移到方程的另一邊來得到以下的等式:

根據Jensen』s不等式,易得KL差異總是大於等於零。這意味著如果我們將L(λ)變大,KL差異一定變小(同時,我們的估測必須改善)。因此我們可以降低偏分方程的邊界:

這意味著我們可以調整我們估測中的參數λ來提高下限值,並且得到一個對變分方程更好的估測!

注意到在變數下限的定義中,我們不用擔心計算變分方程的費力的任務:它不需要取決於λ。

這是很棒的:我們已經構建了對於p概率模型中的q_λ的估測並且找到一個調整參數來讓估測變得更好的方法。

有趣的部分是我們可以不用通過計算它棘手變分函數的方式來提高模型的估測。我們只需要估測它的能量方程E(s),這是更容易去計算的。

這是不是厲害得難以置信?我們是不是忽視了什麼?我們已經失去了用絕對項去測量這個估測好壞的能力,為了估測,我們仍然需要去計算變分方程來計算KL差異。我們確實知道只要我們改變λ來提高下限值L(λ),我們的估測就越好,並且這對一系列問題的變形都足夠了。

變分推斷就是Gibbs-Bogoliubov-Feynman不等式

我們來看看變分推斷是否和我們在物理中看到的Gibbs-Bogoliubov-Feynman不等式是一回事。該不等式如下:

取對數後:

我們已經確認了變分族服從Mean-field Boltzmann分布

λ表示我們用於最大化下邊界的變分參數。

這就表明了,變分推斷在機器學習中,最大化了變分函數的下邊界。這其實就是Gibbs-Bogoliubov-Feynman不等式。

近似後驗推斷中的evidence lower bound

在機器學習中,我們在意數據中存在的模式。這便引出了潛在變數這一概念。潛在變數是指未被觀察到的,但實際上可以發現觀測數據中存在的模式的變數。

例如,在線性回歸中,我們可能假定人們年齡和他們收入之間存在線性關係。回歸係數變捕捉到了我們想從大量數據對(年齡、收入)中發現的潛在模式。

我們把一個概率模型看作是潛在變數z和數據x構成的模型。潛在變數的後驗分布(對於觀測數據的條件概率)可以被寫成p(z∣x)。

什麼是後驗呢?在年齡和收入相關關係的回歸分析例子中,我們想得到回歸係數基於觀測數據的後驗分布。我們選擇係數的先驗分布本身就是建模的一部分。先驗分布的選取反應了我們希望觀測到的統計關係。

後驗分布由貝葉斯定理可以得到:

分母代表的數據的邊際分布就是證據,p(x)=∫p(x,z)dz。這是關於潛在變數,數據和變分函數的標準化聯合分布。這個變分函數含有一個由隨機變數加和構成的結構。它就像我們之前兩次看到的一樣複雜。

我們是否可以在做後驗推斷時摒棄複雜的變分函數呢?

簡化過程是類似的:雖然在變分函數中有一個複雜的加和,但是我們可以用之前開發的工具——變分推斷,去近似它。 讓我們寫出變分函數中變分的下邊界:

通過改變參數λ,我們可以得到一個近似的後驗分布qλ(z)。它可以近似於我們想得到的,但又算不出來的後驗分布,p(z∣x)。

如果我們用變分法去近似一個後驗分布,我們的變分函數就是log{p(x)}。因此我們認為變分下界L(λ)就是Evidence Lower Bound or ELBO,並且可以通過最大化ELBO得到很好的近似後驗分布。

過去20年中,這個技術被廣泛應用於機器學習。它變得流行是因為複雜的變分函數在大型數據集中需要被分析。而變分的原理——最優化下邊界,就是利用最優化的方法在大數據中計算貝葉斯推斷。

這是一個令人興奮的領域,因為隨機優化的新技術可以讓我們去探索物理和機器學習的新領域。

機器學習技術在物理中有用么?

在機器學習領域,大量用於近似變分函數的技術都可以在物理中見到。

例如,black box variational inference 和 automatic differentiation variational inference都是物理中的通用方法。它們為構建代表性的近似分布和高效的優化技術搭建了框架。

這就像在問熟悉變分法的物理學家,隨機優化用在變分法中了么?這樣有效么?

物理學中的工具對機器學習有用么?

是的!Gibbs-Bogoliubov-Feynman最初就是發展於物理領域。90年代,Michael Jordan在MIT的小組發現將其應用於機器學習的方式。

似乎有不同的方式來構建靈活的分布族以近似計算分布。Replica Trick,Renormalization Group Theory等其他的理論才剛剛從統計物理學中引入到機器學習中。

另一個從物理中引入工具的例子是Operator Variational Inference。在這項工作中,我們開發了一種構建運算元的架構。這種運算元用於描繪近似的效果。這個架構使我們可以很好地平衡近似精度和計算量。Langevin-Stein運算元和Hamiltonian運算元是等價的,他們最初都呈現於物理領域的論文中。

一個有趣的問題值得考慮:為什麼KL會發散?物理學的解釋是明確的。它對應於變分函數的一階泰勒展開,並且有非均衡擾動分布的假設。(難道)有二階泰勒展開對應於另一種發散么,並且能得到更精確的結果?

我最近學習了副本理論(Replica Theory)。Replica Trick是一種使用瘋狂的公式,來精確計算系統中變分函數的技術。它引出一個問題:我們使用概率圖模型時應該有什麼假設?

我非常樂忠於看到更多的物理學工具遷移到數據科學和機器學習中去。

我們怎樣才能轉換地更快呢?我們怎樣才能更有效率地傳送機器學習和物理之間的技術呢?代碼實例會有幫助么?

這篇博文的主旨在於以一個學科社區的語言(物理學)來匹配至另一個社區(機器學習)。同時這篇長綜述通過舉例,從機器學習的角度(黑盒變分推斷,隨機優化等)去思考統計物理的架構(with mean-field methods, replica theory, renormalization theory等)和當代變分推斷,展現不同領域間是如何互補的。

術語解釋

  • 期望:角括弧? ? ? 代表期望。在機器學習文獻中,關於分布P的期望,被寫作Ep[ ? ]。例如?f(s)?表示旋轉f(s)的函數的期望。這個期望是關於Bolrzman分布的:

  • 物理學中的旋轉,在統計和機器學習中成為隨機變數
  • 變分推斷中的evidence lower bound是物理術語中的負自由能。

原文鏈接:

jaan.io/how-does-physic


推薦閱讀:

如何零基礎入門增強學習?看這篇就對了
kaggle屠龍技--模型融合的學習小結
有監督學習、無監督學習以及強化學習
基於內容的圖像檢索技術綜述 傳統經典方法

TAG:物理學 | 機器學習 |