生命之流 | 連接上帝的紐帶——熵
生命之流
《生命之流》系張江老師2008年至2009年,利用閑暇時間所構思的一本科普集。主要內容包括:從複雜到生命、自主生命體簡史、重新發現時間、從永動機到人工智慧、連接上帝的紐帶——熵等章節。現將已公開部分刊出,希望能夠和大家共同學習。
連接上帝的紐帶——熵
究竟熱力學第二定律是怎麼來的?要知道,在微觀物理理論中並不存在我們熟悉的那個時間之箭。當然,我們完全可以既接受牛頓物理對世界的描述,同時又接受熱力學這樣一套完全平行、不相關的描述。但是這樣的分離狀況不能讓我們滿意,上帝不太可能費事兒地設計兩套不相干的物理規律,這兩者之間必然存在著某種聯繫。克勞修斯的熵概念已經把這個問題用簡單清晰的數學公式表達出了,但是這還遠遠不夠,因為我們仍然不知道它的物理含義。
正在這時,一個世紀偉人:玻爾茲曼(Ludwig Boltzmann,1844~1906)登場了。通過把熱力學現象解釋成大量分子相互作用的統計行為,玻爾茲曼成功地創立了統計物理這門學科。這樣,熵、熱量、溫度、功等等概念全部具有了合理的解釋,那條險些斷裂的連接經典物理和熱物理的紐帶又被重新拼接起來,這一切都要歸功於玻爾茲曼提出的統計熵概念。然而,在19世紀末,因為原子論尚是一個存在著很大爭議的課題,玻爾茲曼把他的理論奠定在原子論的基礎上顯然是一種大膽、叛逆的行為。因此,他的觀點遭到了主流科學家的批判,並最終導致了他的自殺——歷史上一個最可悲的不可逆事件!然而,玻爾茲曼的工作並沒有就此死掉,美國的物理學家、化學家吉布斯(Gibbs Josiah Willard, 1839-1903)擔當起了進一步發展統計物理的重任。他通過運用另外一種不同的方法定義熵,從而大大拓展了熱力學的應用領域。受到了吉布斯和玻爾茲曼等人工作的影響,天才的資訊理論創始人申農(Claude Elwood Shannon,1916-2001)將熵的含義進一步抽象,使其能在通信和信息科學中大放異彩。到此,熵已經可以作為一個系統概念(而不是物理概念)而存在了,因此我們得到了一條從熱物理到統計物理,再到資訊理論的發展路徑。然而,吉尼斯(E. T. Jaynes)卻並不這樣看,他反過來認為資訊理論以及最大化信息熵應該作為統計物理的新假設。因此,他獨立建立起了一套「主觀」的統計物理理論。
本章將從玻爾茲曼熵開始一直到吉尼斯的統計物理,並盡量安排一些具體的例子來說明問題。沿著條思路,我們將看到系統之中的目的性行為:時間之箭是如何一步一步與觀察者的主觀判斷聯繫到一起的,這一章的討論將為後面的流動問題奠定基礎。
第一個例子看似與熱物理並不相關,但實際上玻爾茲曼的思想和方法已經被完全包含其中了。
例1 隨機數程序
這是一個簡單的計算機程序,它在每一周期都隨機產生N個隨機數,如x1,x2,…,xN,並且每個數的值都要麼是0要麼是1。假設你看不到這個程序內部的運行機理,但能夠看到每一個周期這N個數的和,記為M=x1+x2+…+xN。每一周期運行的偽代碼如下:
RandomNum(Integer N){
Integer M=0;
For(i=1 to N){
R= Random(0,1);
M=M+R;
}
Return M;
}
反覆運行該程序你將看到什麼結果?答案很簡單,你將經常觀察到N/2這個數,也會偶爾觀察到N/2-1或者+1等附近的數。比如,當N=6,那麼你將很可能會觀察到3,偶爾會看到4、2等,而不太可能觀察到0或者6。當N變得越來越大的時候,結果N/2出現的次數也會變大。
通過簡單運算,就能得到假如N=6,那麼出現M=0就意味著所有的隨機變數x1,x2,…,x6=0,也就是說要實現M=0這個結果,那些隨機變數就有一種可能取值:它們都等於0。
如果x1~x6之中有一個出現1,其它都是0,那麼就可以讓M=1,這樣要實現M=1這個結果,就可以有6種可能性,即x1~x6分別取100000或者010000或者001000,……等等。
當M=2的時候,只要6個數中有兩個取1,其它都是0就可以了。即包括:110000, 101000, 100100, 100010, 100001, 011000, 010100, 010010, 010001, 001100, 001010, 001001, 000110, 000101, 000011這15種情況。
更一般的,一共有
種讓M=k出現的可能情況,我們記它為Ω(k)。
在這個簡單例子中,對這些隨機變數xi的一次全部賦值稱為系統的一個微觀態。例如,100100、000000、101010就都是系統的微觀態。而我們稱這些隨機數的一種可能和值M叫做系統的一個宏觀態。例如M=0,2,6…都是可能的宏觀態。Ω(k)的自然對數,即當宏觀態是M=k的時候對應的lnΩ(k)就是該系統的熵(或者叫做玻爾茲曼熵),即:
(1)
為了看清楚這幾個量之間的關係,可以畫出下面的示意圖。
圖5-1 隨機數實例中各種概念之間的關係
一般來講,系統產生的宏觀結果(宏觀態)可能是由很多種微觀因素造成的。而觀察者往往看不到那些微觀因素,僅僅能看到系統的宏觀表現。這就導致了一種從微觀狀態到宏觀狀態的映射,所以該例子中的求和過程就相當於是一種觀察引起的壓縮作用,它使得我們可以從宏觀狀態來把握系統,但是不可避免地就會損失對系統精確描述的信息,這就對應了每個宏觀態實際上「壓縮」的微觀狀態數目,即Ω(k)。由於Ω可能是一個很大的數,所以取對數值之後計算熵值可以縮小這個數目而方便比較和操作,但卻不改變函數的性質(例如單調性,最大值),這就是熵。
顯然我們可以擴展這個例子,例如把M改為計算x1x2…xN,即N個數的乘積。這樣,我們得到的宏觀態就只有0和1兩種可能性。但是按照同樣的方法,仍然可以計算這兩個宏觀狀態的熵:S(0)=ln(2N-1),S(1)=ln1=0。當然我們還可以用其它的方法計算從x1,x2,…,xN到M的函數,每種函數原則上都可以定義熵。這個例子告訴我們,其實熵的計算只不過是一種計數方法。針對一個系統,只要我們能夠定義微觀態、宏觀態,我們就能計算出每個宏觀量對應多少微觀態,從而就可以計算熵。
然而,這樣一種抽象的例子和實際相差太遠,讓我們再看下面這個更接近熱力學系統的例子。
例2:氣體分子模型
設有N個氣體分子(一些剛性小球)分配到一個大的容器里,如下圖所示:
圖5-2 6個氣體分子小球分配到一個容器中
為了簡單起見,我們假設每個分子可以隨機地在所有小方格中跳來跳去,並且一個小格可以容納任意多個小球,那麼這和例1就非常相似了。同樣,對這個系統的描述也可以從兩種視角。因為每個小球就有16*8=128(小個子的個數)種可能位置,那麼6個小球就一共可以包括1286種不同的微觀狀態。例如下列各圖就表示了各種不同的系統微觀狀態:
圖5-3 氣體系統可能處的微觀狀態
同樣,對於這個系統的觀察還存在著一個完全不同的視角:宏觀視角。假設一個觀察者站在很遠的地方觀察該系統,那麼他看不到具體的一個一個小格子,而只能看到黑色邊框分割的大格子(把系統分成了左、右兩側)。這個觀察者也不再能夠分辨出具體的小球,而僅僅能看到一團東西(多個小球)在容器的左側,另一團東西在容器的右側,並且觀察者能夠判斷出某一邊的球數。這樣,我們可以用下面的圖來表示系統的宏觀狀態,例如:
圖5-4 與圖5-3對應的氣體系統宏觀態
(數字表示處於該半個容器中的分子數目)
很顯然,每一個宏觀狀態就可能對應了多個不同的微觀狀態。因為對於這個僅僅有6個分子的氣體系統來說,所有可能的微觀態數目和可能的宏觀態數目都是有限的,所以我們可以計算出每個宏觀態對應的可能微觀狀態數,我們用下圖表示:
圖5-5 每個宏觀狀態可能對應的微觀狀態,
以及產生該宏觀狀態的所有可能的微觀狀態總數
計算(8*8)6是因為每個大方格都包含了8*8=64個小方格,並且每個小球當被限定在一個大方格裡面的時候,它還可以在這64個小方格中任意選擇一個。CNk表示將這N個分子分割成一種左邊k個,右邊N-k個宏觀態(分成左、右兩側)的方法數。所以更一般的,對於一個宏觀態(k, N-k),它所對應的微觀狀態數是:
,其中g為一個大方格對應的小方格數目。因為N和g都是常數,所以Ω的數值僅僅取決於第一項,我們可以畫出CNk在不同參數N下的函數曲線如下:
圖5-6 Ω(k)在不同參數N下的函數圖
觀察圖5-6,可以看到當k=N/2的時候,CNk最大。並且,當參數N變大的時候曲線的形狀也變得越來越陡。當然,我們還可以推廣,如對系統的劃分可以有h個大格子,每個大格子對應的小格子數是不一樣的等情況,這裡就不討論了。
在這個例子中,我們也可以類似地定義玻爾茲曼熵,即:
(1)
這裡玻爾茲曼熵S是關於宏觀狀態k的函數,它正比於該宏觀狀態k所對應的微觀狀態數Ω(k)的對數值。其中kB為玻爾茲曼常數,它的數值是:1.3806505(24) × 10?23 J/K,它的取值是為了與克勞修斯熵保持一致,以便於這套統計方法可以還原所有的熱力學規律。(在後面討論)。
模擬試驗
下面,我們不妨設計一個計算機模擬程序,可以讓這個氣體模擬系統跑起來。假定系統的初始狀態如圖5-7(a)所示:
圖5-7 氣體系統模型的演化
並且在每個時間步,所有的小球都隨機地朝上、下、左、右四個相鄰方格中的一個進行移動,當分子碰到器壁的時候會反彈回來。假設經過一段時間之後,該系統可能停留在5-7(b)所示的狀態。從宏觀態上來講,該系統從圖5-7(c)的宏觀狀態(6,0)演化到了圖5-7(d)的宏觀狀態(3,3)。可以預料,如果我們多次重複這個實驗,那麼儘管系統最終的微觀狀態並不一定會與圖5-7(b)一致,但是系統的宏觀態將更有可能傾向於(3,3)這個狀態,即圖5-7(d)。當小球的總數N非常大的時候,這個趨勢將會更加明顯。從宏觀狀態來講,最終系統就會「停留在」(N/2, N/2)上,甚至系統中的每個粒子在微觀上仍然會隨機、無序地變換它們的微觀狀態。
下面,我們可以稍微變化一下這個系統運動的規則,例如可以讓每個小球按照牛頓運動定律以不同的速度運動,並且還可以假設兩個小球相遇的時候會發生完全彈性碰撞。當我們再次運行這個模擬,會發現整個系統仍然趨向於(N/2,N/2)這個宏觀狀態。因此,看起來我們能夠得到一個與系統微觀的規則無關的結論:氣體分子系統將最有可能演化並停留到(N/2,N/2)這樣的宏觀狀態下。但是,這個結論並不非常準確,因為對於某些規則,例如當任意兩個小球只要碰撞就粘在一起,這個結論就不成立。
為了避免這些特殊情況,使得結論更具普遍性,玻爾茲曼當年做出了一個非常聰明,但也是備受爭議的各態歷經假說,或稱等概率假說:每個分子小球將會以相同的概率在每個微觀狀態中取值。在這個假說前提下,他得到了確切的結論:氣體分子系統將最有可能演化並停留到(N/2,N/2)這樣的宏觀狀態下。我們知道,這種(N/2,N/2)對應的宏觀狀態恰恰就是玻爾茲曼熵S最大的狀態(因為宏觀態(N/2,N/2)對應的可能微觀狀態數最多,所以系統實現並停留在這個狀態下的機會也就最多)。最後,儘管系統從微觀上講可能仍然處於不斷變化的過程中,但在宏觀上,系統將會以最大的概率停留在熵最大的宏觀狀態。這時,我們將傾向於說系統處於了一種不再變化的平衡態,即熱力學平衡態。這是一種表觀的平衡,但實際上內部分子仍然在做著激烈的運動。
這個試驗可以給我們解釋時間之箭的產生提供一定的解釋。正如各態歷經假說中所提到的,本來對於系統來說,任何一種微觀狀態都是完全對稱、無區別的。但是因為觀察者觀察上的「缺陷」,他只能看到一些宏觀狀態,這就會導致每一種宏觀狀態對應的不同的可實現的微觀狀態數,從而也就導致了熵的出現。當系統處於不斷的變化過程中的時候,這個熵的數值就會傾向於最大化。這給我們解釋時間之箭的產生提供了很好的暗示。我們知道,對於經典牛頓力學描述的動力系統來說,一切都是可逆的,所以時間沒有方向性。小球按照牛頓運動定律在小方格之上的運動正是這種可逆的運動。但是,在宏觀層面我們仍然觀察到了不可逆的趨勢:即系統會更加傾向於那種對應的熵值最大的宏觀狀態。一種明顯的不可逆的時間方向就這樣湧現而出。究竟為什麼會產生如此現象呢?原因就在於觀察者觀察能力上的缺陷,所以時間之箭只不過是觀察者眼中的一種「幻覺」。用下面的圖可以清楚的表達時間之箭是如何由觀察而湧現出來的。
圖5-8 時間之箭由於觀察而湧現
如圖5-8所示,隨著時間的流逝,系統將會等可能地遍歷所有的微觀狀態,在這個層次觀察者將看不到任何微觀狀態之間的本質差別,因此也不能分辨出時間流逝的方向。隨著微觀狀態的遍歷(各態歷經假說),系統將會在不同的宏觀狀態之間轉變,並且大多數時間會處於那種最可能的狀態(即熵最大的狀態)。所以,觀察者就能看到一種明顯的時間流逝方向了(朝向最可能狀態的演化,熵必然增加)。但是,即便對於宏觀狀態來說,系統的演化仍然是時間對稱的,即如果我們能夠等待足夠長的時間,那麼很有可能仍然會觀察到如圖右側圓圈表示的那個宏觀狀態。但是由於這類事件發生概率極其微小(對於通常的氣體系統來說,粒子的數目是1023這個數量級,系統將幾乎不可能出現在最大熵以外的狀態),所以觀察者將看不到這類事情的發生。
我們知道熱力學第二定律可以看作是強加在力學定律之上的一條新的定律。玻爾茲曼引入這套統計解釋的目的是為了從微觀牛頓力學導出熱力學第二定律。但是,玻爾茲曼雖然部分解釋了熵和時間箭頭,但他也同時引入了新的假設:各態歷經(或稱等概率)假說。所以,玻爾茲曼自己也認為,他並沒有完全解答時間之箭的問題。
讓我們再回過頭來看看這個例子中的熵。首先,玻爾茲曼把熵定義為宏觀狀態的函數。這一點是符合人們的熱力學知識的。因為當粒子數非常多的時候,系統處於最可能(熵最大)的狀態的概率將遠遠多於其它宏觀態的概率。所以人們就把這種最可能的宏觀態作為系統的熱力學平衡態。通常人們說一個系統的熵就是指處於這種熱力學平衡態下系統的熵。其次,熵是對一個宏觀態對應的微觀狀態數取對數。這個微觀數目可以看作是種連接微觀層次到宏觀層次的紐帶,因為從微觀觀察過渡到宏觀觀察必然伴隨著熵的產生。根據這個認識,我們可以看出,實際玻爾茲曼熵並不一定非要應用到分子系統,只要存在著微觀態和宏觀態,我們原則上都可以應用玻爾茲曼的方法。
最後,之所以熵要對狀態數取對數是因為人們希望熵具有可延展性。即對於一個氣體系統A,它的熵是S(A)(平衡態下的熵)。以及另一個系統B,熵是S(B),將它們混到一起組成一個大系統A+B。那麼顯然,對於任意一個宏觀態將是A和B兩個系統宏觀態的組合。這樣對應的可能微觀態數目將是兩個子系統微觀態數目的乘積ΩA+B=ΩAΩB,所以總的熵為SA+B=ln(ΩA+B)=ln(ΩA)+ln(ΩB)=SA+SB。這樣熵就變成了一個可以隨著系統的加合而可加合的量。
還原熱力學
有了玻爾茲曼的統計方法,我們實際上完全可以還原上一章所討論的熱力學了。我們知道熱力學關心的是壓強、溫度、熵、熱、功等一系列宏觀物理量,它們都可以被一一還原為微觀統計量。仍然用例2來討論,在這裡小球的速度被忽略不考慮。這樣,壓強就是小球對器壁的平均碰撞次數,溫度可以近似理解為系統中小球的平均密度。
因為沒有速度,所以可以把小球本身就看作小的能量單位,這樣系統的總能量就是小球的個數。而一個系統對另一個系統傳遞熱量就是從一個系統向另一個系統傳遞小球。這樣圖5-7所示的現象剛好就是熱量從高溫(左側系統,小球初始密度高)傳向低溫(右側系統,小球初始密度低)的過程。同樣,對系統作功就相當於把小球壓縮到一些較小的區域內。
對處於平衡態(最可能狀態,熵最大的狀態)的系統,我們還可以定性地導出克勞修斯熵的定義式,即dS=dQ/T(定量的推導需要精確定義溫度、熱量等量,請參見《從有序到混沌》一書)。當小球均勻分布在大方格中的時候(小球平均密度就是溫度),我們增加一個小球,它會使得Ω呈指數增長(考慮圖5-5對Ω的定義式),這樣取ln之後,熵就成比例增加。並且這兩者的比例是與T(小球密度)呈反比的:小球的密度越高,新增加一個小球對系統熵的影響就越小。
在上面討論的模型中,我們實際上並沒有考慮每個粒子的速度問題。在現實的氣體系統中,每個分子不僅有位置,而且還會有速度。所以,我們需要把上面模型中的平面空間擴充到包含了速度信息的狀態空間(或稱相空間中,見第三章)。這樣,每個小球所處的容器就不再是一個平面的容器,而可能是四維空間中的一個立方區域。那麼,按照動力系統的觀點,每個小球的運動就是從高維的相空間中的一點跳到另一點。但是,這點擴充對於我們的統計模型沒有本質影響。因為我們的模型中僅僅涉及了小格子、大格子還有分子小球,而至於小格子、大格子是幾維空間中的幾何體並沒有太大的關係。我們可以假設圖5-3表示的是狀態空間,即水平方向是小球位置,豎直方向是小球的不同速度。每個小方格就是小球的一種可能狀態(位置和速度的組合),大方格就是對這些小狀態歸併之後的宏觀狀態,等等。不過,在加入了速度因素之後,能量、溫度就不僅僅是小球和小球密度了。(更加嚴格的數學討論,請參考相關的統計物理的教科書)。
從玻爾茲曼到吉布斯
上面的討論雖然可以得出熵的表達式和整個熱力學,但是仍然存在著缺陷。上例中劃分大方格、小方格的方法完全是我們人為劃分的,而這個結果又會影響計算得出的熵。實際上,我們對物理系統的觀測本身就是宏觀的觀測,而微觀狀態只是我們的一種假設,它是沒辦法被測量到的。所以,上例中的小格子就沒有實際意義了,我們僅僅能觀察到大格子構成的宏觀狀態。那麼這個時候,我們如何來定義熵呢?正是基於對這個問題的考慮,吉布斯提出了一套不同的統計物理方法。
還考慮圖5-2中的氣體分子運動模型。只不過這裡每一個小格子已經是我們可以觀測到的宏觀狀態了,每個格子表示一個我們可以觀測到的小球的宏觀狀態。如果開始的時候所有小球都像圖5-7(a)中那樣集中在容器的左下角,按照隨機遊走的動力學規則演化,那麼經過一段時間,小球將會瀰漫在整個容器中。我們可以重複這個實驗多次,每次的初始條件都一樣,只不過試驗最終的結果都不盡相同。但是在重複多次試驗的情況下,每個方格被訪問就會呈現出不同的概率。例如我們做100000次試驗,其中有小球運動過左上角第一個方格的次數是500,那麼這個格子被訪問的概率就是500/(6*100000)=1/1200。這樣,我們可以得到每一個格子的概率。那麼對於整個空間我們就可以得到一個概率分布,如下圖:
圖5-9 一個概率分布示意圖
(其中每一個方格中的顏色表示概率的大小,即多次試驗中該方格被小球訪問的次數比例,顏色越深表示訪問該方格的概率越大)
在每一個周期,我們都能得到一個這樣的概率分布。針對一種可能的概率分布,吉布斯發明了一套不同的計算熵的方法:
(2)
其中n表示所有的方格數,i表示其中的某一個小方格。pi表示該方格被訪問的概率(即顏色)。SGibbs就是吉布斯定義的熵,它是關於一系列概率分布(p1,p2,…,pn)的函數。這樣,確定了一組概率就相當於確定了系統的一個狀態,那麼不同的狀態就對應了不同的熵值。
那麼,對應的平衡態的概率分布是什麼樣子呢?這將是一個所有的格子都呈現出相同顏色的狀態,即pi=1/n(對所有的i=1~n)。因為根據玻爾茲曼的各態歷經假說,每個小球將等可能地訪問每一個小方格,所以當系統處於平衡態,所有方格的概率都相同,這樣就得到了一個均勻顏色的分布。從數學上可以證明,當pi=1/n(對所有的i=1~n)的時候,SGibbs取最大值。所以,氣體系統的平衡態就是熵最大的狀態,這一點和玻爾茲曼熵得到的結果是完全一致的。
進一步,通過數學上的推導還可以看到玻爾茲曼定義的熵(1)式實際上是和(2)式等價的。如果我們把這裡的每個小方格看作是例2中的大方格,並且把每個大方格中的分子數/總分子數看作是訪問該方格的概率,那麼經過數學上的推導,我們完全可以從(1)式得到(2)式。
吉布斯不僅僅從另一個角度重新定義了玻爾茲曼熵,而且還給我們提供了一個嶄新的思路來理解系統。因為原則上講,系統的微觀狀態是我們不可觀測到的,所以討論它也變得沒有意義。這樣,我們所能觀察到的僅僅是系統的一些可觀測狀態,最大熵狀態是所有可觀測狀態中最可能被觀測到的那個狀態。
從統計物理到資訊理論
吉布斯熵的另一個好處是它在數學形式上的簡潔性。當我們忘掉(2)中每一個pi的具體含義,而僅僅是某種抽象的概率分布,那麼SGibbs仍然是一個良定義的量。例如,我們考慮拋擲一枚硬幣,那麼這枚硬幣出現正面和反面的概率就都是1/2。對於這樣簡單的概率分布,我們也可以計算吉布斯熵:S=-(1/2 ln0.5+1/2 ln0.5)=ln2。這裡,我們可以把系統可能處於的所有狀態看作一個大的容器,一次拋硬幣事件就相當於是一個在該容器中運動的小球。這樣,小球訪問容器的概率就相當於是硬幣的一次正反面。所以,我們仍然可以計算熵。 一般的,如果一個系統可能處在n種狀態,並且每種狀態的概率分別是p1,p2,…,pn,那麼這個系統就有申農信息熵:
(3)
其中I叫做系統所包含的信息量,它是申農熵(Shannon Entropy)的相反數。申農熵和吉布斯熵具有相同的形式,但是,在這兩種描述中,系統以及i的含義是不完全一樣的。在前面吉布斯的定義中,一個系統是指一個容器,裡面有多個小球,這樣小球訪問容器的不同部分可以導致一個分布。因此,給定一系列容器不同部分的概率分布,就給定了該系統的狀態,因此也就能夠定義該系統的吉布斯熵(即吉布斯熵是描述系統狀態的量)。但是在申農熵定義中,一個系統本身的狀態,以及這些狀態上的概率分布是系統本身已經決定了的,因此申農熵也決定了,它是描述系統(而不是狀態)的量。
為看清吉布斯熵和申農熵的區別,讓我們再次回憶例1,即那個產生0、1隨機數並求和的程序。如果我們把這個程序看作一個系統,那麼該系統就有0,1,…,N這幾種狀態。當程序運行起來以後,我們就得到了一個在各個狀態上的概率分布p(k)=CNk/2N,因此可以給這個系統計算申農熵:
。
根據例1的討論,我們又知道,實際上這每一個狀態又是一個宏觀態,它可能對應了多種微觀態。那麼,也就是說該程序的每一個狀態又可以計算出一個吉布斯熵。比如狀態k,也就是說程序得到的和數是k。那麼這N個隨機數就相當於是要佔領0和1兩個格子的粒子。要得到和數是k,那麼我們知道這需要格子1被佔領的概率應該是N中的k次,即k/N,而佔領0的概率就是(N-k)/N。這樣,狀態k的吉布斯熵是:
。
所以,在這個例子中,對於系統整體有一個申農熵來描述,而對於每一個具體狀態,又有一個吉布斯熵來描述。
申農熵的意義還表現在它可以表達我們主觀世界中的不確定性。假設有兩枚硬幣,第一枚硬幣出現正反面的次數完全相同,而第二枚硬幣出現正面的概率是0.1,出現反面的概率是0.9。那麼很顯然,你一定會覺得第一枚更加捉摸不定,而第二枚硬幣則好一些,因為你有很大的把握知道它會出現反面。我們這種主觀的不確定性感覺可以被申農熵來刻畫。申農熵越大表示該系統越不確定。例如,如果p1=0.1,p2=0.9,也就是系統有很大的概率出現反面,則SShannon=0.325,它小於當p1=p2=0.5情況下的申農熵:ln2。
對於主觀來說,系統不確定性的另一面意味著信息。當我們對一個系統掌握的信息越多,相當於它們對我們來說它越確定。所以(3)式還可以看作是信息量的一種定義。當我們對某個系統一無所知的時候,我們傾向於最大化(3)式,也就是對該系統的信息量掌握得很少。而隨著我們對系統的逐漸了解,它變得越來越確定,這就會改變系統中各狀態的概率分布,使得總的申農熵減小,這就導致對該系統的信息量的增加。
還用硬幣的例子來說,假如我把一枚硬幣壓在手下讓你猜是正面還是反面。由於你對於該系統沒有任何信息,所以你會傾向於認為硬幣出現正面和反面是等可能的,即p1=p2=0.5,這個時候申農熵最大。然後,我把手張開,你看到了硬幣是反面,於是你得到了p1=0,p2=1的結論,再次計算申農熵,會發現現在它等於0了。也就是說,你對系統了解的過程就相當於是一個讓申農熵不斷減小的過程。
更明顯的一個例子是叫做「21問」的小遊戲。例如我腦子中想出一個人,讓你猜他是誰。而你每次只能問一些一般疑問句,因為我只能用是或否來回答你的問題。這樣你會通過不斷問一系列問題而猜出我想的人是誰。例如,你會問這個人是男的嗎?我說是。你再問,他還活著嗎?我說否……。
用申農的模型來看,在最開始的時候你對這個人一無所知,就相當於你對此人的信息為0,即申農熵最大。當你每次問一個問題得到答案的時候,就相當於你獲得了這個人的一個特徵,因此改變了一次概率分布,同時使得申農熵減小了一些。最後,你知道了那個人是誰,於是系統完全確定了,申農熵變為了0。所以,我們對系統的觀察獲得信息就會伴隨著該系統的申農熵減小。
「主觀」統計物理
當熵的理論形式發展到資訊理論的時候,客觀物理世界已經開始深深地與觀察主體的主觀世界聯繫到一起了。信息量其實就是一種針對主體而言的「主觀量」。那麼,這種認識的飛越又有什麼意義呢?
20世紀中葉的物理學家吉尼斯(Jaynes)向我們展示,這種對系統的「主觀」認識可能更加本質、透徹。因為,它從資訊理論出發,可以反過來推導出整個統計物理。而且,這種推導方法比早先的統計物理更加簡單、明了(參見Jaynes的文章《Information theory and statistical physics》)。
針對一個具體的物理系統,人們對它的認識相當於是去猜一個概率分布,這個分布如何導出呢?由於我們對該系統一無所知,所以我們實際上就是要最大化該系統的申農熵。也就是說,吉尼斯把信息熵的最大化當作一條公理加進了統計物理中。當然,對於實際的物理系統,我們還知道另外一些宏觀的性質,例如該系統的平均能量等一些可觀測宏觀量,那麼這些信息都當作是最大化信息熵過程中的約束條件。最終,我們會得到系統的確切的概率分布,而這個分布就能夠很好的預測整個系統的性質。
在這套統計物理中,玻爾茲曼的各態歷經假說被最大化信息熵所替代。我們仍然需要一個公理來解釋統計物理。而最大信息熵的含義相當於我們對系統了解最少,也相當於自然系統的一種最可能狀態。或者用中國學者張學文的話說,是一種自然系統最複雜的狀態。
雖然資訊理論和統計物理理論哪一個更加根本,我們無從得知。但是吉尼斯思路的簡潔性非常值得我們認真思考。畢竟我們對客觀世界的認識全部都來源於我們觀察者所做的主觀判斷。所以,吉尼斯甚至認為統計物理只不過是一種演算法而已。很多人不喜歡吉尼斯的思路,認為他過於主觀,而且他並沒有給出任何全新的結論。但是,我們將在下幾章展示,當把吉尼斯的主觀統計物理運用到非平衡態的時候,會得到一套全新的結論。
總結來看,這一章用一系列簡單的例子介紹了從玻爾茲曼熵到吉布斯熵再到申農熵的過程。熵究竟是什麼?本章介紹的探索歷史本身就是一個對這一概念的逐漸深化認識過程。如果非要用一句話來回答這個問題,我寧願說,熵其實就是一條連接的紐帶。玻爾茲曼熵連接的是宏觀與微觀;申農熵連接的是主觀世界與客觀世界。在這條紐帶面前,被傳統科學割裂得很深的主客觀分離的界限已經變得逐漸模糊。正是基於這種信念,吉尼斯才提出了一套非常不同的「主觀」統計物理學。
我們關心的熱力學第二定律、時間之箭的問題又怎樣呢?儘管歷史上很多偉人都試圖從經典物理出發而給出熱力學第二定律新的解釋,但是,他們卻或多或少的引入了新的假設。例如玻爾茲曼和吉布斯的統計物理都需要各態歷經假設,吉尼斯的統計物理需要引入自動最大化熵的假設。我們是否能夠擺脫這些假設而完全理解時間之箭之謎呢?我傾向於不太可能,這恰恰是複雜系統的湧現概念所刻畫的。對於系統的不同層次我們需要不同的描述。時間之箭就是這種不可化約為微觀物理的一種湧現屬性。吉尼斯的統計解釋告訴我們,這種不可逆的湧現性質其實可以解釋為我們對世界的一種主觀的傾向,即最大化信息熵。
讓蘋果砸得更猛烈些吧!
http://weixin.qq.com/r/NDsxKXDEti3JrTRK924m (二維碼自動識別)
長按識別二維碼,關注集智Club,
讓我們離科學探索更近一步。
推薦閱讀: