再談概率
來自專欄 魔鬼眼中的自然界
"In no other branch of mathematics is it so easy for experts to blunder as in
probability theory."「在所有數學的分支中,再也沒有哪一支像概率論那樣讓數學家們輕易地出口成錯」
—Martin Gardner
我們前面討論了好幾章的多世界理論和退相干理論,我們注意到,多世界理論是一個嚴格的決定論。多世界理論拋棄了坍縮假設,就連帶著拋棄了玻恩規則。如果我們跳出宇宙之外,以上帝視角觀察這個宇宙,它只遵守唯一的、完全決定論的薛定諤方程。因而整個過程中,沒有任何「隨機性」的生存空間。每一個符合量子力學定律的事件都必然發生,它們發生在不同的「世界」中。進而,「可能性」也就沒有生存空間了:一個事件要麼是必然發生的(符合量子力學定律),要麼是必然不發生的(不符合量子力學定律)。沒有「可能發生」的情況出現。而在一個沒有上帝視角、作為宇宙的一部分的你看來,你只能看到其中的某一個事件,而你的無數其它「版本」分別看到了無數其它的事件。那麼,問題來了:
- 我們所說的「可能性」是怎麼回事?或者說,「概率」是怎麼一回事?我們如何在一個完全決定論的世界裡產生「概率」的概念?
- 玻恩規則又是怎麼一回事?為何我們會按照玻恩規則來「指定」一個事件的「概率」?
這,就是人們徹底接受多世界理論之前,橫亘的最後一個壁壘。如果這個問題無法解決,多世界理論最終總歸是面臨著一個喉中魚刺,讓人無比難受。
在近幾十年,無數的人們在試圖尋求這個答案,這些試圖從純幺正的量子力學中推導出玻恩規則的,從最早的Everett開始,有科學界的大佬,例如量子信息的大佬Deutsch、Wallace,有宇宙學的大佬Tegmark,也有退相干理論的大佬Zurek等等,還有很多不那麼出名的科學家。至今已經有不下幾十人提出了各種不同的理論,同時有更多的人在對這些理論進行著近乎吹毛求疵式的批評。在人們不斷地深入探討的同時,人們發現了這樣一個問題:其實,多世界理論中「概率」的問題,並非只有在多世界理論中存在。事實上,所有與多世界理論中的概率相關的問題,都是在「概率」這個一般概念之中就問題重重。我們現在必須要先跳出多世界,甚至跳出量子力學,從概率的根子上探尋。
概率可以算作是數學理論中一個比較奇怪的概念。一般而言,數學理論中的每一個概念都是極盡嚴謹之能事,讓人們在邏輯上毫無分歧的餘地。但是概率理論則不然,一方面,作為一個純數學理論,它的邏輯結構清晰,理論體系完備。事實上,概率論是數學理論中的一個重要分支[1],概率的應用在數學、自然科學、社會科學等各領域十分廣泛。而另一方面,在純粹的數學含義背後,概率到底意味著什麼?作為一個核心概念,它的嚴格定義又是什麼?說到底,人們對概率如何詮釋?對此人們的認識可以說仍然是一筆糊塗賬。
這一點非常像量子力學的現狀:量子力學有著嚴格的形式理論和邏輯體系,遵從這種形式理論,人們對一個問題不會有任何分歧的結論,但是,這種結論如何詮釋,例如波函數到底是什麼?坍縮到底是什麼?此類問題爭論了100多年以後,大家仍然是公說公有理婆說婆有理。並且後面我們可以看到,關於量子力學詮釋的爭論,和概率詮釋的爭論有著密切的聯繫。
我們在第一部分的第四章4、拋硬幣和概率性 曾經非常簡單地討論過概率到底是什麼,以及在經典決定論下概率的含義,但是我們並沒有深入探討。那麼我們現在可以再來看看,「概率」到底是個什麼東東。
概率就是,我們前面說過,我們對一個事件的「可能性」的定量描述。這個說法雖然看起來很符合直覺,但是它作為一個定義,還是嫌太模糊不清了。更有甚者,即使是作為一個大體的描述,它也並不顯而易見,很多人並不同意這種說法。首先,什麼是「可能性」?其次,我們又如何對「可能性」來定量?對此有很多種不同的說法,如果把這些一一列舉,這將是一個非常巨大的話題,恐怕沒有200頁是講不完的,我這裡僅用最簡的語言挑幾個有代表性的觀點。涉及到數學,總是容易有很多看似繁瑣乏味的陳述,我決定犧牲大量的嚴謹性,用淺顯但不嚴格的語言來描述這些問題。
首先,是「經典」的概率。在我們這本書的開始,第一章 1、拉普拉斯之妖 中,有一段拉普拉斯的引言(關於拉普拉斯之妖),這包含了拉普拉斯最早對概率一種哲學觀。在拉普拉斯的同一本著作中,他還說道:
「The theory of chance consists in reducing all the events of the same kind to a certain number of cases equally possible, that is to say, to such as we may be equally undecided about in regard to their existence, … The ratio of this number to that of all the cases possible is the measure of this probability。」
「關於可能性的理論,其實就是把那些所有同類的事件分解成為一定數量的等可能性的事件,也就是說,分解成為我們對其同等不確定的情況,……我們關注的事件的數量與所有可能事件的數量之比,就是這個事件發生概率的度量。」
這句話的意思是,雖然每個事件都是由決定論的動力學方程所完全確定的,但是對我們有限的信息而言,我們並不能完全確知這些事件的發生情況。那麼,我們就被迫把所有那些我們對其信息同樣不確定的事件,看作是等概率的。比如說一個骰子,它有6個面,我們知道它落下時必然會有一個面向上。但是我們並不知道我們投出它時的精確的力度、高度、角度,所以對我們而言每個面向上的信息我們是「同等不確定」的,因而我們必須認定,所有的面向上的概率都是相等的。
也就是說,說到底經典概率性其實是一種基於我們對事件的「無知程度」的概念。而前面所說的,對於「同等不確定」,也就是「同等無知」,的描述,就是經典概率的一個原理,叫做「無差別原理」(Principle of Indifference):
如果若干個事件我們沒有任何證據把它們分辨區分開來,那麼它們的概率是相等的。
經典概率的一切,就是基於這個原理推出來的。
但是這種經典概率有著它的漏洞。比如說,對於我們完全無知的兩個事件,我們應用無差別原理,可以看做等概率。但是,我們可以用不同的方式來看待這種不可區分性,並且他們之間不相容:比如說所謂的Bertrand悖論。這個悖論是這麼說的[2],如果一個工廠生產某種立方體,它的邊長可以從0到1之間隨機變化,對邊長的具體情況我們毫不知情。那麼從這個工廠的產品中我們隨機取一個出來,它的邊長小於0.5的概率是多少?根據無差別原理,在我們完全無知的情況下,邊長小於0.5和大於0.5應該是等概率的,那麼這個概率是50%。但是,如果我們問,我們隨機取出的這個產品的一個面的面積小於1/4的概率是多少?同樣根據無差別原理,我們對各自可能的面積也是完全無知的,那麼面積小於1/4的概率就應該是25%。同理,我們也可以說體積小於1/8的概率是12.5%。但是我們知道,前面問的三個問題,其實是同一個問題:邊長小於0.5,就是面積小於1/4,也就是體積小於1/8。那麼同樣的一個事件,為何會有不同的概率?
我們可以辯解說,其實邊長的均勻概率分布就意味著面積和體積不均勻分布,所以我們如果認為邊長小於0.5和大於0.5無差別,就不能認為體積大於0.5和小於0.5無差別。它們總是至少有一個是不能視作無差別的。可是在我們完全無知的情況下我們憑什麼認為邊長無差別要優於面積(體積)無差別?
這時你可以說,可能是工廠生產工藝本身的特點就是邊長的變化是等概率的,所以我們只能用邊長無差別來考慮。那麼問題就來了:我們本來是想用無差別原理來定義概率,但是現在變成了,無差別原理只能應用於等概率的情況,那麼我們是在用「等概率」來定義「概率」,這顯然是循環定義!
人們只能進一步來打補丁,認為無差別原理所闡述的,其實是一種對稱性,對稱性是一種相對於某種變換所保持的不變性。舉一個幾何的例子,一個中心對稱的圖形指的是沿著中心旋轉任意角度圖形不變。那麼,對一個硬幣來說,它將來落地的後不論哪一面向上,我們把它翻轉過來,對現在的我們而言是毫無差別的 - 因為我們本來就不知道它哪一面朝上,翻轉不翻轉毫無意義,那麼我們知道,這正反兩面的概率是對稱的,對我們而言毫無區別;同理一個骰子,它六面落地的情況是對稱的,對我們而言毫無區別。那麼這種對稱性就表現為等概率。而Bertrand悖論中,我們必須預先要知道,相對於我們的無知而言,這個工廠的產品是關於什麼對稱的。如果是關於邊長對稱,那麼我們只能認為邊長是無差別的,在我們對這種對稱性毫無所知的情況下,我們只能承認這個問題無解。
對經典概率還有一種不安,就是它表達的是人們的「無知程度」,這看起來多少有些主觀的意思。當然,拉普拉斯對此辯稱,我們的無知,也就是初始條件的有限精確度,是一個確定的客觀概念。比如說,我們測量硬幣拋出的速度,我們完全可以根據測量過程和測量儀器,知道我們的誤差範圍。在這個測量精度所能辨識的範圍之外的一切初始狀態,它們所導致的最終狀態(正面向上還是反面向上)就是不可辨的。當然,這仍然不會消除「主觀性」的影響。就像我們前面章節 4、拋硬幣和概率性 討論的,如果一個機器可以很好地控制拋硬幣的力度,那麼硬幣落地的狀態是可以精確確定的,概率將毫無用武之地。在「拋硬幣機」看來,硬幣的概率顯然和用肉眼來看不同:這個概率是依賴觀察的,它並非僅僅是事件本身的性質。
「主觀性有那麼可怕嗎?難道不同的人對一個事件發生的概率的認知不應該有所不同嗎?」有人站出來問。沒錯,這些人認為,概率就是主觀的。它們的代表就是大名鼎鼎的貝葉斯概率。貝葉斯概率認為,概率並非是隨機事件本身的客觀性質,而是人們對某個事件發生的主觀信心程度。例如,當我們拿到一枚硬幣時,我們可以問,我把它拋出去它正面向上的概率是多少?我可以根據自己的猜想,假定它有一個概率,這個概率不是別的,而是我對「硬幣正面向上」的信心,是一個主觀的東西。但是,我的主觀信心是隨著我獲取的信息量增多不斷變化的。比如說,我認為硬幣正面向上的概率是50%,但是我做了一個試驗,發現它果然正面向上,那麼這時我的信心就增加了一點,那麼我會對下一次拋硬幣試驗中「正面向上」的概率指定一個比50%更大的數值。如果我第二次試驗發現又向上,那麼我的信心更大,我認為再一次試驗中硬幣正面向上的概率就更高。但是隨著試驗次數的增多,我發現有時候出現正面,我的信心相應上調,有時候出現反面,那麼我們就相應地調低我們的信心。
概率的主觀詮釋很好地消除了經典概率的一些邏輯上的bug,但是,很多人對它感覺很不爽:因為它把數學理論歸結為主觀。難道數學不應該是確定的、跟誰在用它毫無關係嗎?在整個數學理論中,還有哪一個理論會被認為是主觀的度量?
但是,不論人們如何質疑,貝葉斯概率還是在統計學中獲得了巨大的成功。
「Yet at the same time, it solved practical questions that were unanswerable by any other means: the defenders of Captain Dreyfus used it to demonstrate his
innocence; insurance actuaries used it to set rates; Alan Turing used it to decode the German Enigma cipher and arguably save the Allies from losing the Second World War; the U.S. Navy used it to search for a missing H-bomb and to locate Soviet subs; RAND Corporation used it to assess the likelihood of a nuclear accident; and Harvard and Chicago researchers used it to verify the authorship of the Federalist Papers.」「但是在同時,它(貝葉斯統計)解決了大量的其它方法無能為力的實際問題:Dreyfus上尉的辯護者用它證明了他的無辜;保險業用它來計算費率;圖靈用它破譯了德國的密碼機並且據稱因此使得盟軍在二戰中免於敗績;美國海軍用它來尋找神秘消失的氫彈因而成功定位了蘇聯的核潛艇;蘭德公司用它來評估核危機的可能性;哈佛和芝加哥的學者們用它來核實《聯邦論》的作者。」(The Theory That Would Not Die)
在主觀概率詮釋下,我們對拋硬幣做試驗,每一次試驗,我們對它的概率都會有所變化,因為我們的信心都建築在前面又多了一次試驗結果的基礎上。如此大量試驗完成後,我們對下一次硬幣的概率就根據前面所有試驗結果來確定。當我們試驗次數非常巨大時,我們對下一次試驗所「指定」的概率就基本上不會再發生變化了:它就是前面所有試驗出現的次數的比例:相對頻率。
而另外一些人說,沒錯,相對頻率本身就是概率的定義,但是,它絕不是主觀的。這就是另一類概率定義的方法:頻率概率。持這種看法的人認為,對一個隨機事件而言,概率必須是一個客觀的、屬於事件本身的性質。這個性質就是:如果我們完全重複這個事件,它發生的結果每次都會不同,但是如果我們重複它很多次,我們會發現,某種特定的結果發生的相對頻率(它出現的次數與所有試驗次數的比值)就會漸趨穩定。比如在做拋硬幣實驗時,當你拋出次數很少的時候,你幾乎找不到任何規律,正面還是反面朝上每次都完全不可預測,但是這個硬幣不停地拋出時,漸漸地規律出來了:似乎正面出現的次數和反面出現的次數很接近,大約一半時間是正面朝上,而另一半時間是反面朝上。並且實驗次數越多,它們就越接近。比如說,你拋了1000次,大約500次是正面,500次是反面。於是,人們就假定,如果我們後面再拋1000次,我們仍然會有500次左右正面,500次左右反面。如果我們重複無窮多次,那麼,這個相對頻率就會是一個確定值,這個確定值就是概率。這個叫做「大數定律」。
但是這裡仍然有問題,首先我們想到的是,「無窮多次」?什麼鬼?!按照這種說法,我們永遠都不可能真正做出一個定義。其次,「完全重複」?我們理論上不可能完全重複同一個事件,它的初始條件必然是不可能相同的。
你可以說,我們實際操作中,並不見得真的要做到「無窮多次」,只要是次數足夠多,也不見得完全重複,足夠相似就可以了,這樣我們就知道足夠精確的概率了。比如說,我們只需要拋出1000次硬幣,就可以斷言正面向上的概率為50%。可是,你怎麼知道,這1000次的試驗結果是可靠的呢?既然是隨機事件,你怎麼就知道從1000次開始,後面不會連續1000次拋出正面?
「你這是在抬杠,連續1000次正面,那樣太不可能啦!」你可能這樣分辯。
但是等等!你是在說,連續1000次試驗,正面向上的相對頻率「很可能」,或者說「非常非常非常可能」是50%嗎?請記住,我們在試圖用相對頻率來定義可能性,在這個時候,你是不能使用「很可能」這樣的詞語的,因為它還沒有被定義!你等於在說,硬幣正面向上的相對頻率「很可能」是50%,那麼這個50%就是正面向上的「可能性」 -- 這又是在循環論證!
對此,人們發現,很難通過這種相對頻率的方式來嚴格定義一個事件的概率。人們進而提出了第四種概率的詮釋,就是「物理傾向性」,或者是「本性概率」。也就是說,概率代表的是事件本身的一種特性:它相反於拉普拉斯的概率 – 這是一種對確定事件的無知程度,它也相反於貝葉斯概率 - 這是我們對事件的主觀,它把事件的隨機性看作是一種真實的內稟性質。或者說,它就是隨機事件產生某種結果的「傾向性」,正是這種傾向性,導致了大數定律:雖然隨機,但是大量重複的相對頻率趨向於穩定。我把這種傾向性姑且命名為真?概率。
顯然這種詮釋,把一切問題集中到了這種「傾向性」上面去了。它提出的這種「真?概率」消除了頻率派的邏輯問題,也帶來了自身的問題,就是這種「真?概率」又是如何定義的呢?對於一個單一的隨機事件,「傾向性」肯定不可能被直接觀察到,因為人們只能觀察到確定的結果,而不可能觀察到「可能性」。而這種真?概率和頻率派的大量事件表現出的概率不同,它恰恰是一個單一事件的概率。因而這種「真?概率」難以確切定義。
對此人們辯稱,很多東西都無法確切定義,例如電磁學中的電荷,但是我們不能無限制地窮究下去 – 必須有一個「原生的」定義。這個原生定義就是概率。
從操作層面上,人們可以假設單一事件能夠多次重複,那麼它仍然可以通過大量實驗的相對頻率來確定這種「傾向性」。所以操作上它和頻率論沒有可辨的區別。另外,它也可以和主觀詮釋相一致,因為David Lewis曾斷言,當人們知道一個事件的「客觀概率」時,那麼他對這件事的主觀信心就必然等於這個客觀概率。他很調皮地把這個稱作「Principal Principle」(超級原理?大佬原理?甚至是「原理原理」?)
當然,關於概率的(量子力學無關的)詮釋還有很多種,這裡不一一列舉。我們可以看到,每一種詮釋都看起來非常有道理,但是同時它們又各自有著自身的漏洞或不完美的地方。它們之間其實並不能在所有的情況下都能得出相互一致的結論。比如說一個經典的例子就是睡美人問題:
我們邀請睡美人做志願者協助我們做這樣一個實驗,我們給睡美人喝下安眠藥讓她入睡。然後我們扔一枚硬幣,根據硬幣的結果決定後續的實驗過程。
如果硬幣是正面,那麼:
1、我們會在周一把她叫醒,面談;
2、然後給她喝下健忘葯,讓她徹底地忘掉這次叫醒,然後讓她繼續入睡;
3、然後在周二再把她叫醒,面談。
如果硬幣是反面,那麼:
1、我們會在周一把她叫醒,面談,
2、然後給她喝下健忘葯,讓她徹底地忘掉這次叫醒,然後讓她繼續入睡;
3、然後讓她一直睡下去。
在每一次面談的時候,我們會問她一個問題:你覺得這次叫醒你硬幣正面朝上的概率是多少?請注意,睡美人完完全全知道這個實驗設計的整個流程,但是她不知道自己是在哪一種情況下被叫醒的。
你覺得睡美人的回答應該是什麼?
如果你仔細思考,你會覺得神奇、並且困惑。我這裡就賣一個關子,暫時不告訴你答案。
概率論在自然科學中、包括很多社會科學中,幾乎已經應用到了每一個角落,尤其是在統計力學、化學、生態學、經濟學等領域,更加是基礎中的基礎。這個看起來不那麼牢靠的概念佔據著如此核心的地位,不由得讓人捏了一把汗。幸運的是,在絕大多數情況下,尤其是在自然科學的應用中,從純粹的形式理論上,它們又有著基本相同的理論結果。我們不得不感到驚奇:不論科學家們在哲學基礎上如何打嘴炮,最終的理論結果卻是如此一致!
那麼,下面我們就來看看在量子力學的多世界理論中,概率到底是怎麼一回事吧
[1] 事實上,在大學課程中,凡是需要數學基礎課的專業,基本上有三門課程是必學的:微積分、線性代數、概率論和數理統計,這三門課構成了數學基礎課的「最小必要集」。
[2] Bertrand悖論有更加嚴格和更加「數學」的表述,這裡就不過於展開來說了。
推薦閱讀:
※概率與似然
※兩個任意正態分布隨機變數的平方和服從何種分布?
※怎樣降低被老師點名回答問題的幾率?
※每架次航班上至少有一個醫生的概率有多大?
※(1-x)^n 在x<<1 的情況下 能近似為 1/2*n(n-1)*x^2-nx+1 么?為什麼?