概率（Probability）的本質是什麼？

01-05

概率存在兩種解釋基礎：
1. 物理世界本身存在的隨機性（客觀概率）。
2. 是我們由於信息不足而對事件發生可能性的度量（主觀概率）。
由兩種解釋建立起了傳統數理統計學（頻率論學派）和貝葉斯統計學。
題主認為一個基本概念的定義終究是確定且唯一的，那麼兩種概率的解釋之間的矛盾和關聯是什麼？哪一種在理論和哲學基礎上更為完備呢？

這個問題嚴格說來有兩層含義：

（1）含有概率的陳述（probabilistic claims）的含義是什麼？當人們說「擲硬幣正面朝上的概率是50%，」這是什麼意思？

（2）概率現象是如何形成的？造成概率現象的原因是什麼？

首先考慮：含有概率的陳述（probabilistic claims）的含義是什麼？

當我們說，

「這個粒子衰變的概率是50%；」

「擲硬幣正面朝上的概率是50%；」

「這個手術成功的概率是60%；」

「Trump被彈劾的概率是5%；」

都是什麼意思？

想像一下一個聽得懂中文但是不理解概率這個概念的克魯星人來到地球問你：「擲硬幣正面朝上的概率是50%」是到底是個什麼意思？

你解釋道：如果你擲很多次硬幣，其中一半的時候是正面朝上。

克魯星人：那如果我拋硬幣10次，一定會有5次正面朝上嘍？

你：不，要更多次才行。

克魯星人：那是拋硬幣100次，一定會有50次正面朝上咩？

你：額不是。。。

克魯星人：那拋硬幣一百萬次，一定會有五十萬次正面朝上咩？

你：還是不夠多次。。。

克魯星人：那一百億次呢？

你：額不。。。應該說是拋硬幣無限次，正面朝上的比率是50%。

克魯星人：我不懂你在說什麼&> &< 拋硬幣無限次，無論哪面朝上也都有無限次，怎麼算比率？

即便可以算比率，我不明白地球人為什麼會對概率感興趣--你們難道沒事要拋個無限次硬幣玩嗎？地球人還說，某個病人手術成功的概率是60%—但沒有人會做無限次的手術呀。

你：額。。。我不是說真要拋硬幣無限次。我是想說取極限：當拋硬幣的次數趨近於無限次，正面和反面的比率是5：5；更確切地說，取次數趨近於無限次的極限，正面和反面的比率不是5：5的概率趨於0。

克魯星人：等等！你的解釋用了概率這個詞！都跟你說人家不懂概率啦，用概率解釋概率，更搞不清啦討厭~

要是再解釋不清的話，

哦~科科~

你：啊啊啊啊啊要死啦要死啦！！難道地球的命運就要這麼毀在我的手裡了？！明明概率論的數學假設和定義都很清楚啊，要解釋概率到底是什麼，看起來也只是需要澄清一些概念上的細節而已啊！為什麼卻這麼困難？！

有什麼人是專門研究這個問題的嗎？平時應用概率論的時候也沒什麼大問題啊，什麼人會這麼蛋疼地研究這個問題？！

這時候你挖出來因為沒什麼用被丟在角落無人問津、平時只能吃土的哲學家朋友。。。

TA一臉懨懨地跟你說：這其實是一個非常深刻的哲學問題，一般被稱作「概率的解釋（interpretations of probability）」。「概率」這個在日常對話中看起來無害的概念，實際上會帶來非常嚴重基礎性問題。解釋概率的相關理論一般可以劃分為兩大傳統：貝葉斯派和客觀概率派。

（一）貝葉斯派（主觀概率派）

貝葉斯派用信念的強度（degrees of partial belief）來定義概率。根據這個定義，概率並不是關於物理系統的，而是關於物理系統和我們之間的關係。

比如說，在經典力學的框架下，擲硬幣這樣的事件是完全決定性的（fully deterministic）：大概來說，硬幣和其所在環境的組成的物理系統在某個時刻的狀態是由其前一個時刻的狀態決定的。如果我們知道這個系統的初始狀態，知道組成這個系統每一個粒子最開始的速度和位置，原則上通過經典的動態方程，可以計算出這個系統在之後每一個時刻的狀態。也就是說，硬幣落地的朝向是完全由其初始狀態和物理定律決定的；而如果知道硬幣、擲硬幣的手、周圍空氣的分布，硬幣落下接觸的地面等等每一個細節，原則上我們是可以準確預測出最後硬幣是朝上還是朝下的。

但是，很明顯，由於我們平時不知道這些細節，無法做出精準的預測，只能預測一個大概的結果，而這個結果就是通過概率的形式來表達的。

根據貝葉斯派，概率代表了我們對於某個事件的信念。如果我們相信這個事件一定會發生，概率則為1；如果我們相信這個事件一定不會發生，概率則為0；如果我們相信這個事件有可能發生，而測量關於它會發生這個信念的強度就是概率，介於0和1之間。

貝葉斯派還面臨著很多問題。比如說：

（1.1）我們是會有「川普會被彈劾」的信念，這個信念的強度也許比「宇宙存在外星人」要弱，但這並不代表對應著某個信念的強度存在著一個確切的數字。

（1.2）為什麼測量信念的強度滿足關於概率的形式上的公理？

（1.3）如果概率只是對於人們信念強度的測量，那麼每個人對於同一個事件會有不同的信念，也就會給出不同的概率。但是，一般認為像擲硬幣這樣的事件是存在一個客觀的、在不同的人之間統一的概率的。

我會在另一個答案討論貝葉斯派是如果應對這些反對意見的。

（二）客觀概率派

相比貝葉斯派，客觀概率派認為概率是關於客觀世界的，關於物理系統的，獨立於人們對世界的信念。

（2.1）原始派（Primitivism）

原始派宣稱，概率是單個物體或者整個系統的一種原始的屬性（primitive property），無法用非概率的語言來解釋。比如在歐幾里得幾何學中，點就是一個原始概念，你無法解釋點是什麼。如果克魯星人說不懂概率是什麼的話，要麼它們是在撒謊，要麼對於它們而言沒有任何可以理解概率的希望。為什麼你會覺得我們可以用非概率的語言來解釋概率是什麼？

原始派一般和傾向派（propensity）被劃分為同一個觀點。傾向派認為作為原始屬性代表了物理系統具有某種傾向（or disposition, tendency）。比如鹽在水中會有溶解的傾向；硬幣被拋後有朝上或者朝下的傾向。波普（對，可證偽的那個波普）就是一個傾向派。

原始派的觀點乍看起來也許符合我們日常的直覺。事件和事件之間是有區別的：有的事件會決定性地發展（比如，如果我鬆手，一般情況下，球會決定性地落在地上，而不會飛上天去；比如，如果有一屜蝦餃擺在我面前，就會決定性地被我吃掉），而有的事件則會概率性地發展（比如，這個粒子在接下來可能會衰變，也有可能不會衰變）。而這決定性和概率性都是由事物（或者事件）的本質屬性決定的。

（2.2）頻率派（Frequentism）

如名字所示，頻率派直接將概率和頻率化作等號。

頻率派的問題其實在開頭和克魯星人的對話中已經有所提及了。概括來說就是，也許用頻率來解讀概率看起來符合直覺，但事實上頻率和概率並不完全相等。

我們能做到的最好的證明是大數定則（the Law of Large Numbers），但大數定則並沒有從真正意義上解決問題。

（2.21）最好的系統（The Best-System View）/休謨式解釋（the Humean Account）

這是頻率派目前最被看好的一個分支。這個學派將概率和自然法則的解釋聯繫起來。關於對自然法則的理解，具體內容還要參考：因果關係是真實存在，還是我們認識世界的一種方法？ - 知乎

簡單來說，根據簡單性（simplicity）和信息量（informativeness）的平衡，我們從眾多不同的科學理論的系統中選出最好的一套系統；如果一個自然規律（regularity）是這套系統內的定律，那麼這個規律就是自然法則（a law of nature）。

有些自然法則是決定性的（deterministic）--比如說牛頓定律，而有些則是概率的（probabilistic）--比如說量子力學中的玻恩定則（Born Rule）。

舉個簡單的例子，如果想要描述一系列投硬幣的事件。完整的描述是細數每一個事件情況：第一次硬幣朝上，第二次朝下，第三次朝下......列出一個長長長長長長長的名單。這樣的描述信息量很大，但是並不簡單。一個簡單的描述方式是：投硬幣的結果有兩種可能性，其中正面朝上的概率是50%，背面朝上的概率是50%，這裡的概率就是頻率。雖然這種描述方式並不完全準確（如之前所述，概率和頻率並不完全相等，但這並不影響。通過犧牲一部分的信息量，我們得到了更簡單的描述--從這個角度來講，這種概率式的描述，相比完整的名單來說，達到了在簡單性和信息量上的更好的平衡。也就是說，作為頻率派的一個分支，最好的系統解釋並不面臨傳統頻率派所面臨的致命問題。

相比原始派，一個概率性的和一個決定性的系統並沒有本質上的區別：沒有什麼更深層的動力屬性（對於原始派來說，就是原始屬性，或者概率傾向probabilistic propensity）來解釋一個系統的概率性，或者決定性。概率性法則和決定性法則不過是我們描述、歸納事件和規律的不同方式罷了。也就是說，概率並沒有什麼神奇的地方，只是一種更精簡的描述世界的方式。

之後會在另外一個答案中更詳細地討論對貝葉斯派和兩種客觀概率派的反駁，以及它們支持者對反駁的解決方法。

-----------------------------------------------------------------------------------------------

有小夥伴問到了，再啰嗦兩句：貝葉斯概率和客觀概率並不一定是完全不兼容的。實際上，學界很多人持有的是多元論的觀點（A Pluralist View about Probability）。根據這個觀點，我們同時有客觀概率和主觀概率。

如果有客觀概率的話，很自然地，我們還面臨著如何認知這客觀概率的問題。哲學家David Lewis提出了如何聯繫客觀概率和主觀概率的原則，叫做The Principle Principle（原則原則）。

媽媽說答案寫得太長長長長長長長長長長長長長長長會沒有人看，至於（2）概率現象是如何形成的？造成概率現象的原因是什麼？答在概率到底是由什麼決定？ - 知乎（同時發的答案，這個基本木有人看，球看～打滾～

給每個答案都看了的小夥伴比心~~

參考文獻：

Lewis, David. 「A Subjectivist"s Guide to Objective Chance.」 In Philosophical Papers Volume II. New York: Oxford University Press, 1987.

Lewis, David. Philosophical Papers. New York: Oxford University Press, 1986.

Loewer, Barry. 「Determinism and Chance.」 Studies in History and Philosophy of Science Part B: Studies in History and Philosophy of Modern Physics 32, no. 4 (2001): 609-620.

Maher, Patrick. Betting on Theories. Cambridge: Cambridge University Press, 1993.

Poundstone, William. 「Omniscience: Newcomb』s Paradox.」 In Labyrinths of Reason: Paradox, Puzzles, and the Frailty of Knowledge. Anchor, 2011.

Sklar, Lawrence. Physics and Chance: Philosophical Issues in the Foundations of Statistical Mechanics. Cambridge: Cambridge University Press, 1995.

Wallace, David. The Emergent Multiverse: Quantum Theory According to the Everett Interpretation. New York: Oxford University Press, 2012.

圖片出自Rick and Morty，克魯星人是其中沒事找事射人家星球的外星人。

民科強答，數學廢渣，語言不嚴謹。寫這個答案純屬拋磚引玉以及安利「資訊理論大法好」。

假定我們有一堆東西，每個東西都可以被（管它多少維）某個空間里的一個點來表示，並且它們把這個空間填滿了。那麼如果我想知道某一類東西到底有多少，我既可以數東西本身，也可以數它對應的點。

上面這兩句里有不少可以規範化和推廣的地方。比如說什麼叫「某一類」東西，可以用條件語句來規範化，也可能可以用別的。比如說「數」，可以推廣到「測」。

如果對於「一堆東西」中的每一個，我們都知道它對應的點在哪，那麼對於任何「一類東西」，我們都知道它對應的點集是啥。這個點集的測度我們可以相應得到，它經過標準化後，就是這「一類東西」的頻率，也就等於簡單隨機抽樣抽中抽到這「一類東西」里的「某個東西」的概率。

這是頻率學派想說的意思。

假定我們並不知道「一堆東西」中的每一個對應的點在哪，但是我們知道一部分點在哪。根據「這些點在哪」這個信息，我們希望去猜任何「一類東西」的頻率。這一般有無限種猜法。有一些猜法可以被我們已知的信息排除，另一些猜法我們不能根據已知信息排除。我們需要利用已有的信息，在沒被排除的猜法中找到一個和關於「一堆東西」的所有信息最接近的一個。

如果來了新的信息，我們可以根據新的信息，改變（更新）根據已有信息做出來的「最佳猜測」。

這是貝葉斯學派想說的意思。

說到這當然不算完，畢竟在說貝葉斯學派時有一個關鍵點沒說：什麼叫做「最接近的一個」。

我們回到最開始。我們已經把一堆東西看成了某個空間里的一坨點，意味著我們也可以把任何一個猜測看做在這個空間里的一坨點。那麼「最接近」的意思是，兩坨點之間的差別最小。假如我們知道所有的信息，那麼一定存在一個基於這些信息的猜測，使得這兩坨點之間沒有任何差別。如果我們不知道所有的信息，那麼儘管我們的所有可行猜測中一定有一個是和前一坨點沒有差別的，但是我們並不知道到底哪個是。於是我們的任務變成了找出「哪個最可能是」。

現在考慮兩個可能的信息集合——全集和空集，以及一個度量——信息熵。香農的開創性工作已經證明了信息熵作為一個對信息含量的度量，具有一些很好的性質。那麼，假定我們有一個從空集給出的最好的猜測，同時有一個基於全集得到的真實頻率。那麼對於任何一個信息集，在其上的最佳猜測到真實頻率的距離（和距離空間里的「距離」不是一個意思，這裡只能叫「divergence」，Kullback-Leibler divergence），都不超過基於空集得到的最佳猜測到真實頻率的距離。換言之，基於任何一個信息集，還原全集的努力是有上限的。所以我們拿到信息集後要做的就是去夠這個上限。它是一種判斷「哪個最可能是」的方法。

引入了信息及其度量後，事實上我們可以把頻率學派的看法和貝葉斯學派的看法統一起來（應該不是唯一的統一方式），得到這樣一個觀點：概率無非是用已知的信息還原更多的信息的一類手段。頻率學派和概率學派的區別在於選擇這一類手段中的哪些，換句話說，就是「已有信息怎麼用」。

從數學上來說，概率的定義是公理化的，具體的公理我就不貼了，更進一步可以說概率就是一種對事件的特殊的測度。

至於你說的頻率派和貝葉斯派，指的是如何理解概率，基本上來說是哲學上的區別。

有很多種，從函數論角度來說，概率沒什麼特殊的

集合元素對應事件

測度對應概率

隨機變數是可測映射

數學期望是勒貝格積分

矩母函數是拉普拉斯變換

條件概率是拉東-尼古丁定理

————還有很多。

概率的本質是測度…測度的本質是函數…函數的本質是映射……

根據Andrey Kolmogorov的概率公理化體系，

非空集合 $X$ ，以及由它的子集所構成的 $sigma$ 代數 $mathscr{F}$ ，寫成的 $(X,mathscr{F})$ 稱為可測空間，

可測空間 $(X,mathscr{F})$ 再加上 $mathscr{F}$ 上的一個測度 $mu$ ，寫成的 $(X,mathscr{F},mu)$ 稱為測度空間。

如果測度空間 $(X,mathscr{F},P)$ 滿足 $P(X)=1$ ，則稱它為概率空間，

對應的 $P$ 叫做概率測度，

$mathscr{F}$ 中的集合 $A$ 又稱為事件，

而 $P(A)$ 稱為事件 $A$ 發生的概率。

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

2017.09.04 補充：

1. $sigma$ 代數

設 $mathscr{F}$ 是由集合 $X$ 中的一些子集所構成的集合族，且滿足以下條件，

（1） $varnothinginmathscr{F}$

（2）如果 $Ainmathscr{F}$ ，則 $A$ 的補集 $overline{A}$ 也屬於 $mathscr{F}$ ，即 $overline{A}inmathscr{F}$

（3）如果 $A_ninmathscr{F},n=1,2,cdots$ ，則 $displaystyleigcup_{n=1}^infty A_ninmathscr{F}$

我們就稱 $mathscr{F}$ 是一個 $sigma$ 代數。

2. 外測度

設 $X$ 是一個非空集合， $mu^*$ 是定義在冪集 $mathscr{P}(X)$ 上的一個取廣義實值的集合函數，

且滿足，

（1）空集有零外測度： $mu^*(varnothing)=0$ ， $mu^*(E)geqslant 0, Esubseteq X$

（2）單調性：如果 $E_1,E_2subseteq X$ ， $E_1subseteq E_2$ ，那麼 $mu^*(E_1)leqslantmu^*(E_2)$

（3）次可數可加性：如果 ${E_n}$ 是 $X$ 的子集列，則有 $mu^*( displaystyleigcup_{n=1}^infty E_n )leqslant displaystylesum_{n=1}^infty mu^*(E_n)$

我們就稱 $mu^*$ 是 $X$ 上的一個外測度。

3. 可測集

外測度所滿足的次可數可加性並不夠用，

我們實際需要的是可數可加性， $mu^*( displaystyleigcup_{n=1}^infty E_n )= displaystylesum_{n=1}^infty mu^*(E_n)$ ，

然而，這是一個很強的約條件，並不是每個集合都能滿足。

設 $mu$ 是 $R^n$ 上的外測度， $Esubseteq R^n$ ，如果對於任意的點集 $Tsubseteq R^n$ ，

$mu^*(T)=mu^*(Tcap E)+mu^*(Tcap overline{E})$

則稱 $E$ 為Lebesgue可測集，簡稱可測集。

可測集的全體，稱為可測集類 $mathscr{M}$ ，

可以證明， $mu$ 在 $mathscr{M}$ 上滿足可數可加性，且 $mathscr{M}$ 是一個 $sigma$ 代數。

一般來說，設 $X$ 是非空集合， $mathscr{F}$ 是由 $X$ 中的一些子集構成的 $sigma$ 代數，

$mu$ 是定義在 $mathscr{F}$ 上的一個集合函數，如果，

（1） $0leqslantmu(E)leqslantinfty$ ， $Einmathscr{F}$

（2） $mu(varnothing)=0$

（3） $mu$ 在 $mathscr{F}$ 上是可數可加的

則稱 $mu$ 是 $mathscr{F}$ 上的（非負）測度， $mathscr{F}$ 中的元素稱為 $mu$ 可測集，

三元組 $(X,mathscr{F},mu)$ 稱為測度空間。

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

參考：

Probability axioms

測度論與概率論基礎

實變函數論

一個測度。

概率形成需要，數量與選擇，形成排列的結果。在數量與選擇之間，隨著形成排列的積累，與周圍信息的關聯不斷變化，所決定的映射規律動態調整。概率從某種角度看，呈現的是特定範圍內，數據變化與結構關聯性的改變。一切都在不斷的變，概率只是這個變得影像。意識是概率在人腦內所呈現的影像。

物質的屬性是由，構成物質信息的數量和排列決定的。物質由大到小變化的過程，就是構成物質信息不斷減少的過程。物質不斷的分割到粒子層面，在不斷的分割，不斷丟失信息，就會不斷丟失特性，到一定程度就難以測量，變成概率，如果再繼續分割，最後只有一個比特的信息只有一個屬性，要麼是1要麼是0，概率。

如果說一切都是由信息構成的，那麼信息的最小單位又是比特，而比特來自於拋一次硬幣，可見信息和概率密不可分，真正的概率來自於微觀，而信息構建的物質在宏觀，概率連接了宏觀於微觀。

是概率，阻止了可逆性。是概率，確定了方向，所有不可逆的過程背後原因都是概率。

定義在sigma代數上，值域在[0,1]上的測度。

這裡只講經典物理中的概率（統計力學、混沌）：

根據劉維爾定理，時間平均=系綜平均。

系綜理論里，概率指的是系綜平均意義上的概率分布，可以看做一種隨機性；

但實際的物理過程其實是系統根據哈密頓原理決定性地遍歷各態時，產生的一種概率的假象，就好像我們說一個勻速旋轉的指針指某個方向的概率一樣，這完全是頻率意義上的，沒有任何隨機性。

一種是假設有足夠的信息則沒有隨機性，一種是假設沒有足夠的信息則有隨機性，兩者等價。但這種等價並不平凡，必須要劉維爾定理作保證。

綜上，經典物理中的概率屬於題中所描述的「主觀概率」。

================

量子物理中的概率（特指坍縮概率）是題中描述的「客觀概率」，就不細說了。

概率只是我們無知程度的度量。據定義，我們不曉得其定律的現象，都是偶然現象。

——龐加萊

Borel測度

排名靠前的解釋太過學術了，讓很多人看著頭疼。我還是從生活中的例子，從以下三個方面聊下概率：

1.什麼是概率？

2.如何計算概率？

3.概率對我有啥用？

先從1個例子開始。

在2002年的電影《少數派報告》中，湯姆·克魯斯扮演的是一位預防犯罪的警察，他藉助科數據分析的技術，能夠在壞人作案之前就預測出他們的犯罪行為。

2002年，這部電影還只是一部科幻片，但到了2011年，這就成了現實。《紐約時報》在2011年刊登了一篇報道，標題為「在犯罪發生前派遣警力」。

講的是美國加州聖克魯茲市警察局的電腦程序預測出鬧市區的一個停車場將有可能發生汽車盜竊案件，於是自動派遣警察前往現場。

到場的警察隨後逮捕了兩個形跡可疑的女人，其中一個人是警局的常客，另外一個人身上攜帶著毒品。

這裡的「預測執法」屬於預測分析學的一部分。犯罪總是帶有不確定的成分，這就好比沒有誰能夠確切地說誰會撞車、買房貸款銀行也不知道誰會還不起錢。

那麼，警察是如何做到預測犯罪的，以及買房貸款時銀行是如何預測你是否能還的起貸款？

他們用的預測工具正是概率。那麼，什麼是概率呢？

1 什麼是概率？

我們經常會在生活中聽到這句話：選擇比努力更重要。

相信你也無數次聽過這句話，但是有沒有想過：這句話背後的真實含義是什麼呢？

我們每天擁有固定的時間和精力，注意這裡「固定」是指你的資源和時間都是有限的。在這個前提下，把它們投入到哪些方向上能夠取得最佳的效果，這是我們每天都要思考的問題。

舉個具體的例子，假如你剛畢業，已經拿到3家公司的offer，一家傳統企業的職位，一家創業公司的職位，一家上市互聯網公司的職位，你選哪個？

因為你的時間和精力是有限的，所以你不能同時到這3個公司去上班賺錢，不然你就是孫悟空72變了。

你只能在有限的資源和時間下，做一個最佳選擇，這個選擇代表你去哪家公司工作，未來3年內能讓你賺錢能力提升的可能性最大。

這裡我們提到可能性，但是只知道可能性是無法做出判斷的。

例如我告訴你騰訊股票明天上漲的可能性很大，同時我也告訴你阿里巴巴股票明天上漲的可能性很大。

但是你的錢是有限的，只能選擇其中1個來購買。然而不幸的是，我只告訴你兩個股票都可能上漲，但是你卻沒辦法判斷出買哪支股票是最好的選擇。

所以只知道可能性是不行的，這時候數學家就出來吼了一嗓子：如果用某種辦法計算出可能性，並用數值來表示這種可能性，不就解決了。

還是剛才的例子，我告訴你騰訊股票上漲的可能性是70%，阿里巴巴上漲的肯能新是90%，兩個可能性的數值一比較，你立馬知道該怎麼選擇了。

這裡用數值來衡量可能性就是下面圖片里描述的概率。

概率就是用數值來表示某件事發生的可能性。 當你知道了概率這個數值，就代表你可以預測未來，因為你能通過概率來判斷出哪種情況發生的可能性最大。

例如你在玩拋硬幣遊戲，正面朝上的可能性是多少呢？

由於硬幣只有兩面，也就是落地後有兩種結果，要不正面朝上，要不就是反面朝上，所以拋硬幣正面朝上的可能性用數值來表示，概率就是50%，

你看，概率就在我們的日常生活中。只要你面臨選擇的問題，概率就會用數值表達哪種可能性最大，然後幫助你做出最好的選擇。

2 生活中的經典概率案例

通過下面圖片的「概率線」里幾個生活中常見的概率數值，讓你對概率有個整體上的理解。

概率的值永遠在0-1範圍之間。

如果某件事不可能發生，則其概率為0，對應的就是這條直線上最左端的位置。

如果某件事肯定會發生，則其概率為1，，對應的就是這條直線上最右端的位置，也就是那個點贊的大拇指。

大多數時候，你所面臨的都是介於0和1之間的概率事件。

比如這條直線上更靠近左端的拋篩子，某一面數值朝上的概率是1/6。

處於中間位置的是拋硬幣，正面或者反面朝上的概率都是50%

靠近右端的從4個藍色球，1個紅色球裡面選出4個藍色球，正好都是藍色球的概率是4/5。

這句話很簡單，但是非常重要，在之後的投資，和數據分析中我會反覆提到，跟我一起默念三遍：

如果你做的事情概率低於50%，那就別去做了，因為成功的概率還不如拋硬幣可能性高呢。

你看，概率其實就是這條直線上的某個數值點，有時候它更靠左邊一些，表示不太可能發生。有時候它更靠近右邊一些，表示概率超過50%，更可能發生。

簡單吧，很多老師上課都是把概率講的複雜了。其實概率就來源於我們的生活，用於解決我們生活中的問題。

3 如何計算概率？

在理解了概率的本質含義後，我們一起聊下如何計算概率。

概率計算分為2種，一種是客觀概率，一種是主觀概率。

1）客觀概率的計算

客觀概率可以根據歷史統計數據或是大量的試驗來推定。比如拋硬幣，你可以重複的做實驗。

例如你在玩拋篩子遊戲，想知道篩子落下來後正面朝上數字為1的概率是多大？

我們來想想這個過程，一個篩子有6個面，6個面的數字分別是1到6這6個數值，所以篩子落下來總共有6種可能的結果。

篩子正面朝上數字為1的情況只有1種，那麼篩子正面朝上為1的概率=正面朝上數字為1的可能數目/所有可能結果的數目=1/6。

這裡分母是6表示跑篩子這個事情總共有6種結果，分子是1表示正面朝上數字為1的可能結果只有1中，所以是1/6。

我們可以用一種更通用的方法表示以上情況，對於事件A的概率=發生事件A的可能個數/所有可能的結果總數。

在統計概率中用「事件」表示某件事情。例如剛才拋篩子上面朝上數值為1就是一個事件。

在一定條件下，可能發生，可能不發生的事件叫做隨機事件。例如我們拋骰子就是一個隨機事件。

當然這是最簡單的概率計算，有時候概率計算很複雜。假如你不知道某件事情發生的可能結果，就沒辦法計算概率了。這時候該怎麼辦呢？

我這裡給出兩個經常用的求概率的辦法。

第1個計算概率的辦法是尋找這個行業里的權威機構或者網上查資料去了解，一般會有前人計算出的概率給你參考。

例如我們已經知道飛機是所有交通工具里最安全的，但是因為我們是懂概率的人，就想進一步知道飛機上哪些位置存活率最高。

這個概率你在網上就可以找到飛機存活率分布圖。最後發現，飛機尾部的乘客座位，發生事故生還可能性最高，高達69%，

但是如果網上查不到前人計算的概率值，該怎麼辦呢？

可以用第2中計算概率的辦法：數據分析。

這裡我們舉一個例子，你就明白啦。

保險公司在提出一個保險項目之前，都會有一名保險商計算出該項目的發送概率，一旦確定了確定了發生概率，保險商就能決定該項保險的投保費用是多少。

投保費用的計算我之後的文章會詳細講，這裡我們重點來看下保險商是如何計算概率的。

例如林志玲小姐經常在高爾夫球場附近跑步，為了防止被突然飛過來的高爾夫球打破自己漂亮的臉蛋，她就去買保險。這時候保險商就要計算出一個高爾夫球場打傷1個人的概率是多少。

如何計算概率呢？

保險商要做的第一件事，就是去諮詢一下職業高爾夫協會，了解一下一年裡面有多少人被飛來的高爾夫球打的受傷。諮詢後得知一年有35人被打傷。

第2步，保險商獲取到全國高爾夫球的數據，然後統計出全國有20萬的高爾夫球場。

第3步，該保險商用我們前面介紹的計算概率的公式，發生該事件的個數35，除以高爾夫球場的總數20萬，就得到一個高爾夫球場打傷1個人的概率了。

同樣的道理，在複雜的數據分析中，計算概率也是想辦法從數據中找到發生某件事情的數目，然後除以總數目。

2）主觀概率

主觀概率無法用試驗或統計的方法來檢驗其正確性。比如天氣預報說明天下雨的概率是30%，你不可能把明天過上100次，然後說30天下雨。

貝葉斯定理就是一種計算主觀概率的方法：猴子：怎樣用非數學語言講解貝葉斯定理（Bayes" theorem）？

4 概率對我有什麼用？

現在，你已經知道了什麼是概率，如何計算概率。

那麼接下來我們一起思考一個問題：

概率對於提升我們的生活質量到底有什麼幫助？

作為成年人，我們知道這個世界是不確定的，所以不會要求自己每件事都必須成功，但是我們要努力讓每件事成功的可能性變得更大，也就是讓每件事成功的概率變的更大。

概率就是這樣一門研究不確定事件和結果的學問。

投資股市存在著不確定性，拋硬幣同樣也存在著不確定性，因為有的時候你得到的是硬幣的正面，有的時候是硬幣的反面。

連續4次拋一枚硬幣更是增加了這種不確定性，因為每一次都有可能是正面或反面，如果你手裡有一枚硬幣並且連續拋了4次，我事先無從得知4次的準確結果（你也不能），但根據前面概率的計算公式，我們可以計算出：出現兩個正面的概率要大於出現4個正面。

在獲得並信任此類信息的前提下，決策者常常能夠看清風險、作出決定。

舉個例子，澳大利亞運輸安全局曾經發布了一份有關乘坐不同交通工具導致死亡的風險報告。大家都覺得飛行非常可怕，但實際上商業航空旅行的風險是微乎其微的。

澳大利亞自20世紀60年代起就再沒有發生過一起商業航空致死事故，因此航空旅行每一億公里的死亡率基本為0。汽車每一億公里旅行的死亡率為0.5，真正嚇人的是摩托車的死亡率，因為摩托車的死亡率比汽車整整高出35倍。

那麼，為什麼在大多數人的直覺中飛機卻是最不安全的呢？

那是因為如果飛機失事，必然會引起極大的關注，這時，你多半會覺得飛機很危險。但事實上。論每公里死亡率，坐飛機比坐汽車安全22倍。

但是很可悲的是，大多數人是缺乏概率常識的，下面圖片里的例子是最好的證明。

這裡的第1張圖片是外賣小哥因交通事故死亡，據統計，2017年上半年，涉及到上海市送餐外賣行業的傷亡道路交通事故共76起，「餓了么」和「美團外賣」各佔26%。

要知道，在統計概率里，騎摩托車死亡率是最高的，如果懂點統計常識，是如何都不能選擇這個行業的。這無非等於拿命賺錢，根本不划算。

第2張圖片是美國的911事件。

康奈爾大學的3位研究人員在一篇引人入勝的論文中這樣說道，可能有數以千計的美國人在「9·11」恐怖襲擊事件發生之後由於害怕坐飛機而死於非命。我們永遠都不知道遭受恐怖襲擊的真正風險到底有多大，但我們知道開車確實是一件危險的事。

在「9·11」恐怖襲擊事件發生之後，越來越多的美國人選擇自駕出行，而不選擇乘坐飛機。

據統計，在考慮平均死亡率和天氣等導致路面交通事故因素的前提下，2001年10～12月，平均每個月因交通事故致死的人數比以往多了344人。該效應隨著時間的推移逐漸減弱，這是因為大家對恐怖主義的恐懼在慢慢消退。

但這項研究的作者認為，「9·11」恐怖襲擊事件導致的駕車死亡人數或已超過2000人。

你看，在不懂概率的情況下，選擇交通方式都會導致死亡率的提升。

現在我們回過頭來看下學習概率到底對我們有什麼用。

雖然概率並不會確鑿地告訴我們將會發生什麼，但我們通過計算概率能夠知道很有可能發生什麼、不太可能發生什麼。

聰明的人會使用這類數據為自己的事業和生活指明方向。牛人就是持續對大概率事件下注，並同時有意識預防那些足以毀掉你生活的風險。

我認為每個人都應該學一些概率知識，它現在是公民必備基礎知識。當不懂概率的人大驚小怪的時候，懂概率的你可以可以淡定自若。

其實，大多數人在中學的數學課中就學習過概率，但掌握概率的計算方法不等於真正理解概率。

實際上，概率中的幾個關鍵思維，是多數數學老師沒有講明白，甚至這些老師自己就沒有弄明白。理解這些思維不需要你會做任何計算，但是它們能讓我們看世界的眼光發生根本的改變。

這些思維的邏輯很簡單，我們可以從最簡單的概率中得到4個生活中的智慧。

這4個生活中的智慧就是：賭徒謬論，大數定律，如何投資賺錢最多，如何預防風險。我後在後面有時間在詳細展開聊。

所有，理解了下面3個知識點，你就理解了概率的本質。

1.什麼是概率？

概率的本質是用數值表示某件事情發生的可能性。

我給出了概率線，讓你對各類事件發生的概率有了大致的認識。

2.如何計算概率？

第1種方法是在網上查找前人計算的經驗值。

第2種方法是用數據分析來計算出事件發生的數目，然後除以總數目。

3.概率對我有什麼用？

雖然概率並不會確鑿地告訴我們將會發生什麼，但我們通過計算概率能夠知道很有可能發生什麼、不太可能發生什麼。

聰明的人會使用這類數據為自己的事業，生活，和投資指明方向。牛人就是持續對大概率事件下注，並同時有意識預防那些足以毀掉你生活的風險。

如果概率論——以及統計理論——描述了現實世界，並且接受實驗檢驗的話，那麼在我看來，只有頻率解釋是合理的解釋，而貝葉斯解釋可以看成是頻率解釋的特殊情況。

平常遇到的統計學的概率，你可以認為這種遵循貝葉斯推到的，你可以假裝是主觀概率。

或者說，如果兩種形式的概率無法被區別的話，那麼你認為是主觀概率和客觀概率是一樣的。至少密碼學上面會傾向於認為是一樣的

一個不符合貝葉斯推到的例子

Rev. Mod. Phys. 20, 367 (1948)

如果我是上帝，我會知道每一次拋硬幣的結果，什麼主觀概率客觀概率，統統走開！

人在變化，硬幣在變化，「變化的人」在拋「變化的硬幣」，每次拋擲過程都是獨一無二的；人和硬幣之間還存在相互作用，而且這種相互作用是無限反饋的。渺小的人類，總是把變化的事物當做不變的事物，把有差異的過程/事件/試驗當做無差異的過程/事件/試驗——認為存在相同的人，相同的硬幣，相同的拋擲過程/事件/試驗，更意識不到人和硬幣之間的相互作用。當他們所認為的「相同的過程/事件/試驗」出現不同的結果時，最初無法理解這種有時充滿確定性有時充滿不確定性的現象，後來終於發明了概率（性）這個概念來描述這種現象，甚至還煞有介事地劃分出主觀概率和客觀概率……

上帝作為主客系統之外完全獨立的第三者，或許能夠完全認識該主客系統的；而該系統之中的主體，是不能完全認識整個系統或者系統的局部，因為主體的認知意味著會同時改變主體、客體和整個系統。

———————————————上帝的分割線————————————————

所有的事物都處於變化之中：沒有相同的認知主體（觀測者）和認知客體（被觀測者）；也沒有相同的認知過程（觀測過程）和認知結果（觀測結果）。但是受限於我們（認知主體、觀測者）的認知能力（因為認知能力有限所以導致信息不全/失真/滯後），我們總是通過近似化（approximation）或理想化（idealization）得到「相似的」或「相同的」「我們（主體）」和客體，「相似的」或「相同的」過程（事件）。然而，每次過程（事件）都是獨一無二的，將有差別的過程（事件）視為無差別的過程（事件），就會導致這些「相似的」或「相同的」過程（事件）出現多種結果以及在多種結果之間分布的現象。我們將這種現象概念化為概率或概率性。

概率或概率性包含兩面，一面為不確定性，一面為確定性。概率或概率性在單次事件上主要體現為不確定性。因為單次事件總是獨一無二的，其可以出現任何一種結果，甚至是以前沒有出現過的結果。不確定性源於事件之間的差異性。概率或概率性在多次事件上主要體現為確定性（概率分布），而且重複的次數越多，確定性越明顯。因為，事件之間除了有差異，還有相似。確定性源於事件之間的相似性。

概率的初始值（或初始概率）建立於經驗的歸納推理（可以是正向的，也可以是逆向的）。基於相似性的歸納推理總會遇到黑天鵝，我們據此修正認知過程和認知結果——凡是規律總有例外，凡是例外都有規律。隨著認知過程和認知結果的不斷修正，概率會被持續更新。如亨利·龐加萊（Henri Poincaré）所言，「概率是我們無知程度的度量」，我再補充半句，「概率也是我們已知程度的度量」。

由於有限的認知能力，我們的認知過程和認知結果無法擺脫概率性。我們在概率下思考，我們在概率下決策，我們在概率下行動。我們必須正視概率或概率性，才能克服概率的負面作用。我們所要考慮的，不僅要包括（最）好的情況，更要包括（最）壞的情況，還要儘可能包括所有的情況！

———————————————人類的分割線————————————————

0、本質存在嗎？

1、本質可知嗎？

2、概率的本質是什麼？

3、為什麼會產生概率？

4、概率反映/描述什麼？

……

概率首先是個概念，這個概念是用來表徵某個或某類特殊現象的。其次這個概念在數學或物理領域有專有意義，並可以通過某個數學或物理模型來描述。當用某個模型描述它時，才有「概率的某個模型」或者「某某（模型）是概率的一種描述方式」這個說法，而不是「概率是某種模型」或「某某（模型）是概率」這類本末倒置的說法。舉個例子，我拿一張相片說「這就是某人」，意思是它描述代表表徵某人；但是你要說這個人的本質就是這張相片，就要弄笑話啦。

類似於這個問題，我們同樣還可以問運動的本質是什麼，時空的本質是什麼，原子的本質是什麼，等等。我們回答這些問題的方式，在我看來就是給這個問題賦予一個數學模型。比如，對運動的建模是單參量位於時空流形上的曲線，對時空的建模是微分流形(如果更進一步抽象，可能會有更豐富的結構)，對原子的建模是希爾伯特空間上的態(state or ray)，諸如此類。

回到概率這個問題上來，我們對它的建模是利用測度的數學工具，我們希望指出哪些事件是可以問概率的，我們還要求對可以問概率的這些事件有交，並的相應運算，於是我們引入sigma代數的概念，這就構成了概率的公理化定義。數學上的定義很好的符合我們的經驗。於是我們就可以認為我們回答了這個問題(至少我們可以計算並作出預言)。

UPDATE：

想到了一個稍微好點的表述。

我們所認識的所有的「確定性」是「不確定性」，概率是對「不確定性」的測度。

然並卵，好像沒什麼區別。Kolmogorov留下的這口大鍋這個世紀到底能不能解決嘛(╯‵□′)╯︵┻━┻

隨機絕對是第四次數學危機！危機QAQ

——原答案——

數學公理化和物理上的解釋有人貼了我就不重複了，十分佩服 @靈劍的描述：

一種對事件的特殊的測度。

這裡補一下他沒展開的哲學上的問題。

頻率派和貝葉斯派之間的矛盾也不是什麼鐵板一塊，互不兼容，甚至恰恰相反，將二者結合起來才是一個完整的「概率」。這種想法類似於Cantor用「我們認識的所有的『有限』」來定義「無窮」——「我們認識的所有的『確定』的測度是概率」。

這個表述實在糟糕，等我想到更好的表述過來修改答案QAQ

歡迎討論~

一句話總結:我們命已經定了，每個原子每個時刻定死在精確的位置。信息缺失不僅讓我們看到了概率分布，而且看到我們活著。

信息全開，事件概率只能是0和1，絕對發生或絕不可能發生。要講概率分布，必須搞清楚你在什麼信息之下，也就意味著此時信息是缺失的。而我們都是信息缺失的，但每人信息量不一樣，所以每人眼中世界概率分布都不一樣，雖說我們在同一個世界。

我覺得這問題，與唯物和違心的區別很相關。相對論是唯物，量子力學是唯心。概率論，在我看來就可以叫唯心論了。這是我之前對唯物和唯心的解釋，現在看來用在這裡回答更加適合這個題目:

先看唯物的定義:物質是第一性，意識是第二性。最符合唯物主義的，就是機械決定論:每個原子每個時刻是在一個確定的位置的，由此可推出宿命論。相對論和牛頓經典力學三大定律都是支持機械決定論的，因為他們的公式只會算出唯一結果。

再看唯心主義定義:意識是第一性的，物質是第二性的。唯心主義又分主觀唯心和客觀唯心，主觀唯心就不提了，屬於胡扯類的如宗教。客觀唯心主義的最典型例子就是——概率論！我想肯定很多讀者會認為概率論屬於數學，怎麼可能是唯心的，如果這樣請再看唯心主義定義。舉個丟色子的例子，唯心主義認為意識是第一性的，就是說:色子的結果是由我的觀測決定的，在我的所知信息下，色子六個面朝上的概率相等，都是六分之一。那麼同樣例子在唯物主義眼中是怎樣的？物質是第一性的，色子的結果是唯一的，有了這個結果你才能觀測到這個唯一的結果。唯物主義認為，投色子時的角度投出高度速度角速度，與地面碰撞時的機械能轉化效率，已經可以算出色子那一面朝上了，這是一個確定的結果，而不是六個面每個面概率均等！

最後，從資訊理論的觀點，總結下兩種觀點的聯繫與區別:

唯心主義，如概率論，是在信息不全的情況下，人們意識中的「平行宇宙」。信息缺失量(稱為「熵」)越大，概率越分散，越遠離唯物主義;信息缺失越少，則一件事的概率接近於1，越接近唯物主義。信息全部獲取後，概率為1，則就是唯物主義了。

======

另外我覺得概率論和資訊理論是一體的，要高清概率，就得高清信息是什麼。推薦通信必修課:資訊理論，看香農定義並量化了信息這種東西，看看熟知的比特單位到底是怎麼來的是什麼含義。而概率論，就是在一定信息下的狀態。信息全開，就是唯物主義，宿命論;信息缺失，世界就是眼前的概率分布，我們常人是信息缺失的。

說到這裡不得不說上帝宣稱全知全能是謊言，因為全知就是絕對宿命論包括自己，全知的上帝就會看到自己每個時刻每個原子精確定死在精確的位置，看到上帝是死的，是全無能的。

再說一點，那就是科學(除了量子力學)大多在信息全開假設下進行，以謀求最優解和最普世的結論。到了一定境界，發現有些信息太難獲取了，於是大家就研究在信息缺失有啥結論，因為這種信息缺失是非常普遍的，於是有了量子力學，能在現實應用中算的更准。現實中上帝到底投不投色子呢？我認為把糾纏太理解為信息缺失，比理解成上帝投塞子好，因為萬一那天缺失的信息獲取到了，就又能改進量子力學了。

而我們平日生活做決策時，做現實工程項目時，信息缺失就更多了，所以要用到更多的概率的概念。人天生就有樸素概率的概念，只是數學家更精確的建模了。

推薦伊藤清的一本書：

確率論と私

出版社鏈接：確率論と私 - 岩波書店