為什麼正態分布在自然界如此常見?


對這個問題的研究,可以寫好多本書,而且是還沒有寫出來,人類還不知道那種 :)

需要修正一下你的看法,自然界最多的不是正態(高斯)分布,而是長尾(冪律等)分布。你可以搜索一下heavy tail, zipf law之類的關鍵詞。事實上,高斯分布更常見於人造體,而非自然界。原因為啥,我下面講。

高斯分布怎麼來的,很簡單。只要你觀察的系統里,各種對象之間關聯很弱,那麼他們的總和平均表現,根據中心極限定律,就是高斯或者近高斯的。你看我們人造的東西,很多都是模塊化的,比如汽車輪船飛機,桌子椅子板凳,等等。我們人類造東西,都是「搭」出來的,一個模塊和另一個模塊之間關聯很弱,壞了一個模塊換掉就好。所以人造系統,其表現,包括性能啊,雜訊啊,穩定度啊,都基於高斯分布。

但自然界呢,假如有個造物主,它造東西跟人類的思路就很不一樣。它手裡的作品是「生長」出來的。比如我們人,從一個受精卵發育而來,各個部分強關聯,受精卵上一點缺陷,會反映到整個人體的巨大影響。這和桌子有本質區別,就算桌子原始材料有個洞,也不可能造出來桌面和桌腿都很多洞。「生長」這個過程到底服從什麼本質的數學規律,我們人類還不確切知道。從2000年以後,學界的研究集中於通過隨機遊動,擴散這樣的動力學行為來對「生長」出來的系統(複雜系統)嘗試尋找類似於模塊系統的中心極限定律的總體規律。有一些進展,但是還沒有特別令人信服的突破性結論。


高斯分布的信息熵最大。即,高斯分布是最混亂系統。


這裡有個前提條件是方差一定,這個條件在物理學家的眼中可以意味著漲落,可以是統計學上的能量的漲落(比如maxwell速度矢量分布的方差是確定的kt/m),或者是不確定關係下的漲落。

自然會趨向於最熵增和低能量態。這是熱力學的最簡單運行軌跡。

個人認為比之中心極限定理,這個是更為本質的因素。就像我們可以證明出來牛頓力學基礎上的經典力學,但是顯然
delta int L dt = 0
是更加優雅和接近自然本質的描述。


==============================================
抱歉之前手抖連哈密頓原理都打錯了,謝謝各位指正,等趕完量子力學作業就過來補關於信息熵的內容。


正態分布的的普遍性可以中心極限定理得到。直白地說,如果一個指標受到若干獨立的因素的共同影響,且每個因素不能產生支配性的影響(Lindeberg 條件),那麼這個指標就服從中心極限定理,收斂到正態分布,這就是林德伯格-費勒中心極限定理的意思。

舉個例子,學生的成績(指標)受許許多多因素影響諸如狀態、能力、心情等等充分多的因素影響,成績的形成是許多因素影響的加總。這些因素沒有一個能夠支配性地影響成績,那麼即使這些因素各自都不是正態分布的,它們所形成的成績也是正態分布的。


這個問題很有趣。目前的答案中,我最贊同 @onion red的答案。

自然界最常見的分布並非是正態分布。

@梟梟 的答案中提到的正態分布是最大熵的分布,這是對於封閉的系統而言存在概率最大的分布。他提到了熵增原理,也就是說,我們如果先默認熵增原理成立,那麼必須假定系統是封閉系統。而最大熵的分布對於熱力學系統而言,正是當系統處於熱力學平衡態時的分布。他不是裝逼,只是從物理的角度,假設一個理想的情況下,來考慮這個問題。

然而自然界最常見的分布並非是正態分布,對於熱力學語言之下,這是因為自然界大多數的系統都並不是完美的處於熱力學平衡態的封閉系統。在數學的視角下,它們彼此之間不是獨立的,而是存在錯綜複雜的相互作用,不適用中心極限定理。嚴格的來說,自然界幾乎處處都是開放的、有各種相互作用的系統,還存在許多自組織系統,即那些可以從比較混亂的初始狀態,僅僅是由其局域的動力學規則,演化成有規律的體系的系統。

有更多的系統最多只能近似的、或局域(時間或空間意義下)的可以看做處於熱力學平衡態,近似的看作其中的變數相互獨立,或壓根就不能那樣考慮。

比如說生物的細胞中,由DNA轉錄為RNA、再由RNA翻譯為蛋白質,然後蛋白質與蛋白質發生相互作用,或可以調控轉錄,這樣的過程,其copy number經常並不多,而其反應過程的特徵能量又與常溫下的隨機熱擾動的能量量級不相上下,所以可以想見,其漲落非常大。生物系統正是不斷地從外界攝取能量,自組織的完成一定的功能,維持低熵狀態的系統。它並不適用於用熱力學平衡態的那套模型去研究,也不服從正態分布。

@onion red 提到了Zipf"s law,這樣的分布在之前被認為是一個fine-tuning 的問題(fine-tuning 的問題我們通常認為是個問題),也就是說需要系統得到精確的調控,才可以實現。然而今年有篇PRL文章提出了一種可以由系統中的隨機變數導致Zipf"s law的具有一定普適性的機制,請看這篇文章:
Phys. Rev. Lett. 113, 068102 (2014)

而生物系統這樣的自然體系,在漫長的演化之後,還形成了一些比較好玩的規則。比如如果單從動力學網路結構的角度來看,生物系統對應的網路拓撲結構的熵總是比較低的。也就是說,不光從物理上,其系統的熵比較低,從這種非物理的、僅僅在動力學結構的意義上而言,它的熵也低。請參考這篇文章:PLOS Computational Biology: Identification of a Topological Characteristic Responsible for the Biological Robustness of Regulatory Networks

所以說,你看,自然界其實是在不同的規則之下,有不同的機理,演化出不同的分布呢。

目前為止,人們總是認為自然界里各種類似生物這樣的系統是很複雜的,沒有普遍規律,而要case by case討論的系統,這麼認為的生物學家、化學家非常多。而物理學家又往往更多的研究一些更理想的系統(經常不是自然界本身就符合的,比如真空中的球形雞),傾向於去尋找更簡單的、普適的規則。我不敢去評論誰對誰錯,然而我總是期望著,如果哪一天我們對物理更了解,對數學更了解,也對生物、化學更了解,我們就能在更為普遍的意義下,去建立一套描述生物系統之類系統的數學語言。如果哪一天我們真的能夠窺見自然界普遍存在的複雜系統的「牛頓三定律」,那麼我們也許會開始驚嘆自然界其實比我們想像的要聰(tou)明(lan)。


Everyone believes in the normal law, the experimenters because they imagine that it is a mathematical theorem, and the mathematicians because they think it is an experimental fact(每個人都相信正態法則,實驗人員是因為他們想像這是一個數學定理,而數學家則是因為他們認為這是一個實驗事實).

— 法國物理學家
Gabriel Lippmann (French physicist ,16 Aug 1845 - 13 Jul 1921), Conversation with Henri Poincaré. In Henri Poincaré, Calcul ds Probabilités (1896), 171

來源:Gabriel Lippmann Quotes


很多個因素獨立同分布並且可以疊加,那麼疊加結果就會接近正態分布。我看的參考書上把這個叫做中心極限定理。
就是這樣,自然中的結果都有很多原因,並且經常是獨立的,可以疊加的,所以最終展現出來的結果就是正態分布。


為什麼是限定均值和方差的正態分布呢,不是只限定均值的指數分布呢,或者不是一個很長很長的區間上的均勻分布呢?要知道至少有一打參數分布都能在給定的一些矩的限制條件下,成為對應的最大熵分布。
Maximum entropy probability distribution
用信息熵來解釋正態分布的普遍性,在我看來是最有逼格但是最扯淡的解釋。有人思考過對一階矩和二階矩的限制是自然的嗎?

是否許多變數可以用正態分布很好地描述?如果是,為什麼?

嚴格正態分布(exact normal distribution)一般只會出現在理想的物理系統中,例如熱力學系統中最大熵原理導致理想氣體分子的速度服從正態分布。但是應該注意到,由於這種原因出現的正態隨機變數應該是很少的。

正態分布是誤差理論的基石,我們實際生活中絕大部分情況下遇到的正態分布,都來源於大量隨機變數的累加,而中心極限定理保證了這一切的和都會近似成一個正態分布。正態分布本身具有一個非常良好的形式,他是唯一的均值方差完全獨立的二元分布。

正態分布均值方差的獨立性,在證明中心極限定理的時候會顯現無疑。對隨機變數正則化和的特徵函數做taylor展開,在一定正則條件下,可以捨棄3階以上的項,而保留下來的一階矩和二階項求極限剛好確定了一個標準正態分布。
http://en.wikipedia.org/wiki/Central_limit_theorem


我覺得這麼多人頂最大熵的答案,無非就是覺得逼格高而已,在知乎上頗為主流的CSEE的學生顯然都學了資訊理論,而概率論一般是和數理統計一起煮了個大鍋飯。考慮到我居然發現不少統計系本科畢業的學生,連中心極限定理和大數定理都分不清楚(其實我畢業的時候也分不清楚啊。。。捂臉跑開),我覺得應該加強理工科專業本科的概率論的學習,4個學分的概率論與數理統計完全不夠用。
當然有人可以爭辯,誤差的存在就是增加原本有序的信息的混亂程度,假設誤差本身服從一個最大熵的分布是很自然的,如果你想到了這一點,你真的好聰明啊!來讀phd吧~


如果不知道背景分布又沒法subsample,C4!

所以那些不優雅的分布被C4掉了


有個材料叫正態分布的前世今生


對系統內熵取極值可以直接導出正態分布密度函數。所以這是上帝扔出的骰子所應符合的分布。


寫期末論文寫累了,過來答下題。
這個學期學了一門叫做machine learning的課程,正態分布在這門課程中經常被使用。正態分布(normal distribution)又叫高斯分布( Gaussian distribution),在統計學中經常被使用到。
1,n次獨立觀察中,觀察誤差滿足正態分布。
已知,誤差分布導出的極大似然估計 = 算術平均值 (這個假設是高斯證明正態分布的形式的時候給出的,後來拉普拉斯根據central-limit theory,證明了這個假設。拉普拉斯的證明我沒有看,所以不要細究這個)

設真值為 θ, x1,?,xn為n次獨立測量值, 每次測量的誤差為ei=xi–θ,假設誤差ei的密度函數為 f(e), 則測量值的聯合概率為n個誤差的聯合概率,記為
L(θ)=L(θ;x1,?,xn)=f(e1)?f(en)=f(x1?θ)?f(xn?θ)
為求極大似然估計,令
d logL(θ)dθ=0
整理後可以得到
∑i=1nf′(xi?θ)f(xi?θ)=0
令 g(x)=f′(x)f(x),
∑i=1ng(xi?θ)=0
由於高斯假設極大似然估計的解就是算術平均 xˉ,把解代入上式,可以得到
∑i=1ng(xi?xˉ)=0(1)(5)
(1)式中取 n=2, 有
g(x1?xˉ)+g(x2?xˉ)=0
由於此時有 x1?xˉ=?(x2?xˉ), 並且 x1,x2 是任意的,由此得到
g(?x)=?g(x)
(1)式中再取 n=m+1, 並且要求 x1=?=xm=?x,xm+1=mx, 則有 xˉ=0, 並且
∑i=1ng(xi?xˉ)=mg(?x)+g(mx)
所以得到
g(mx)=mg(x)
而滿足上式的唯一的連續函數就是 g(x)=cx, 從而進一步可以求解出
f(x)=Mecx2
由於f(x)是概率密度函數,把f(x) 正規化一下就得到均值為0的正態分布密度函數
N(0,σ2)。

上面這段證明源自恩斯(Edwin Thompson Jaynes) 的《概率論沉思錄(Probability Theory: the Logic of Science)》,我只是搬運一下。
下面先給出標題,有時間再填坑,先寫論文去了。
---------------------------------------------------------------------------------------------------------------------------------
2.赫歇爾證明了在二維空間中誤差分布滿足Gaussian Distribution,麥克斯韋證明了三維空間中誤差分布滿足Gaussian Distribution
3.自然界噪音的形成滿足Gaussian Distribution,證明由英國工程師蘭登(Vernon D. Landon)給出。
4.正態分布使得信息熵(香農熵)最大
5.由中心極限定理(central-limit theory),n個獨立分布的隨機變數,當n趨向於正無窮時,nˉ趨向於正態分布
6.如果 X,Y 是獨立的隨機變數,且 S=X+Y 是正態分布,那麼 X,Y 也是正態分布
7.統計學三大分布χ2分布、t分布、F分布與正態分布有著密切的關係


高斯隨手寫下了一個分布——高斯分布。


上帝說,世間萬物都要服從高斯分布,於是就有了我們的世界。


為啥不能老老實實承認,我們還不知道


第一,N分布具有傳遞性。
N個N分布加減乘除之後依然是個N分布。
第二,N個其他任何分布,當N數量夠大時都是N分布。
由於以上兩點,基本上自然界的分布都是N分布最為常見,這也是進化論的自然結論。

為什麼死人一定比活人多?因為死人不會變成活人,活人一定會變成死人。


有沒有人想過給自然界所有分布的出現頻率計算一個分布(分布的分布),會不會那本身就是一個正態分布,而正態分布恰好處在自己的中心最大處?如果這樣的話對這個問題的回答就頗具意味了,正態分布將自我解釋為何如此普遍!


因為對於方差存在的任何分布,最終都會根據中心極限定律,得到正太分布。
換句話就是吸收態。
但是,推廣得到的廣義中心極限定律,給出了不論方差的吸收態,其形式略微複雜。但,包含了正太分布,尾部和冪律分布有點類似的分布,等等。


笨法解題:
擲一次骰子,可能的結果1到6各出現1頻次呈均勻分布;
連續擲兩次骰子,可能的結果2到12出現1頻次到6頻次是一個三角形分布;
三連擲骰子,可能的結果3到18出現1頻次到8次已經有了正態分布的雛形。
五連擲骰子,可能的結果5到30出現1頻次到13頻次已經可以說是正態分布。
N連擲骰子…

瞧,足夠多的均勻分布合成起來,它們共同影響的結果頻次就形成正態分布。

所以這道題的正解或許來自於我們基於均勻分布量化理解世界的視角:
我們普通人(加上用商業規律認識世界的某些精英)只能用簡單的均勻分布的自然數接觸認識自然界的隨機性,所以所見所及尤其是最高贊答案的所創造就充滿正態分布。


因為研究概率論的學生的成績都是正態分布的,所以他們看哪裡都是正態分布的


因為正態分布本質是不是啥數學公式,而是一種常見的商業模式。

我們先從一個問題開始聊起:

為什麼你很努力的上班,卻還是當不了公司高管?

1. 什麼是正態分布?

假設你老媽挺操心你單身狗的生活,怕你孤獨而死。為了給你尋找優質的相親對象,就把你的照片放到了相親網站上。艾瑪,這可好一下子吸引來200多個人留言,要與你「私定終身」。

老媽可謂是王母娘娘下凡,為了提高篩選效率,於是乎就建了一個微信群,讓所有人報一下自己準確的身高。

幸虧老媽當年干過些簡單的數據統計工作。她以5厘米為單位,數一數每一段5厘米各有多少人。接著用身高為橫軸,人數為縱軸,畫了下面這張圖。

仔細看這張圖,你和老媽發現一個驚人的秘密:

這張圖形狀是中間高,兩邊低,長得像一隻倒扣的鐘。

這種數據分布就是正態分布:

正態分布像一隻倒扣的鐘。兩頭低,中間高,左右對稱。大部分數據集中在平均值,小部分在兩端。

實際上人的身高就是符合正態分布的。2017年我國18歲及以上成年男性平均身高167.1cm。那麼根據身高是正態分布,我們就可以快速的知道大部分男性的身高是集中在平均值,有小部分人的身高要麼比平均值身高略高,要麼略低(例如王祖藍)。

神奇的地方在於,不管是人的身高,手臂長度,肺活量,還是他們的考試成績,都符合正態分布。

2. 正態分布是怎麼來的呢?

為什麼叫正態,而不叫「正點」呢?(小姐,你好正哦 )

這要從發明這個東東的人說起。

維多利亞時期的學者Francis Galton對數據分布很著迷,他製造了一台可以產生「數據分布」的裝置。他發現這種形狀適用於用於很多數據,他將其命名為「正態分布」(The Normal Distribution)。

正態的英文單詞是「mormal」,意思是「常見的,典型的」,主要是因為這種分布能恰當代表多種多樣的數據類型。

3.還有哪些商業現象,符合正態分布呢?

1)員工績效

大部分員工的業績,都是一般的,做得特別好的非常少,做得特別差的也不多見。這就是為什麼績效管理領域,會用「活力曲線」來考核業績。

什麼是「活力曲線」呢?

員工流失率太高顯然不好。據計算,招聘的過程花費,大概是這名員工年薪的50%。過高的員工流失率,意味著失控的招聘成本。離職的業績損失,大概是這名員工年薪的30%-400%。過高的員工流失率,更意味著巨大的業績損失。

員工流失率太低也不好。極低的員工流失率,通常來自對低績效的容忍。允許績效差的員工留在團隊,損失的不僅是工資,而是本應獲得的業績。另外,績效差的員工通常更不願離開,因為他可能找不到另一份工作。為了安全,他會想辦法擠走績效好的人,你的團隊會越來越沒有戰鬥力。

通用電氣前CEO傑克·韋爾奇認為,大家很容易認識到員工流失率太高的問題,卻很難認識到流失率太低的危害,所以,他提出了著名的「末位淘汰制」(也叫「活力曲線」),他把員工分為:

20%的優秀員工,70%的中等員工,和10%的末位員工。 末位員工必須提升自己,或者轉崗,或者面臨淘汰。

這個制度,被認為是給通用電氣帶來無限活力的法寶之一。

所以,以後上班別偷懶,小心被老闆裁掉。害怕吧?

2)產品質量

大部分產品的質量,都是平庸的,真正的好產品非常少,但爛到骨子裡的產品也不多見。這就是為什麼質量管理領域,會用6個標準差(關於標準差在之前的《如何看懂數據》里有講過)來排除掉不合格的產品。

3)快速找到停車位

根據《華爾街日報》的報道,美國人甚至連在購物商場停車都呈現出正態分布,正對著商場入口的地方停車數量最多,也就是正態曲線的「峰值」,在入口左右兩側的停車數量逐漸變少,即曲線兩端下滑的「尾巴」。

你知道這個規律後,下次停車直接選擇上次入口兩端車少的地方進入,找到停車位的概率就很多了。

4)智商

大部分人的智商是正常的,只有少數像愛伊斯坦老爺子這樣的才會智商發飆。

5)預測數據的位置

正態分布的一個神奇的地方:可以大概估算出數據的位置。

我們先從一個例子開始。假如你選對了個人商業模式,成功開了一家公司,員工有幾百早上做地鐵去公司上班。

你公司可以看做下面圖中的中間位置。有的人坐3站地鐵可以到公司,有的人坐2站可以到公司,還有很多人住的比較近,坐1站地鐵就到公司了。這裡的幾站地就是表示你離公司還有多遠的距離。

上面這個圖其實就是下面的正態分布圖

中間的那條線代表平均值(例子中公司的位置)。之前我有講過標準差是表示數據的波動大小。1個標準差表示距離平均值1個標準差的位置(例子中距離公司1站地),同樣的,2個標準差,3個表示距離平均值2個標準差的位置,3個標準表示距離平均值3個標準差的位置。

知道這3個標準差於平均值的距離,有什麼用呢?

這個用處可大了去了。正態分布的「美」好比邁克爾·喬丹在球場上的力量、靈巧和優雅,它來自於一個事實,那就是我們通過上面這個圖就能夠清楚地知道:

有68.2%數值位於平均值1個標準差的範圍之內

有95.4%的數值位於2個標準差的範圍以內

還有99.7%的數值位於3個標準差的範圍以內

這聽上去似乎挺傻的,但事實上這就是統計學的基礎之一。這也是正態分布最厲害的「殺手鐧」,正是這個特點才有了統計概率里的武器」中心極限定理「(這個我會在」猴子統計概率思維「課程里聊到)。

一個典型的例子就是,每一次SAT考試(被稱為美國高考)都是經過精心設計,以得到一個平均分為500分、標準差為100的成績的正態分布。這樣就會保證公平性,讓大部分人可以通過考試,而少部分人通不過考試。

我們回到一開始提出的問題:

為什麼你很努力的上班,卻還是當不了公司高管?

正態分布是商業界最常見的一種分布。當影響結果(或者成功)的因素特別多,沒有哪個因素可以完全左右結果時,這個結果通常就呈現正態分布。

很多事物,都可以用正態分布曲線表示,或者輔助思考,比如,科技創新接受度,基本上就符合正態分布……

人群中的個體若是按能力劃分的話,分布大致應該符合正態分布曲線的樣子:

其中有一個「鴻溝」,是想說明有很多人能力增長到一定程度,就會遇到無法跨越的鴻溝。比如,對中國程序員來說最普遍的鴻溝是英文。沒有英文能力,最新的技術學起來就是落後他人。

你去公司上班打工的商業模式,也是符合正態分布的。

即大部分是處於中間平均位置的,既不能大富大貴,也不會窮到淪落街頭。而成為公司高管是少數人可以做到的事情。因為你的 「邊際成本」不為零。

什麼叫「邊際成本」?

邊際成本,它指的是企業生產產品時,每多生產一個,需要額外產生的成本。

你可以簡單理解為,邊際成本就是:

你做一件事,每多一份產出,需要多付出的代價。

所以去公司上班並不是一個邊際成本為零的收入。你每多賺一塊錢的工資收入,你就得多付出相應的勞動。工資收入不僅邊際成本不為零,很多時候,它的邊際成本是增加的。

邊際成本增加的意思就是,你得沒日沒夜的加班,你得犧牲很多和家人朋友相處的時間,你才可能實現工資收入的增長,比如拿到年終獎。

我們常說企業要轉型,傳統企業要升級,要增加高新科技企業的數量。升級和轉型的根本,其實就是要把成本結構從遞增,改成更有效率的遞減,甚至接近於零。

「邊際成本」越高的行業,越是分散市場,符合正態分布:賺大錢的人少,虧大錢的也少,大部分人都趨向賺取平均利潤。

所以,你選擇的上班領工資是正態分布的個人商業模式,大部分人不可能成為高管。

注意,我這裡說的是「大部分」,意外著是從總體的角度來看問題。

如果你說身邊的某某就是高管,不好意思,你是從特殊樣本來看問題。

總體代表概率,特殊樣本代表思維偏見,而統計概率給我們的智慧就是對大概率事件下注,如果不明白這一點思考問題的正確方式,可以補一下我之前的課程《投資賺錢與概率》。

那麼問題來了,有沒有辦法改變你的個人商業模式,從而實現財務自由呢?

答案是有的,限於篇幅可以看我寫的《冪律分布個人商業模式》


沒辦法,中心極限定理啊。


推薦閱讀:

人生存的世界到底是不是真實的世界?
平行世界理論的地位如何?
為什麼有一部分人在轉基因知識日益普及的形勢下還反對轉基因?
如何解答「費米佯謬」?
衛星軌道高度是以海拔算,還是以地球重心算?

TAG:自然科學 | 數學 | 概率 | 科學 | 概率論與數理統計 |