無所不在的概率分布鍾型曲線 | 張天蓉專欄

小球從釘板落下的遊戲,都玩過吧?圖片來自flickr

撰文|張天蓉 (美國德州大學奧斯汀分校理論物理博士)

責編 | 呂浩然

  • 概率論專欄

  • 2017-03-16上帝教人擲骰子——「神童」帕斯卡與概率論

    2017-03-31 似是而非的答案:概率論悖論

    2017-04-18 別相信直覺:概率論幫助偵破「財務造假」

    2017-05-15 賭徒謬誤:賭博與大數定律

    ● ● ●

    上一篇中,通過賭徒謬誤介紹了概率論中的大數定律。大數定律說的是當隨機事件重複多次時頻率的穩定性,隨著試驗次數的增加,事件發生的頻率趨近於預期的「概率」。但大數定律並未涉及概率分布問題,所以本文就來說說概率分布。首先,用如下例子來說明「概率分布」是什麼意思。

    高爾頓釘板試驗

    弗朗西斯·高爾頓(Sir Francis Galton,1822-1911)是英國著名的統計學家、心理學家和遺傳學家。他是達爾文的表弟,雖然不像達爾文那樣聲名顯赫,但也並非無名之輩。不僅如此,高爾頓幼年是神童,長大是才子,九十年的人生可謂豐富多彩,是個名副其實的博學家。其涉獵範圍廣泛,研究水平頗深,縱觀科學史,在其同時代科學家中,能望其項背之人寥寥可數【1】。

    在達爾文發表了《物種起源》之後,高爾頓也將研究方向轉向生物及遺傳學,他第一個對同卵雙胞胎進行研究,論證了指紋的永久性和獨特性;他從遺傳的角度研究人類智力並提出「優生學」,也是第一個強調把統計學方法應用到生物學中去的人;他還設計了一個釘板實驗,希望從統計的觀點來解釋遺傳現象。

    圖1:高爾頓釘板實驗

    如圖1中所示,木板上訂了數排(n排)等距排列的釘子,下一排的每個釘子恰好在上一排兩個相鄰釘子中間,從入口中處放入若干直徑略小於釘子間距的小球,小球在下落的過程中碰到任何釘子後,都將以1/2的概率滾向左邊,也以 1/2的概率滾向右邊。如此反覆地繼續下去,直到小球下落到底板的格子里為止。試驗表明,只要小球足夠多,它們在底板堆成的形狀將近似於一個鐘形的高斯曲線(圖1左下黑色曲線)。

    為什麼這兒出現了一個鐘形曲線呢?這與古典概率論中最重要的「中心極限定理」有關。

    中心極限定理

    事實上,中心極限定理不是一個定理,而是一組定理,分別適用於不同的條件。但基本可以用一句話來概括它們:大量相互獨立的隨機變數,其求和後的平均值以正態分布(即鐘形曲線)為極限。

    以上所述的高爾頓釘板實驗顯示的「鐘形曲線」便可以用中心極限定理來解釋。

    考慮釘板中的某一個小球下落的過程:小球在下落過程中碰到n個釘子上,每次都等效於一次「拋硬幣」類型的隨機變數。也就是說,一個小球從頂部到底部的過程,等效於n次拋硬幣之和。n個釘子中的每一個釘子,將小球以同等的概率彈向左邊或右邊,小球最後到達的位置,是這n個「左/右」隨機變數相加後的平均位置。不難看出,這個平均值落在中心處的概率最大(即小球聚集最多),但也可能向左或向右偏離1格、2格……偏離越大,小球的數目越少,不同位置的小球數便形成了一個「分布」,中心極限定理則是從數學上證明了,這個分布的極限是正態分布。

    中心極限定理最早由法國數學家棣莫弗(de Moivre, 1667-1754)在1718年左右發現。他為解決朋友提出的一個賭博問題而去認真研究二項分布(每次試驗只有「是/非」兩種可能的結果,且兩種結果發生與否互相對立)。他發現:當實驗次數增大時,二項分布(成功概率p=0.5)趨近於一個看起來呈鐘形的曲線。後來,著名法國數學家拉普拉斯對此作了更詳細的研究,並證明了p不等於0.5時二項分布的極限也是高斯分布。之後,人們將此稱為棣莫弗-拉普拉斯中心極限定理【2】。

    再後來,中心極限定理的條件逐漸從二項分布推廣到獨立同分布隨機序列(指隨機過程中,任何時刻的取值都為隨機變數,如果這些隨機變數服從同一分布,且互相獨立,那麼這些隨機變數就是獨立同分布),以及不同分布的隨機序列。因此,中心極限定理不是只有一個定理,而是成為研究某種條件下獨立隨機變數之和的極限分布為正態分布的一系列命題的統稱。

    不得不承認中心極限定理的奇妙。在一定條件下,各種隨意形狀概率分布生成的隨機變數,它們加在一起的總效應,是符合正態分布的。這點在統計學實驗中特別有用,因為實際上的隨機生物過程或物理過程,都不是只由一個單獨的原因產生的,它們受到各種各樣隨機因素的影響。然而,中心極限定理告訴我們:無論引起過程的各種效應的基本分布是什麼樣的,當實驗次數 n 充分大時,所有這些隨機分量之和近似是一個正態分布的隨機變數(圖2)。

    在實際問題中,常常需要考慮許多隨機因素所產生的總影響。例如,許多因素決定了人的身高:營養、遺傳、環境、族裔、性別等等,這些因素的綜合效果,使得人的身高基本滿足正態分布。另外,在物理實驗中,免不了有誤差,而誤差形成的原因五花八門,各種各樣。如果能夠分別弄清楚產生誤差的每種單一原因,誤差的分布曲線可能不是高斯的。但是,當所有的誤差加在一起時,實驗者通常得到一個正態分布。

    圖2:中心極限定理

    為了更為直觀地理解大數定律和中心極限定理,在圖3中,將拋硬幣所得的結果用數值表示(正面=1,反面=-1)。如此賦值以後,大數定律指的是:拋丟硬幣多次(n趨近無限大)後,結果的平均值將趨近於0,即正反面出現次數相等,其數值相加而互相抵消了;中心極限定理則除了考慮平均值(等於零)之外,還考慮結果的分布情形:如圖3b所示,如果只拋1次,出現正面(1)和反面(-1)的概率相等,對應於公平硬幣的等概率分布,平均值為0。當投擲次數n增加,平均值的極限值仍然保持為0,但點數和之分布情形變化了,n趨近無限時,分布趨於正態分布,這是中心極限定理的內容。

    圖3:大數定律和中心極限定理

    大量的統計實驗結果告訴我們:鐘形曲線隨處可見。我們的世界似乎被代表正態分布的「鐘形」包圍著,很多事物都是服從正態分布:人的高度、雪花的尺寸、測量誤差、燈泡的壽命、IQ分數、麵包的重量、學生的考試分數等等。十九世紀的著名數學家龐加萊(Jules Henri Poincaré,1854-1912)曾經說過【3】:「每個人都相信正態法則,實驗家認為這是一個數學定理,數學家認為這是一個實驗事實。」大自然造物的美妙深奧,鬼斧神工,往往使人難以理解。鐘形分布曲線無處不在,其奧秘便是來自於中心極限定理。

    中心極限定理從理論上證明了,對於大量獨立隨機變數來說,不論其中各個隨機變數的分布函數是什麼形狀,也不論它們是已知還是未知,當獨立隨機變數的個數充分大時,它們的和的分布函數都可以用正態分布來近似。這使得正態分布既成為統計理論的重要基礎,又是實際應用的強大工具。

    就理論而言,正態分布有不少優越性:1. 兩個正態分布的乘積仍然是正態分布;2. 兩個正態分布的和是正態分布;3. 正態分布的傅立葉變換仍然是正態分布。正態分布只需要兩個參數μ和σ就完全決定了分布的性質(見圖2)。這點給實際計算帶來許多方便之處,再一次體現了中心極限定理的威力。

    中心極限定理的應用

    正態分布在應用上非常有效,下面便舉兩個簡單例子予以說明。

    例1:小王到某保險公司應聘,經理給他出了一道考題:如果讓你設計一項人壽保險,假設客戶的數目有1萬左右,被保險人每年交200元保費,保險的賠償金額為5萬元,估計當地一年的死亡率(自然+意外)為0.25%左右,那麼,你會如何計算公司的獲利情況?

    小王在經理面前緊張地估算了一下:從1萬個客戶得到的保費是200萬,然後1萬人乘以死亡率,可能有25人死亡,賠償金額為25×5萬,等於125萬。所以,公司可能的收益應該是200萬減去125萬,等於75萬左右。這是小王的答案。

    經理面露滿意的笑容,但又繼續問:75萬隻是一個大概可能的數目,如果要你大略地估計一下,公司一年內從這個項目得到的總收益為50-100萬元的概率是多少,或者需要估計公司虧本的概率,你怎麼算呢?

    圖4:正態分布用於估計人壽保險

    這下難倒了小王:要真正計算概率需要用到分布,這是什麼分布啊?小王腦袋裡突然冒出了「中心極限定理」,1萬個客戶的數目足夠大了,可以用正態分布:首先需要計算平均值μ和方差σ。人壽保險近似於一個像拋硬幣的「二項分布」問題:受保人死亡,保險公司賠償,反之則不賠償。只不過,這兒死亡的概率比較小,p=0.25%。用正態分布來近似的話,只要知道了期望和方差,概率便不難計算。小王回想起正態分布的簡單圖像以及幾個關鍵數值(見圖4),算出均值μ=E(X)=np=10000*0.25%=25,方差σ2=Var(X)=np(1-p)=25,由此得到σ=5。

    然後,要計算公司賺50-100萬元的概率,從圖4可知,也就是死亡人數在20到30之間的概率,剛好就是從(μ-σ)到(μ+σ)之間的面積,大約68.2%左右。至於公司何種情況下會虧本呢?直觀而言,如果死亡的人數多於40,公司便虧本了,概率到底是多少呢?同樣可用圖4進行估計,40和25之間相差15,等於3σ,因而得到概率大約等於0.1%,所以,保險公司虧本的概率幾乎為零。

    例2:圖5a是美國2010年1,547,990個SAT考試成績的原始數據,其中有1,313,812個分數在1850之下,有74,165個成績是在2050以上。由此我們從原始數據可以算出:分數在1850之下的百分比是0.849,分數在2050之上的百分比是0.0479。

    圖5:SAT成績

    另一方面,原始的結果可以用一個平均分數μ=1509,標準方差的平方根σ=312的正態曲線來近似。因此,我們也可以從正態分布曲線來計算分數低於1850及高於2050的百分比,它們分別對應於圖5b和圖5c中陰影部分的面積。根據高斯積分求出兩個圖中的面積分別為0.8621和0.0418。對照從原始數據的計算結果0.849和0.0479,相差非常小。

    由此可以看出,中心極限定理在現實生活中的應用非常廣泛。大數定律和中心極限定理,都是基於多次實驗結果的古典概率觀點,屬於頻率學派。下一篇中將介紹概率論中極端的兩大派別:頻率學派和貝葉斯學派。

    參考文獻:

    【1】"Sir Francis Galton F.R.S: 1822-1911". galton.org. Retrieved 9 January 2017.

    【2】維基百科:中心極限定理

    https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86

    【3】Gabriel Lippmann (French physicist ,16 Aug 1845 - 13 Jul 1921), Conversation with Henri Poincaré. In Henri Poincaré, Calcul ds Probabilités (1896), 171

    製版編輯:呂浩然丨

    本頁刊發內容未經書面許可禁止轉載及使用

    公眾號、報刊等轉載請聯繫授權

    copyright@zhishifenzi.com


    推薦閱讀:

    揭秘世界各國血型分布特點
    請務必須知以免延誤辦事|中國駐美國大使館/總領館領區圖分布??
    長期不良姿勢影響脂肪分布
    鄺氏族人分布
    圖解 bernoulli, multinoulli, gaussian distributions

    TAG:概率 | 分布 | 專欄 |