是否許多變數可以用正態分布很好地描述?如果是,為什麼?


因為熵增,正態分布實際上是自然界傾向於產生最大無序程度的一種表現。在給定均值和方差的分布中,正態分布是讓熵最大的分布。證明如下:

證明來自:變分法與乘子法:以最大熵推導正態分布,謝謝 @張秉宇 提醒


中心極限定理
http://en.wikipedia.org/wiki/Central_limit_theorem
注1:由@吳濤的評論,我指出一下,此定理是嚴格的數學定理,不是規律總結。
注2:應用時,注意「獨立同分布隨機變數「這一條件。所以不是什麼都呈正態分布。見@郝顯 的答案。


建議修改問題描述,套用知乎的一句名言,所有跳過「是不是」直接問「為什麼」的都是耍流氓.

先來看是不是。wikipedia關於正態分布Normal distribution有一個專門的小節講occurence,裡面將正態分布的出現分為三類:exact,approximate和assumed。

嚴格正態分布(exact normal distribution)一般只會出現在理想的物理系統中,例如熱力學系統中最大熵原理導致理想氣體分子的速度服從正態分布。但是應該注意到,由於這種原因出現的正態隨機變數應該是很少的。

近似正態分布(approximate normal distribution)的廣泛性也許是這個問題最好的回答。前面很多回答都提到了中心極限定理,這確實是統計學中最重要的定理之一,也直接確定了正態分布的地位。遺憾的是幾位答主都提到了中心極限定理的前提條件是變數獨立甚至同分布,這其實不是必要條件。粗略地說,如果一些變數服從相似的分布並且相關性較弱,那麼它們的平均值就是近似正態分布的。對這個論斷的大量定量研究(大部分基於Stein"s method)極大的拓展了中心極限定理的應用範圍,所以我們對很多正態假設也更能接受了。

假設正態分布(assumed normal distribution)也是很多人認為「正態分布被濫用」的原因。現在幾乎所有學科里針對不確定性的研究,正態分布都是最常見的假設。很多時候這個假設甚至都沒有經過驗證,研究者為了能做定量研究就先假設正態分布,這無疑是一種濫用。即使中心極限定理能在一定程度上支持某些假設,我們也要始終清醒地意識到這是需要實際數據驗證的。事實上統計學家也早就意識到正態分布假設並不總是成立。六十到八十年代最重要的研究就主要在generalized linear model和robust statistics上,這些都是對傳統基於正態誤差的線性模型的推廣和改進。

為什麼會又如此多的正態分布假設呢?,前面 @張偉棋 的回答提到了這可以讓很多統計關係變得清晰簡單。我展開說一下:
1. 正態分布可以被前兩階矩(均值和方差)唯一確定。均值和方差是人們最容易理解的統計概念,而在正態分布中它們就是兩個自然參數,這導致樣本均值和樣本方差是正態分布的完備統計量,這讓類似於t-statistic(樣本均值除以樣本標準差)這樣的統計量非常的直觀。
2. 正態分布推廣到高維可以和線性代數無縫連接。多元正態分布有一個非常非常重要的性質,就是一個正態分布的線性變換仍然是正態分布。如果我們假設正態分布,那麼大量的線性模型都會變得非常容易研究。至於線性模型在科學和工程中有多麼重要,就不必再多說了。

其它的原因暫時還沒有想到,先說這麼多吧。


中心極限定理可以算是是統計學最美的定理了吧。中心極限定理有好幾個版本,最常見的版本就是獨立同分布的隨機變數Xi和的分布(卷積)表現出漸進正態分布,不論原來的分布是什麼。多麼神奇!

條件進一步放寬的版本,只要相互獨立,不論是不是同分布,從不同分布取出的隨機變數Xi,Yi,Zi... 的和的分布(卷積)也表現出漸近正態,不論原來的三個分布分別是什麼。多麼神奇!

自然界的相當一部分現象都是許許多多微小擾動的疊加,比如身高。將身高記作y,則y=f(因子1,因子2,因子3。。。),泰勒展開就變成一群多項式的和。對於每一個人而言,每一項都可以看做隨機變數,服從某個未知的分布。但加起來作為身高而言,則漸進服從正態分布。所么神奇!

值得注意的是,這些版本的中心極限定理都是是可以嚴格證明的。見:中心極限定理。


毫無疑問中心極限定理使得正態分布應用如此廣泛。
正態分布的另一個特殊性在於:在假設正態條件下,許多統計關係會變得清晰和簡單。
許多變數能用正態得到很好的描述,卻不一定是精確的描述,實際上現實世界中幾乎沒有什麼事完完全全和正態分布一致。但是近似已經足夠讓我們以此為假設,推導出許許多多其他的性質。
寫了一篇文章淺談大數定律和中心極限定理。ggplot2: 驗證大數定律和中心極限定理 - DαΓαSciεηce - 知乎專欄


中心極限定理是有嚴格的推導的。我從一個實例來說明它:
下面我分享一下大一的時候的一個小想法,當時看到高爾頓版問題的結果,感覺和正態分布的圖像很像,於是就去查資料,最後找到了中心極限定理,而這個可以算是對規律的總結。估計發現中心極限定理的數學家們當時也是從此點出發的:

高爾頓版問題,就是一個隨機過程。給出以下鏈接:

  • http://www.mathsisfun.com/data/quincunx.html

如果用排列組合的概念去理解的話,那麼對於n層的高爾頓版,其落到第n層第k個洞的小球個數是:C(n,k)。如果用畫圖軟體去畫的話,那麼隨著n的增大,越來越接近正態分布的圖像!
估計當時數學家們發現這個東西後,就從數學上就逐步地、成功地得到了中心極限定理。因此對於該類隨機過程,就可以用正態分布去描述。正態分布就是對該類隨機事件的描述。


——————————
在上述的鏈接中,你可以改變flash中的"Left Probability",然後會發現,得到的與正態分布就會差得比較遠了。

ps:現在,雖然早已忘記中心極限定理,但是一提起中心極限定理,我最先想到的就是高爾頓版問題。 正是這個問題,讓我對統計學有了很大興趣,就去修統計學雙學位了。^_^ (順便提起一下,正態分布又叫高斯分布)


我覺得這個問題更準確的提法是:為什麼許多變數可以用正態分布很好的描述?
教科書上通常的說法是,若一個指標受到許多因素的影響,並且其中任何一個因素都不對其產生決定性的影響,那麼該指標的值很可能近似於正態分布。正態分布最早是為了簡便地計算二項係數產生的,後來天文物理學家發現它很適合用來描述測量誤差分布。再後來人們發現它同樣可以極好地刻畫人類社會中的其他變數,如身高、體重和智商。
但也有許多滿足上述描述的變數的分布與正態相去甚遠,如居民收入、股票收益率、書籍銷量。這些用scalable(我一直沒找到這個詞的恰當翻譯)的分布更為準確。
至於中心極限定理,我覺得和lz的問題關係不大,它只是可以用來說明為什麼正態分布這麼牛逼,應用如此廣泛,甚至到了濫用的地步。


投擲一枚均勻的正六面體(每個面分別標記1-6點)的骰子10次,記下這10次得到點數的和,就會發現,出現總和為30點的概率最大,出現10點或60點的概率最小,並且總和的概率分布圖像類似於正態分布。當投擲次數nn
ightarrow infty 時,概率分布會趨向於正態分布。
出現正態分布的關鍵點在於:1、每次投擲都是獨立,相互間沒有影響;2、用的是同一枚骰子,每一次投擲,6個面朝上的概率分布是相同的。歸納來說就叫「獨立同分布的隨機變數」。這些隨機變數「多次平均穩定後的概率」服從正態分布。
舉個例子:曾幾何時,廣東、廣西、海南的高考計算的是標準分,
相信很多考生最後看到考分都是糊裡糊塗的, 這個900分的標準分與現在普遍流行的750的總分相比,讓人很難看懂,其實這種標準分的換算方法就是用正態分布的概率模型。
假設考試時是公平的(沒有作弊、漏題、改卷老師放水等情況發生),那麼在一般情況下,大多數考生都會在平均分上下徘徊,當然不否認有學霸和學渣的存在,畢竟得高分和得低分的都佔少數。這樣的分布可以看成一個正態分布。影響考試成績的還有一個因素——試卷的難度,比如某某試卷超綱題目太多,學霸也有可能不及格,那不就和學渣沒什麼區別了?因此,考試最希望評估的是學生的學習能力,而盡量降低試卷難度因素,就有人利用正態分布的原理設計出了這個將原始分換算成標準分制度。(總之就是想把學霸和學渣區分開來!這樣,學霸們原始分數高出了平均分,換算成標準分後一路高歌,學渣們低於原始平均分,深深被人踩在腳底,多麼殘酷的現實!

這樣做分數換算的好處是:標準!不管試卷容易還是難,標準分都反映了考生在總體中的考分水平;壞處就是估分難,比如某人高考估分690(總分750),滿以為自己可以上一個好大學,結果由於題目簡單,平均分到達額700分,690也就是個渣渣的水平,換算成滿分900分的標準分後,恐怕連450都不到,只能望分興嘆吧!


我暈,這一堆回答直接秒殺了我做穩健統計學的意義。不能忍!先mark一下,有空再寫。不過先說一個問題。中心極限定理和變數服從正態分布是兩回事啊!中心極限定理說的是變數的觀測值的平均數標準化後的極限分布是正態。說的是變數觀測值的均值的性質。和變數本身是兩碼事。t3分布的均值的極限分布也是正態,但是t3和正態分布的差距可不是一星半點。


推薦閱讀文章《正態分布的前世今生》intro-normal-distribution.pdf。
在博客我愛自然語言處理,中搜索正態分布,可以找到這篇文章的出處。


我覺得不是自然界會出現正態分布,而是我們將自然界中出現的這種隨機的現象總結抽象命名為正態分布。我覺得不應該說說自然界的現象都服從這個規律,而應該是我們的規律是從自然界的現象中提煉出來的。當然了,很多我們觀察到的現象驗證了正態分布確實是有用的。但是我覺得還是Cox的那句話,沒有模型是正確的,只有有些模型是有用的。


正態分布是二項分布的疊加。可以用小球碰木樁模擬這一過程。
無數次微小的左右選擇就成了正態分布。


推薦閱讀:

從零開始學數據分析,什麼程度可以找工作?
面試官如何判斷面試者的機器學習水平?
貝葉斯學派與頻率學派有何不同?
強大數定律和弱大數定律的本質區別?
導演風格是什麼?一個導演的風格是如何形成的?

TAG:數學 | 統計學 | 正態分布 |