如何理解隨機變數的種類與描述?

研究隨機現象中存在的統計規律性,可以將隨機現象的結果與實際數值對應起來,即將結果數量化。因為隨機現象如果可以用數值來描述,那麼就可以將數學分析的方法引入到隨機現象的研究中。

有些實驗結果是用數值表現的,我們可以直接用這些數值代表隨機變數的數值,如擲骰子的點數。但有一些試驗的結果並不是數值,而是各種態度,觀點和屬性,如記錄顧客的性別,對於這樣的試驗結果,我們通常使用不同的數值來代表不同的結果,如令「男性=1」,「女性=0」,這樣就可以用隨機變數來描述試驗的結果了。

根據隨機變數所代表數值的不同,隨機變數分為兩類:離散型隨機變數和連續型隨機變數。

離散型隨機變數是指它全部的取值是有限個或可列無限多個。例如,每月銷售的電腦數量就是一個離散型隨機變數,它的取值是0,1,2,…。這是有限個變數值。上例中擲骰子的點數,也是一個離散型隨機變數。離散型隨機變數還有一些其它例子:

1) 一天內光顧某家商店的顧客人數;

2) 固定資產由200萬元達到10億元的年數;

3) 某年觀看春節晚會的觀眾數;

4) 一個班級上課遲到的學生數;

連續型隨機變數是指在某一段區間上可以取無限多個數值的隨機變數。也就是說連續性隨機變數是個無間隔變數,他在一定區間內可以取任何值。例如,每天接到的前兩個電話的時間間隔是個隨機變數,這個隨機變數的取值可以是任意X≥0。它可以是1min,2.34min,3.6547min等,因為在理論上任意兩個時刻之間都可以有無數個時間段,所以時間間隔是一個連續型隨機變數。連續型隨機變數的其它例子還有:

1) 一口油井每小時抽出是由的質量;

2) 等待電梯所用時間;

3) 企業一年的利潤;

4) 燈泡的壽命;

對於兩種不同的隨機變數,他們的概率計算也是不同的。離散型隨機變數的取值可以一一舉例,因而可以分別計算他們的概率值,而連續型隨機變數的取值是連續的,計算概率的方法相對複雜

通俗歸納離散型概率分布

兩個概念

隨機變數分類:離散型隨機變數和連續性隨機變數。可以用「點」和「線」來類比理解。「點」(離散型)就是隨機變數的取值是有限個或可列無限個。「線」(連續型)就是隨機變數的取值在某一段區間上可以取無線多個。

概率分布:是指隨機變數的取值與其概率所構成的分布。在二維坐標中,通常橫軸是隨機變數的取值,縱軸是不同取值對應的概率。根據隨機變數的分類,概率分布也分為離散型概率分布和連續型概率分布。

主要離散型概率分布

二項分布

多項分布

超幾何分布

泊松分布

二項分布

在生活中,許多行為(試驗)的結果只有兩個:「成功」和「失敗」。例如:檢查產品的質量,其結果只有兩個:合格與不合格;如果試驗的結果多於兩個,但只關心其中一個結果,也可以視為只有兩個結果,例如,調查教育程度時,結果有文盲、小學、初中、高中、大學,但我們只對大學感興趣,則這個試驗的結果可以看作兩個:大學和不是大學。這些行為(試驗)稱為伯努利試驗;檢查n個產品的質量或調查了n個路人的教育程度,稱為n重伯努利試驗,將「成功」或「失敗」的次數看做一個隨機變數,其概率分布稱為二項分布。總結這些行為(試驗),可以歸納出以下性質:

1、一次試驗有且僅有兩種可能結果:「成功」和「失敗」,兩個結果是隨機決定且互斥的。

2、每次試驗中,成功的概率是P,失敗的概率是1-P,並且成功和失敗的概率是常數或近似於不變。

3、各次試驗之間相互獨立,每次試驗結果不受其它各次試驗結果的影響。

在許多試驗中,結果往往只有兩個。例如:檢查產品的質量,其結果只有兩個:合格與不合格;對某種洗髮液消費者的調查結果是:喜歡和不喜歡;撥打一次電話的結果:接通與沒接通。如果試驗的結果多於兩個,但我們只關心其中一個結果,也可以視為只有兩個結果,例如,調查教育程度時,結果有文盲、小學、初中、高中、大學,但我們只對大學感興趣,則這個試驗的結果也只看作兩個:大學和不是大學。

通常把上述試驗的兩個結果(或可以看作兩個結果)分別用「成功」和「失敗」來代替。一般用「成功」表示我們感興趣的結果,「失敗」表示我們不感興趣的結果。成功的概率用p表示,失敗的概率用q=1-p表示。這一類的試驗我們稱為伯努利試驗。

如果進行n次伯努利試驗,則「成功」的次數是一個隨機變數,其概率分布被稱為二項分布。二項分布的函數表達式為:

n為試驗次數;

x為n次試驗中「成功」的次數;

P為每次試驗中「成功」的概率;

q=1-p為每次試驗中「失敗」概率;

如果隨機變數X服從二項分布,記為X~B(n,p)。稱為n和p是二項分布的參數,即通過n和p可以確定一個二項分布。

範例分析

已知某設備廠生產的產品中約有10%的次品,且次品的出現是隨機的。求:

1、隨機抽取5件產品,其中有2件是次品的概率;

2、隨機抽取5件產品,最多有1件次品的概率;

解:按照前面的解釋,我們可以將次品定義為「成功」且p=0.1。設X表示實驗中出現次品的數量,則X~B(5, 0.1)。

二項分布值

為了方便二項分布計算,統計學家編製了二項分布表,表中將不同的n和p值列出。當給定X值時,可以直接從表中查出概率值,基本上每本統計類書籍的附頁中都包含二項分布表,部分二項分布表如下:

多項分布

多項分布是二項分布的推廣。二項分布試驗的結果只有兩個,多項分布的試驗結果有多個,例如,調查教育程度時,結果有文盲、小學、初中、高中、大學等5種結果。比照二項分布試驗的性質,可以有多項分布試驗的性質如下:

1、一次試驗有k種可能的結果,k個結果是隨機決定且互斥的。

2、在每次試驗中,每種結果都有各自發生的概率且概率保持不變,所有概率之和為100%。

3、各次試驗之間相互獨立,每次試驗結果不受其它各次試驗結果的影響。

超幾何分布

在二項分布試驗和多項分布試驗中,每次試驗結果的發生概率是不變的,而超幾何分布試驗結果的概率會隨著每一次試驗發生變化。例如,在抽樣試驗中,二項分布試驗和多項分布試驗是有放回抽樣(總量不變)或無限總體無放回抽樣(總量近似不變,一般抽樣比例低於5%);超幾何分布就是有限總體無放回抽樣(總量變化)。

超幾何分布是統計學上一種重要的離散概率分布。它描述了由有限個物件中抽出n個物件,成功抽出指定種類的物件的個數(不歸還)。例如:在有N個樣本,其中m個是不合格的。超幾何分布描述了在該N個樣本中抽出n個,其中k個是不合格的的概率:

上式可如此理解:CNn表示在所有N個樣本中抽出n個的方法數目。Cmk表示在m個不合格樣本中,抽出k個的方法數目。C(N-m)(n-k)表示剩下來的樣本N-m都是及格的,從中抽取出n-k個的方法數目。

若n=1,即從N個樣品中抽取一件,恰好抽到不合格樣品的概率,此時,超幾何分布可以還原為伯努利實驗。若N無窮大,歸還和不歸還對於樣品整體的不合格樣品率沒有影響,此時,超幾何分布可視為二項分布,在實際應用時,只要N>=10n(取樣數小於樣本總體數的十分之一),就可用二項分布近似描述超幾何分布。

範例分析

已知在20件產品中有2件次品,18件正品。如果隨機抽出3件,問抽到0件,1件和2件次品的概率各為多少?

解 設X代表抽到次品的件數。因為在有限總體進行非重複抽樣時,每次抽取的概率都會發生變化,所以用超幾何分布。概率計算過程如下:

超幾何概率分布的特徵與實踐中很多抽樣方式是一致的,在一個有限總體內進行非重複抽樣每次成功的概率都會變化。因此,該種概率分布具有廣泛的應用。但是,如果抽樣總體很大(N>=10n),可以用二項概率分布代替超幾何分布近似計算。

泊松分布

泊松概率分布:考慮在連續時間和空間單位上發生的隨機事件的概率。通俗解釋:基於過去的經驗(隨機事件在某段時間或某個空間發生的平均數),預測該隨機事件在新的同樣長的時間或同樣大的空間中發生N次的概率。泊松分布經常用於商業中的庫存控制。諸如,一家海鮮餐廳過去一個月顧客平均訂購7隻龍蝦,如果該餐廳希望今後能有95%的把握滿足顧客需求,需要儲存龍蝦的數量。

推導過程

二項分布概率公式:

做以下假定條件:

1、一個事件在一段時間或空間內發生的平均次數或數學期望為λ。

2、將這段時間或空間分成n等份,在每一等份的時間或空間內,這個事件發生的概率為λ/n,當n很大時,λ/n很小,即在這段內,要發生兩次或者更多次事件是不可能的。因此在這段時間內不發生該事件的概率表示為1-λ/n。

3、在n個等份中,每個等份是否發生該事件是獨立的;

根據以上假定條件,在這段時間內,該事件發生k次的概率服從二項分布,可以得到概率表示如下:

從上式可知,泊松分布是關於數學期望或平均次數(lambda)的函數,隨著lambada的不同,概率密度圖也不同。

泊松分布概率密度圖如下:

泊松分布概率累計圖

泊松分布的應用

從上面的推導過程來看,泊松分布有以下幾個應用特點:

1、泊松分布適用於描述單位時間內隨機事件發生的次數的概率分布。如某服務設施在一定時間內受到的服務請求的次數,汽車站台的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數等等。

2、二項分布可以看作泊松分布在離散時間上的對應物。

3、在二項分布中,如果試驗次數n很大,二項分布的概率p很小,只要n≥20,p≤0.05時,就可以用泊松分布代替二項分布。例如,某廠有30台車床,每台車床在一周內發生故障的概率是0.02,計算在一周內恰有兩台車床發生故障的概率?用二項分布計算的結果與泊松分布計算的結果幾乎沒有誤差。

範例分析

已知某家小雜貨店,平均每周售出2個水果罐頭。請問該店水果罐頭的最佳庫存量是多少?

解:假定不存在季節因素,可以近似認為,這個問題滿足以下三個條件:

1、顧客購買水果罐頭是小概率事件。

2、購買水果罐頭的顧客是獨立的,不會互相影響。

3、顧客購買水果罐頭的概率是穩定的。

各個參數的含義:

P:每周銷售k個罐頭的概率;

X:水果罐頭的銷售變數;

k:每周銷售罐頭數的取值(0,1,2,3...);

λ:每周水果罐頭的平均銷售量(數學期望),是一個常數,本題為2;

根據公式,計算得到每周銷售不同數量罐頭數的概率及累計概率:

從上表可見,如果存貨4個罐頭,95%的概率不會缺貨(5%=1/20,即平均19周發生一次);如果存貨5個罐頭98%的概率不會缺貨(2%=1/50,即平均49周發生一次)。

泊松分布是一種在現實生活中運用比較廣的離散型概率分布模型,它可以恰當的計算某些事件發生的概率,例如:工廠生產的電纜上出現的缺陷個數;1立方厘米血液中白細胞的個數;一輛嶄新的汽車表面塗層的缺陷個數;零售店內某種產品銷售的數量等等。

假設條件及分析

假設條件

使用泊松方法計算隨機變數的概率,要求產生隨機結果的過程滿足以下三個假設條件:

(1) 在給定的區間內,已知由經驗確定一個常數lambda,常數lambda對類似的確定單位相等。

(2) 任意區間發生事件的次數是相互獨立的。

(3) 任意相等的兩個區間發生一次事件的概率相等,並且這個概率值很小。

案例

在每個周末,市區一家診所的接待員記錄下本周內因同樣的傳染病來就診的新病例的個數,在過去三周,這些記錄是增加的,分別為2,10和30例,試問該過程是不是泊松過程?

分析過程

這個試驗不是一個泊松過程,因為本例違背了上面三個假設條件,不能使用泊松分布模型進行概率的計算,具體分析過程如下:

(A) 條件1要求在給定單位(一周)內,存在一個由經驗確定的成功(新病例)出現的常數lambda,而且在所有類似的確定單位內相同。顯然這裡並不似這種情形,因為產生過程明顯不穩定並且變化很快,在這種情形下,對這三周(每周lambda=42/3=14個病例)計算得到的lambda不能認定在隨後幾周任然有效。

(B) 條件2要求在一周的任何子單位(如周五)內就診的新病例個數與任何其它非重疊子單位(如周一)的新病例個數之間相互獨立。但是,在某個擁擠的城市內疾病大範圍傳染的條件下,這個假設很可能被違背。因為,如果病人在周一收到某種已知疾病傳染,他回到居住區可能會傳染給鄰居,結果造成診所在下周出現新病例。

(C) 條件3要求在單位(一周)的任何相同且極小的子單位內恰好出現一次成功的概率非常小且為常數,但是,在這樣的傳染條件下,期望概率保持不變是不合理的,並且這個概率值會變得很大。

泊松分布作為二項分布近似

泊松分布可用於近似二項分布,條件是:在二項試驗中隨機出現的成功是稀有事件,其中n「大」,p「小」。二項分布有兩個參數n和p,並且均值為np。如果np在n增加而p減少的過程中保持不變,則當n趨近於無窮而p趨近0時,二項分布趨近均值為np的泊松分布。

那n的「大」和p的「小」有沒有一個標準呢?一個通常的準則是:如果n≥20,且p≤0.05,泊松近似是好的;如果n≥100且p≤0.01,則泊松分布的近似效果就極好的;

範例分析:

一家大型工廠聘用了100名新員工並進行一項培訓。根據以前的上千名培訓者情況,項目經理估計有4%的培訓者不能完成培訓。分別用二項和泊松分布計算恰有6人不能完成培訓的概率。

解:如果認為在各次獨立試驗中p保持不變,則這是一個二項試驗,其中:p代表不能完成的培訓者概率。n=100,p=0.04,q=1-0.04=0.96。於是,由二項概率函數計算:

由於n≥100且p≤0.05,可以使用二項分布的泊松近似。於是,計算結果如下:

從上面的結果來看,泊松分布的計算結果與二項分布的計算結果非常接近,說明在題中n和p的條件下,用泊松分布近似二項分布的效果極好。二項概率分布函數的計算量較泊松分布更大,所以很多時候會用泊松分布來近似二項分布的結果。

通俗歸納連續型概率分布

兩個注意點

1、離散型概率分布的概率函數稱為概率質量函數,概率是散布在隨機變數的各個離散值上的,所以二維坐標的縱軸為概率;連續型概率分布的概率函數被稱為概率密度函數,二維坐標縱軸為密度(區別於離散型概率分布的概率),隨機變數範圍內任意點的概率為0(因為概率密度函數曲線下積分面積為0),隨機變數取值區間的概率為曲線下積分面積。如下圖所示:

2、對於任何連續型概率分布,曲線下方總面積為1.0(概率總和100%)。

主要離散型概率分布

正態分布

連續型均勻概率分布

指數分布

正態分布

正態概率分布是統計學中最重要的連續型分布,正態分布的曲線酷似鍾型,並且關於均值上的垂線對稱。於是,曲線下方的面積有50%處於這條曲線的左邊,50%處於右邊,曲線向著正無窮和負無窮連續延生,即在兩個方向上越來越接近橫軸但永不相交。現實生活中許多隨機變數是正態分布:某一男性群體的身高,一批甜瓜的重量,一群婦女的血壓等等。

對於正態分布有一個經驗法則:對於任意近似正態分布的總體,大約68.3%的數據位於區間μ±σ內,大於95.4%的數據位於區間μ±2σ內,大約99.7%的數據位於區間μ±3σ內。這種推廣對於近似正態分布的樣本亦成立(μ為均值,σ為標準差)。這個法則是工業生產中運用廣泛的質量控制方法—六西格瑪法則的基礎,如下圖所示:

正態概率分布是連續型隨機變數概率分布中最重要的形式,它在實踐中有著廣泛的應用。在自然界和人類社會,有許多現象的分布都服從正態分布,如人的身高、體重、智商分數、某種產品的尺寸和質量、降雨量、學習成績等。特別在統計推斷時,當樣本的數量足夠大時,許多統計數據都服從正態分布。因此,正態分布在抽樣理論中佔有重要地位。另外,正態分布還是其他連續型概率分布的極限分布,可用正態分布近似計算或導出其他連續型概率分布。

正態分布

如果隨機變數X具有概率密度函數:

則稱X是服從參數為μ,σ2的正態分布。式中μ為均值,σ為標準差,π=3.14159,e=2.71828。

如果隨機變數X服從正態分布,記為X~N(μ,σ2)。μ,σ是決定正態分布的兩個參數。μ決定水平位置,σ決定離散程度,如下圖所示:

正態分布的概率密度函數具有下列性質:

1、以μ為對稱軸的對稱分布;

2、兩尾以X軸為漸近線;

3、若隨機變數Y,Z,…,K皆服從正態分布,且相互獨立,則對任意幾個常數a,b,…,c(不全為0),Z=aY+bZ+…+cK也服從正態分布;

標準正態分布

用正態分布曲線積分求得概率是非常困難的,這樣的積分只能用數值方法求出。同時,提供包括所有不同的μ和σ的正態分布表也是不可能的。所以統計學家通過一種簡單的方法來解決這一問題:對於一個隨機變數X~N(μ,σ2),如果令Z=(x-μ)/σ,則隨機變數Z服從μ=0,σ2=1的正態分布,記為Z~N(0,1),稱為標準正態分布。

標準正態分布的概率密度函數為:

通過上式可以看出標準正態分布不再依賴於參數μ和σ,它是固定的,是唯一的。因此,標準正態分布中隨機變數與其概率的對應關係被計算出來,並列為標準正態概率分布表,以便查詢。於是,對於不同的μ和σ,只要將變數值轉化為Z值,然後查表即可得到其概率值。

範例分析

例子:已知研究生完成一篇碩士論文的時間服從正態分布,平均花費2500h,標準差為400h,現隨機找到一個已完成論文的學生,求:

1、他完成論文的時間超過2700h的概率;

2、他完成論文的時間低於2000h的概率;

3、他完成論文的時間在2400h~2600h之間的概率。

解:用X表示完成論文的時間,則X~N(2500,4002)。這是非標準的正態分布,如果直接計算概率是非常麻煩的,我們首先將其轉化為標準正態分布,然後通過標準正態分布表查出變數的概率值。

1、求P(X>2700)

Z=(x-μ)/σ=(2700-2500)/400=0.5

可以查詢標準正態分布概率表,表中第一列是z值,第一行是z值的補充值,其餘數值為X值到0之間的積分面積,也即是概率值。現z=0.5求的是從0.5到+∞的區間上的概率。首先找到z=0.5行,該值沒有補充值,查到0.00列與0.5行交叉的數值為0.1915,該值是0.5到0之間的概率值,需用0.5(概率對稱性,一半的概率)減去0.1915(正態分布的對稱性質,左右概率各佔0.5),所得0.3085即為所求。

2、求P(X<2000)

Z=(x-μ)/σ=(2000-2500)/400=-1.25

在附表中,z沒有負值,但根據正態分布的對稱性,1.25的概率值與-1.25的概率值完全對稱,所以只查1.25的概率值即可。查表的z=1.2行,0.05列,兩者交叉數值為0.3944,這個數值是0到1.25之間的概率,也相當是-1.25到0之間的概率。題中所求是小於2000h的概率,所以是-1.25的左側概率。仍然要用0.5(概率對稱性,一半的概率)減去0.3944,得0.1056。

3、求P(2400<X<2600)

Z1=(x-μ)/σ=(2600-2500)/400=0.25

Z2=(x-μ)/σ=(2400-2500)/400=-0.25

查表可得,z=0.2行與0.05列,交叉值為0.0987,即所求概率為0.0987×2=0.1974。

正態分布特性

根據標準正態分布表我們可以得到,有95.44%的z值在z=+/-2之間變動,有99.74%的z值在z=+/-3之間變動。由此可以得到一個非常重要的結論;對於任意的正態分布,其隨機變數值幾乎全部(99.74%)會落在μ-3σ和μ+3σ,這就是在質量控制中經常用到的3σ原則或6σ原則。

正態性檢驗方法介紹

下面介紹數據正態性的幾種判斷方法,這些方法其實也適用於其它分布。在Excel中沒有數據分布形態判斷的功能,但是SPSS中有豐富判斷工具。理解判斷方法的理論依據是做出正確方法選擇的基礎,掌握理論再藉助SPSS等軟體的快速計算展現就能事半功倍。軟體教程視頻正在錄製,敬請期待。

主觀判斷法

表示頻率分布的圖形有很多:直方圖、曲線圖、箱線圖和莖葉圖等。將待檢數據作成這些圖形,並與這些圖形的正態分布形式對比,可以主觀的判斷待測數據的分布情況是否為正態分布。這種判斷方法的精度不高,但是簡單直觀快速,對於偏離正態分布很多的數據集,用這種方式就足夠了。這裡不作過多的操作介紹,分享幾幅非正態分布的直方圖給大家,大家一眼就能判斷它們不是正態分布的吧:

P-P圖和Q-Q圖

P-P圖是根據變數的累積比例與指定分布的累積比例之間的關係所繪製的圖形(P是累積比例單詞的首字母)。當數據符合指定分布時,P-P圖中各點近似一條直線。以樣本的累積頻率作為橫坐標,以按照正態分布計算的相應累積頻率作為縱坐標。舉例如下圖:

從上圖可以判斷數據序列是正態分布的。

Q-Q圖與P-P圖類似,只不過Q-Q圖是以分位數作為橫縱坐標。它用標準正態分布的分位數作為橫坐標,樣本值作為縱坐標。利用Q-Q圖鑑別樣本數據是否近似於正態分布,只需看圖上的點是否在一條直線附近,如下圖:

P-P圖和Q-Q圖的判斷精度比主觀判斷法的精度更高,但仍然沒有量化判斷標準,所以還是將它們歸類為主觀判斷的範疇。

卡方擬合優度檢驗

這部分的內容,在之間介紹過,具體過程請回顧:

正態分布的卡方檢驗

它的原理就是將實際頻率與期望頻率差值的平方和期望頻率的平方作為卡方統計量的分子和分母,算出得卡方值與卡方臨界值對比,判斷數據序列是否為卡方分布。

K-S正態性檢驗

Kolmogorov-Smirnov正態性檢驗法是檢驗單一樣本是否來自某一特定分布。比如檢驗一組數據是否為正態分布。它的檢驗方法是以樣本數據的累積頻數分布與特定理論分布的累積頻率比較,若兩者間的差距很小,則推論該樣本取自某特定分布族。它的推斷過程如下:

卡方擬合優度檢驗與K-S正態檢驗都採用實際頻數與期望頻數進行檢驗。它們之間最大的不同在於前者主要用於類別數據,而後者主要用於有計量單位的連續和定量數據,擬合優度檢驗雖然也可以用於定量數據,但必須先將數據分組得到實際觀測頻數,並要求多變數之間獨立,而K-S正態檢驗法可以不分組直接把原始數據的n個觀測值進行檢驗,所以它對數據的利用較完整。

其它方法

上面介紹的這些方法是常用的正態分布檢驗方法,除此之外,還有利用正態分布百分位及峰度偏度特性進行檢驗的方法。

W檢驗和D檢驗

這兩種方法的比較基礎是待檢數據與正態分布的數據百分位排列情況的對比,區別是W檢驗的統計量適用於小樣本容量(3到50),D檢驗適用於大樣本容量(50到2000)。這裡不做深入介紹,後面如果有機會。

峰度與偏度檢驗

正態分布概率密度曲線的峰度與偏度也有其特點,峰度與偏度檢驗就是基於正態分布在這兩項特性進行數據的比較檢驗,得出數據分布的結論。這裡也不作深入的介紹。

結論

數據序列正態分布的檢驗方法很多,但是它們的基礎都是利用正態分布的特性(頻率分布,曲線形狀,百分位排位、峰度偏度等)作為標準,將其與待測數據的這些性質結果進行對比,得出在設定置信水平(常用90%,95%或99%)下的判斷結論。

連續型均勻概率分布

均勻概率分布特徵:隨機變數X的所有取值有相等的概率。這裡用離散型均勻分布的例子引入:投擲骰子就是一個典型的離散型均勻分布,投擲的結果(從1到6)的概率相等,都是1/6;如果將例中離散型隨機變數的取值(骰子1到6)換成連續型隨機變數的取值區域(0≤x≤6),隨機變數在該區域內可以任意取值,且概率為常數(1/6),就是連續型概率分布。

隨機變數根據性質的不同,可以分為離散型隨機變數和連續性隨機變數。同樣的,隨機變數的概率分布也可以分為離散型隨機變數和連續性隨機變數。

連續型隨機變數的概率分布有很多,包括均勻分布、正態分布、指數分布、t分布、卡方分布和F分布等,今後會逐個介紹。

概率密度函數

在了解連續型隨機變數的概率分布之前,需要先了解概率密度函數。與離散型隨機變數不同,連續型隨機變數的數值在某一區間內有無限多個,無法逐個列舉,其概率分布只能通過一個函數來描述,這個函數稱為概率密度函數。

計算連續型隨機變數的概率,首先需要找到該變數的概率密度函數,然後,通過積分求出概率密度曲線與隨機變數軸所夾面積,即為概率值,如下圖所示:

圖中陰影部份面積即是連續型隨機變數X從a到b之間的所有取值的概率值之和。需要指出的是,對於連續型隨機變數X來說,它取任一具體數值的概率均為0,即P(X=x)=0。這就是說,對於連續型隨機變數,概率為0的事件並不一定是不可能事件,只是概率值不能求出;但對於不可能事件,連續型隨機變數的概率值一定為0。

均勻概率分布

如果隨機變數X具有概率密度函數

則稱X在區間(a,b)上服從均勻概率分布。

均勻概率分布是一個矩形,如下圖所示:

均勻概率分布的均值和方差分別為:

μ=(a+b)/2, σ=(b-a)2/12;

如果隨機變數X服從均勻概率分布,則X落在區間(a,b)中某一區間的概率只與這一區間的長度有關,而與在(a,b)區間的哪一個位置無關。

範例分析

組裝一組傢具的時間為25~35min,組裝時間服從均勻概率分布。求:

1、一次組裝時間在28~30min的概率;

2、多於32min的概率;

解:設X表示組裝時間,服從均勻概率分布。

1、P(28<X≤30)=(30-28)/(35-25)=0.2

2、因為超過35min的概率值為0,所以多於32min的概率就是p(32<X≤35)的概率。P(X>32)=(35-32)/(35-25)=0.3,即組裝時間多於32分鐘的概率為0.3。

指數分布

是否還記得離散型分布類型中的泊松分布?泊松分布是在過去經驗值(在一段時間或空間內,隨機事件的平均成功次數)的基礎上,預測將來在同樣長的時間或空間內隨機事件成功次數的概率分布。

指數分布:如果一個隨機事件的發生是泊松過程,則事件相繼發生的間隔時間或空間是指數分布的。指數分布曲線:

指數分布是連續型隨機變數的另一種概率分布,它主要應用於隨機事件之間發生的時間間隔的概率問題。例如,描述電子產品由使用到發生故障的時間的概率;描述兩次電話之間時間間隔的概率;描述兩位顧客到達商店間隔時間的概率等。前面講述的泊松分布是描述某一區間內發生隨機事件次數的概率分布,而指數分布是描述兩次隨機事件發生時間間隔的概率分布。因此,兩種分布有著密切的關係,在管理科學中經常將兩者結合起來共同解決排隊理論等有關問題。

指數分布的概率密度為:

x是給定的時間;

λ為單位時間事件發生的次數,e=2.71828;

指數分布概率密度曲線如下圖:

指數分布具有以下特徵:

1、隨機變數X的取值範圍是從0到無窮;

2、極大值在x=0處,即f(x)=λ;

3、函數為右偏,且隨著x的增大,曲線穩步遞減;

4、隨機變數的期望值和方差為μ=1/λ,σ2=1/λ2;

通過對概率密度函數的積分,就可以得到相應的概率,其表達式有兩種:

P(X≥x)=e-λx

P(X≤x)=1-e-λx

範例分析

某電視機生產廠生產的電視機平均10年出現大的故障,且故障發生的次數服從泊松分布。問:1、該電視機使用15年後還沒有出現大故障的比例;2、如果廠家想提供大故障免費維修的質量擔保,但不能超過全部產量的20%,試確定提供擔保的年數。

解:

1、設X為電視機出現大故障的時間。已知該廠的電視機平均10年發生一次大的故障,所以,μ=10年,則單位時間(1年)內,發生故障的次數為λ=1/μ=0.1,代入概率計算公式得:

P(X≥x)=e^(-λx)=e^(-0.1*15)≈0.223。

即15年後,沒有出現大故障的電視機約佔22.3%。

2、要求比例不超過全部產量的20%,這是求X左側的概率面積,可以作出下表進行推算

從表中可以看到:擔保2年時,出現大故障的比例是18.1%,不超過20%。擔保3年時,出現大故障的比例為25.9%,已經超過20%。所以,廠家應以2年為擔保期。

正態分布作為二項分布近似

計算二項分布的某個概率,需要對二項式展開(p+q)n的相關項相加,這是一個放縮的過程,而且對較大的n值或許得有一台計算機。在一定條件下(當n≥20且q≤0.05時),可以使用泊松分布對二項概率進行近似。類似地,在一定條件下正態分布也是二項分布的一個良好近似,如下圖所示,從而可用於計算二項分布的概率。由於這樣得到的概率只是對二項概率真實值得近似,故正態分布的這種應用稱為二項分布的正態近似。

只有所考慮的二項分布與正態分布相似,即對稱且具有鍾型,使用正態近似方法才是合適的,在以下兩個條件下,上述結果成立:

(1) p值(成功的概率)越接近0.5,二項分布越對稱(圖一)。

(2) 對任何p值,無論距離0.5多遠,如果p值不變而n(試驗次數,或樣本容量)增大,得到的均值為np和方差為npq的二項分布在形狀上越來越近似一個的正態分布(圖二)。

那麼,對於足夠接近0.5或n充分大是否也有規則呢?很多統計學著作找到一個規則是:當np和nq兩者都大於等於5時,可以使用二項分布的正態近似。更嚴格一點就是np>5且nq>5。

連續型修正:為了用連續型分布近似離散型分布,必須將離散值看做一個區間,離散值就是使用每個測量區間的中點,而每個測量區間上下各延伸了0.5,比如測量二項分布變數8≤x≤10區間的概率,用正態近似就需要測量7.5≤x≤10.5區間的概率。

範例分析:

投擲一枚硬幣14次出現正面的次數,計算在14次投擲中出現8、9或10次正面的概率,使用二項分布方法和正態近似分別計算。

(a) 用二項分布計算過程如下:

(b) 由於np=nq=7>5,所有用正態近似是合適的。對均值為np=14*0.5=7,方差為npq=14*0.5*0.5=3.5的正態分布計算p(7.5≤x≤10.5)。將正態概率值變換成標準正態概率值。

從計算結果比較,二項計算值0.3666與正態近似值0.3629的計算結果基本相同,二項分布的正態近似結果很好。

正態分布作為泊松分布近似

正態分布能用於近似泊松分布。泊松分布的參數是μ=λ,可以證明λ增加,泊松分布接近μ=σ2=λ的正態分布。因此,只要λ足夠大,就可以將泊松分布看作是μ=σ2=λ的正態分布,然後可以用標準正態分布方法計算面積(概率)值。因為這樣得到的概率值只是泊松概率真實值的近似,所以正態分布的這種應用稱為泊松分布的正態近似。如下圖所示,λ增大,概率曲線越接近正態分布:

對於λ足夠大不存在絕對的規則,但是同二項分布一樣,有許多常用規則說明何時使用正態近似是合適的。其中,在許多統計學著作可以看到一個規則是:當λ大於等於5(λ≥5)時,可以使用泊松分布的正態近似。這個規則更嚴格的形式要求,λ必須大於等於10(λ≥10)。

範例分析:

某家電纜製造商從以往的生產過程的數據中發現,以6米為一單位的電纜,平均每6米有6個缺陷。現隨機檢查6米的電纜,計算有6、7或8個缺陷的概率。

1. 泊松分布方法:

根據題意,可以將上述過程看做一個泊松過程,單位長度6米內平均出現6個缺陷,所以λ=6,求P(6≤x≤8)。

2. 正態分布近似方法:

因為λ=6≥5,所以可以用正態分布作泊松分布的近似。連續型分布近似離散型分布,必須進行連續性修正(同),求泊松分布的P(6≤x≤8),用正態分布則需修正為P(5.5≤x≤8.5)。根據題意,已知μ=σ2=λ=6。計算過程如下:

從計算結果來看,用正態分布近似泊松分布的結果還是很好的。


推薦閱讀:

TAG:統計學 | 概率論 | 隨機 |