怎麼來理解伽瑪(gamma)分布?

參數有點多,又有積分,公式上看起來挺複雜的,地位上為什麼這麼重要,有哪些實用的方面,怎樣可以方便理解?


其實你只要記住了Gamma functionGamma(alpha) = int_0^infty t^{alpha-1}e^{-t}dt
做積分變換t = eta x,可得Gamma(alpha,eta) = eta^alphaint_0^infty x^{alpha-1}e^{-xeta}dx,從而
frac{1}{Gamma(alpha,eta) } eta^alphaint_0^infty x^{alpha-1}e^{-xeta}dx = 1
那麼Gamma distribution 就很好記了。

並且伽馬分布與一大坨分布有著曖昧的關係,比如:
Erlang distribution、Chi-squared distribution、Exponential distribution、Beta distribution、Normal distribution

最後來個分布族譜圖:


Gamma分布即為多個獨立且相同分布(iid)的指數分布變數的和的分布。
(最新修改,希望能夠行文布局更有邏輯)

——————泊松過程——————
指數分布泊松分布的關係十分密切,是統計學中應用極大的兩種分布。
其中泊松過程是一個顯著應用。

泊松過程是一個計數過程,通常用於模擬一個(非連續)事件在連續時間中發生的次數。
{N(t):tgeq 0}為一個泊松過程,則其滿足三個性質:
N(0)=0(t=0時什麼都沒發生)

N(t+s)-N(t)(增量)之間互相獨立:
擴展補充:N(t+1)-N(t)N(t)-N(t-1)互相獨立,且在計數過程中
Pr(N(t+1)=n_{t+1}|N(t)=n_{t},N(t-1)=n_{t-1},...,N(1)=n_{i})
=Pr(N(t+1)=n_{t+1}|N(t)=n_{t})
這是因為
Pr(N(t+1)=n_{t+1}|N(t)=n_{t},N(t-1)=n_{t-1},...,N(1)=n_{i})
=Pr(N(t+1)=N(t)+n_{t+1}-n_{t}|N(t)=n_{t},N(t-1)=n_{t-1},...,N(1)=n_{i})
=Pr(N(t+1)=n_{t+1}|N(t)=n_{t})

Pr(N(t+s)-N(s)=n)=Pr(N(t)=n)=e^{-lambda t} frac{(lambda t )^{n}}{n!}
N(t) sim Poi(lambda t)
根據增量獨立性,易知其成立。

——————泊松→指數——————
假設T_{i}為第i-1次事件與第i次事件的間隔時間。
Pr(T_{1}>t)=Pr(N(t)=0)=e^{-lambda t}
所以T_{1} sim Exp(lambda)

Pr(T_{i}>t|T_{i-1}=s)=Pr(N(t+s)-N(s)=0)=e^{-lambda t}
所以T_{i} sim Exp(lambda)

即泊松過程的事件間隔時間為指數分布。

——————指數→Gamma—————
再令S_{n}=sum_{i=1}^{n}{T_{i}} ,即從頭開始到第n次事件的發生的時間,該隨機變數分布即為Gamma分布。
S_{n} sim Gamma(n,lambda )
Gamma分布即為多個獨立且相同分布(iid)的指數分布變數的和的分布。

——————證明——————
假設X_{1},X_{2},X_{3},...X_{n}sim Exp(lambda )且互相獨立

①Moment Generating Function(MGF):
MGF的定義為M_{X}(t)=E[e^{tX} ]=1+tX+frac{t^{2}X^{2}}{2!} +frac{t^{3}X^{3}}{3!}+...frac{t^{n}X^{n}}{n!}+...
E[X^{n}]=M_{X}^{(n)} (0)=frac{d^{n}M_{X}(t)}{dt} |_{t=0}
其性質為M_{X+Y}(t)=M_{X}(t)	imes M_{Y}(t)

下證:
X_{i} sim Exp(lambda)Leftrightarrow M_{X_{i}}(t)=(1-frac{t}{lambda} )^{-1}
S=sum_{i=1}^{n}{X_{i}}
M_{S}(t)=prod_{i=1}^{n} M_{X_{i}}(t)=prod_{i=1}^{n} (1-frac{t}{lambda} )^{-1}=(1-frac{t}{lambda} )^{-n}
為Gamma分布的MGF。
MGF:Moment-generating function

②數學歸納法:
已知Gamma(1,lambda)=Exp(lambda)
所以當n=1時成立。
假設nleq kS_{n}=sum_{i=1}^{n}{X_{i}} sim Gamma(n,lambda )成立
n=k+1時,
S_{k+1}=S_{k}+X_{k+1}
其中S_{k} sim Gamma(k,lambda), X_{k+1} sim Exp(lambda)
Pr(S_{k+1}=x)
=int_{0}^{x} Pr(S_{k}=y)Pr(X_{k+1}=x-y)dy
=int_{0}^{x} frac{lambda^{k}}{Gamma (k)} y^{k-1}e^{-lambda y}	imes lambda e^{-lambda (x-y)}dy
=frac{lambda^{k+1}}{Gamma (k)}e^{-lambda x}int_{0}^{n}  y^{k-1}dy
=frac{lambda^{k+1}}{Gamma (k)}e^{-lambda x} frac{y^{k}}{k}|_{y=0}^{n}
=frac{lambda^{k+1}}{Gamma (k+1)}x^{k}e^{-lambda x}
Gamma(k+1, lambda)的pdf。證畢。

當然,Gamma分布與Beta,Chi-square分布也有著十分緊密的聯繫,不過在統計學應用中都不如與指數分布的聯繫來得重要。


推薦一本書
Random Phenomena: Fundamentals of Probability and Statistics for Engineers
在我讀本科的時候,這本書的作者正好來我們學校交流,我上了他開的暑期課,感覺收穫挺多的。

這本書里關於各種分布背後的來源/應用,我覺得是講得不錯的。拿題主問的Gamma分布來說, @T Yuan的回答給出了和泊松過程、指數分布的關係,以及詳細的數學推導,這裡不再重複。書上(9.1.2節)給了幾個例子幫助直覺上的理解,其中一個是:
冗餘系統(standby redundant system)
假設有一個系統有n個部件,但實際需要的只有一個(其餘的是備用)。當一個部件失效時,另一個自動接管。因此,只有當所有n個部件都失效時,系統才會崩潰。在一定假設下,Gamma分布可以用來描述這樣一個系統的壽命。

我記得當時課上老師還調侃說,發paper要經歷和審稿人來回交流的過程,也許發paper的總審稿時間也可以用Gamma分布來描述。


需要理解?alpha (一般為整數)代表一件事發生的次數;beta代表它發生一次的概率(或者叫速率)。那麼gamma 分布就代表這麼一件事發生alpha 次所需要時間的分布。
例如alpha=1 就是指數分布


從熵最大化的角度來看,如果一個事物既滿足算術平均值是固定值mu,又滿足幾何平均值是固定值
u 的,這種分布最可能的分布為Gamma 分布。
也就是說,Gamma 分布可以用來模擬我們經常用來作為思想實驗的事物,總數是不變的同時,其增長率也是固定的。這種事物是不存在的,但是我們可以給出他存在的概率。這種思考問題的方式確實真實存在,例如我們經常講人民幣每年升值20%,均衡匯率為6.5。例如風速,我們也可以認為其總量是不變的,同時增速也是固定的。但是我們必須要注意,因為Gamma 分布更多的用來描述匯率、速率這樣的變數,所以他是沒有量綱的量,也就是說與正態分布最大的不同,2X就是2倍風速的意思,不能是改變單位的意思。


伽瑪分布一般和指數分布一起理解:

1、從意義來看:指數分布解決的問題是「要等到一個隨機事件發生,需要經歷多久時間」,伽瑪分布解決的問題是「要等到n個隨機事件都發生,需要經歷多久時間」。

所以,伽瑪分布可以看作是n個指數分布的獨立隨機變數的加總,即,n個Exponential(λ)random variables---&>Gamma(n,λ)

2、從公式來看:

X~Gamma(α,λ),概率公式如下

alpha代表上述的n, 當alpha=1時,就變成了指數分布:

3、從統計指標來看:

這就是 n(alpha)倍的指數分布的期望啊!

這樣就好記多了吧?

------------------------------------------------------

補充一下:

如果想更好地理解,還可以加入泊松分布,泊松分布解決的是「在特定時間裡發生n個事件的機率」。所以可以腦洞大開地想:伽瑪分布=指數分布*泊松分布。看看pdf的表達式,自己換一個寫法就會發現伽瑪把exponential和poisson的公式揉到一起了。


推薦閱讀:

牛頓為什麼用拉丁文寫《自然哲學的數學原理》?
牛頓過後數學方面還有什麼突破性的進展嗎?
為什麼一次函數、二次函數、三次函數的圖像都是對稱的,而四次函數則不一定?
超幾何分布和二項分布的數學期望為何相同?

TAG:數學 | 趣味數學 | 隨機數學 | 概率論 | 概率論與數理統計 |