如何通俗理解beta分布?
beta分布介紹
相信大家學過統計學的都對 正態分布 二項分布 均勻分布 等等很熟悉了,但是卻鮮少有人去介紹beta分布的。
用一句話來說,beta分布可以看作一個概率的概率分布,當你不知道一個東西的具體概率是多少時,它可以給出了所有概率出現的可能性大小。
舉一個簡單的例子,熟悉棒球運動的都知道有一個指標就是棒球擊球率(batting average),就是用一個運動員擊中的球數除以擊球的總數,我們一般認為0.266是正常水平的擊球率,而如果擊球率高達0.3就被認為是非常優秀的。
現在有一個棒球運動員,我們希望能夠預測他在這一賽季中的棒球擊球率是多少。你可能就會直接計算棒球擊球率,用擊中的數除以擊球數,但是如果這個棒球運動員只打了一次,而且還命中了,那麼他就擊球率就是100%了,這顯然是不合理的,因為根據棒球的歷史信息,我們知道這個擊球率應該是0.215到0.36之間才對啊。
對於這個問題,我們可以用一個二項分布表示(一系列成功或失敗),一個最好的方法來表示這些經驗(在統計中稱為先驗信息)就是用beta分布,這表示在我們沒有看到這個運動員打球之前,我們就有了一個大概的範圍。beta分布的定義域是(0,1)這就跟概率的範圍是一樣的。
接下來我們將這些先驗信息轉換為beta分布的參數,我們知道一個擊球率應該是平均0.27左右,而他的範圍是0.21到0.35,那麼根據這個信息,我們可以取α=81,β=219
之所以取這兩個參數是因為:
- beta分布的均值是
- 從圖中可以看到這個分布主要落在了(0.2,0.35)間,這是從經驗中得出的合理的範圍。
在這個例子里,我們的x軸就表示各個擊球率的取值,x對應的y值就是這個擊球率所對應的概率。也就是說beta分布可以看作一個概率的概率分布。
那麼有了先驗信息後,現在我們考慮一個運動員只打一次球,那麼他現在的數據就是」1中;1擊」。這時候我們就可以更新我們的分布了,讓這個曲線做一些移動去適應我們的新信息。beta分布在數學上就給我們提供了這一性質,他與二項分布是共軛先驗的(Conjugate_prior)。所謂共軛先驗就是先驗分布是beta分布,而後驗分布同樣是beta分布。結果很簡單:
其中α0和β0是一開始的參數,在這裡是81和219。所以在這一例子里,α增加了1(擊中了一次)。β沒有增加(沒有漏球)。這就是我們的新的beta分布Beta(81+1,219),我們跟原來的比較一下:
可以看到這個分布其實沒多大變化,這是因為只打了1次球並不能說明什麼問題。但是如果我們得到了更多的數據,假設一共打了300次,其中擊中了100次,200次沒擊中,那麼這一新分布就是:
注意到這個曲線變得更加尖,並且平移到了一個右邊的位置,表示比平均水平要高。
一個有趣的事情是,根據這個新的beta分布,我們可以得出他的數學期望為:,這一結果要比直接的估計要小 。你可能已經意識到,我們事實上就是在這個運動員在擊球之前可以理解為他已經成功了81次,失敗了219次這樣一個先驗信息。
因此,對於一個我們不知道概率是什麼,而又有一些合理的猜測時,beta分布能很好的作為一個表示概率的概率分布。
beta分布與二項分布的共軛先驗性質二項分布二項分布即重複n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當試驗次數為1時,二項分布服從0-1分布
二項分布的似然函數:
我們做貝葉斯估計的目的就是要在給定數據的情況下求出θ的值,所以我們的目的是求解如下後驗概率:
注意到因為P(data)與我們所需要估計的θ是獨立的,因此我們可以不考慮它。
我們稱P(data|θ)為似然函數,P(θ)為先驗分布
共軛先驗現在我們有了二項分布的似然函數和beta分布,現在我們將beta分布代進貝葉斯估計中的P(θ)中,將二項分布的似然函數代入P(data|θ)中,可以得到:
我們設a′=a+z,b′=b+N?z 最後我們發現這個貝葉斯估計服從Beta(a』,b』)分布的,我們只要用B函數將它標準化就得到我們的後驗概率:1.Understanding the beta distribution (using baseball statistics)
2.20 - Beta conjugate prior to Binomial and Bernoulli likelihoods作為分享主義者(sharism),本人所有互聯網發布的圖文均遵從CC版權,轉載請保留作者信息並註明作者a358463121專欄:a358463121的專欄,如果涉及源代碼請註明GitHub地址:358463121 (QJ) · GitHub。商業使用請聯繫作者。參考原文:http://blog.csdn.net/a358463121/article/details/52562940Statlect網站上給出了一個簡單的解釋。假設一個概率實驗只有兩種結果,一個是成功,概率是X,另一個是失敗,概率為(1-X)。其中,X的值我們是不知道的,但是它所有可能的情況也是等概率的。如果我們對X的不確定性用一種方式描述,那麼,可以認為X是一個來自於[0,1]區間的均勻分布的樣本。這是很合理的,因為X只可能是[0,1]之間的某個值。同時,我們對X也一無所知,認為它是[0,1]之間任何一個可能的值。這些都與[0,1]均勻分布的性質契合。現在,假設我們做了n次獨立重複的實驗,我們觀察到k次成功,n-k次失敗。這時候我們就可以使用這些實驗結果來修訂之前的假設了。換句話說,我們就要計算X的條件概率,其條件是我們觀察到的成功次數和失敗次數。這裡計算的結果就是Beta分布了。在這裡,在總共n次實驗,k次成功的條件下,X的條件概率是一個Beta分布,其參數是k+1和n-k+1。
還有一些其他的解釋和案例。可以參考這篇博客:貝塔分布(Beta Distribution)簡介 | 數據學習者官方網站(Datalearner)
我覺得這個博主的例子解釋得比較清楚,參考:伯努利分布、二項分布、Beta分布、多項分布和Dirichlet分布與他們之間的關係,以及在LDA中的應用【存疑】
Beta分布可以看做是分布之上的分布。我們還是以拋硬幣為例。不過,我們並不假設硬幣是均勻的(也就是說:並不假設每次拋硬幣,正面朝上的概率為0.5),所以拋硬幣的正面朝上的概率p是未知的(只知道p∈[0,1])。如果進行一次二項分布試驗,在這次二項分布試驗中,拋硬幣10000次,其中正面朝上7000次,反面朝上3000次,我們可以得到,正負面朝上的概率分別為{p,1-p}={0.7,0.3}。但是我們並不確信這個結果是正確的。我們想要做10000次二項分布試驗,在每次二項分布試驗中,均拋硬幣10000次(說不定在其他二項分布實驗中,得到的正負面朝上的概率是{0.2,0.8}或者{0.6,0.4},這些情況都有可能),那麼,我們想要知道,在這樣的多次重複二項分布實驗中,拋硬幣最後得到正負面朝上概率為{0.7,0.3}這樣概率為多少?這就是在求拋硬幣的概率分布之上的分布。這樣的分布就叫做Beta分布。
推薦閱讀:
※從[0,1]區間內任取一點,取到任意一點的概率都是0嗎?
※從所有有理數中隨機抽取一個,抽中是整數的概率是多少?為什麼呢?
※如何用簡單的例子解釋什麼是 Generalized Method of Moments (GMM)?
※有沒有可能相關係數很高,可是兩組數據其實並沒有關係?(即便從圖上看也是如此)
※正態分布可以生成均勻分布嗎?