先驗分布、後驗分布、似然估計這幾個概念是什麼意思,它們之間的關係是什麼?

能舉例說明最好


作為吃瓜群眾,嘗試回答下。

用「瓜熟蒂落」這個因果例子,從概率(probability)的角度說一下,

先驗概率,就是常識、經驗所透露出的「因」的概率,即瓜熟的概率。應該很清楚。

後驗概率,就是在知道「果」之後,去推測「因」的概率,也就是說,如果已經知道瓜蒂脫落,那麼瓜熟的概率是多少。後驗和先驗的關係可以通過貝葉斯公式來求。也就是:

P(瓜熟 | 已知蒂落)=P(瓜熟)×P(蒂落 | 瓜熟)/ P(蒂落)

似然函數,是根據已知結果去推測固有性質的可能性(likelihood),是對固有性質的擬合程度,所以不能稱為概率。在這裡就是說,不要管什麼瓜熟的概率,只care瓜熟與蒂落的關係。如果蒂落了,那麼對瓜熟這一屬性的擬合程度有多大。似然函數,一般寫成L(瓜熟 | 已知蒂落),和後驗概率非常像,區別在於似然函數把瓜熟看成一個肯定存在的屬性,而後驗概率把瓜熟看成一個隨機變數。

---

再扯一扯似然函數和條件概率的關係。似然函數就是條件概率的逆反。意為:

L(瓜熟 | 已知蒂落)= C × P(蒂落 | 瓜熟),C是常數。具體來說,現在有1000個瓜熟了,落了800個,那條件概率是0.8。那我也可以說,這1000個瓜都熟的可能性是0.8C。

注意,之所以加個常數項,是因為似然函數的具體值沒有意義,只有看它的相對大小或者兩個似然值的比率才有意義,後面還有例子。

----------------------------------------------------------------------------------------------------

同理,如果理解上面的意義,分布就是一「串」概率。

先驗分布:現在常識不但告訴我們瓜熟的概率,也說明了瓜青、瓜爛的概率

後驗分布:在知道蒂落之後,瓜青、瓜熟、瓜爛的概率都是多少

似然函數:在知道蒂落的情形下,如果以瓜青為必然屬性,它的可能性是多少?如果以瓜熟為必然屬性,它的可能性是多少?如果以瓜爛為必然屬性,它的可能性是多少?似然函數不是分布,只是對上述三種情形下各自的可能性描述。

那麼我們把這三者結合起來,就可以得到:後驗分布 正比於 先驗分布 × 似然函數。先驗就是設定一種情形,似然就是看這種情形下發生的可能性,兩者合起來就是後驗的概率。

至於似然估計

就是不管先驗和後驗那一套,只看似然函數,現在蒂落了,可能有瓜青、瓜熟、瓜爛,這三種情況都有個似然值(L(瓜青):0.6、L(瓜熟):0.8、L(瓜爛):0.7),我們採用最大的那個,即瓜熟,這個時候假定瓜熟為必然屬性是最有可能的。

Reference:

https://zh.wikipedia.org/zh-cn/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0


先驗——根據若干年的統計(經驗)或者氣候(常識),某地方下雨的概率;
似然——下雨(果)的時候有烏雲(因 or 證據 or 觀察的數據)的概率,即已經有了果,對證據發生的可能性描述;
後驗——根據天上有烏雲(原因或者證據 or 觀察數據),下雨(結果)的概率;

後驗 ~ 先驗*似然 : 存在下雨的可能(先驗),下雨之前會有烏雲(似然)~ 通過現在有烏雲推斷下雨概率(後驗);


這幾個概念可以用「原因的可能性」和「結果的可能性」的「先後順序」及「條件關係」來理解。下面舉例:

隔壁老王要去10公里外的一個地方辦事,他可以選擇走路,騎自行車或者開車,並花費了一定時間到達目的地。在這個事件中,可以把交通方式(走路、騎車或開車)認為是原因,花費的時間認為是結果。

若老王花了一個小時的時間完成了10公里的距離,那麼很大可能是騎車過去的,當然也有較小可能老王是個健身達人跑步過去的,或者開車過去但是堵車很嚴重。若老王一共用了兩個小時的時間完成了10公里的距離,那麼很有可能他是走路過去的。若老王只用了二十分鐘,那麼很有可能是開車。這種先知道結果,然後由結果估計原因的概率分布,p(交通方式|時間),就是後驗概率。

老王早上起床的時候覺得精神不錯,想鍛煉下身體,決定跑步過去;也可能老王想做個文藝青年試試最近流行的共享單車,決定騎車過去;也可能老王想炫個富,決定開車過去。老王的選擇與到達目的地的時間無關。先於結果,確定原因的概率分布,p(交通方式),就是先驗概率。

老王決定步行過去,那麼很大可能10公里的距離大約需要兩個小時;較小可能是老王平時堅持鍛煉,跑步過去用了一個小時;更小可能是老王是個猛人,40分鐘就到了。老王決定騎車過去,很可能一個小時就能到;較小可能是老王那天精神不錯加上單雙號限行交通很通暢,40分鐘就到了;還有一種較小可能是老王運氣很差,連著壞了好幾輛共享單車,花了一個半小時才到。老王決定開車過去,很大可能是20分鐘就到了,較小可能是那天堵車很嚴重,磨磨唧唧花了一個小時才到。這種先確定原因,根據原因來估計結果的概率分布,p(時間|交通方式),就是似然估計。

老王去那個地方好幾趟,不管是什麼交通方式,得到了一組關於時間的概率分布。這種不考慮原因,只看結果的概率分布,p(時間),也有一個名詞:evidence(不清楚合適的中文名是什麼)。

最後,甩出著名的貝葉斯公式:

p(	heta|x)={p(x|	heta)p(	heta)over p(x)}

x : 觀察得到的數據(結果)

	heta : 決定數據分布的參數(原因)

p(	heta|x) : posterior

p(	heta) : prior

p(x|	heta) : likelihood

p(x) : evidence


先驗概率可理解為統計概率,後驗概率可理解為條件概率。

------------------------------------------------------------------

設定背景:酒至半酣,忽陰雲漠漠,驟雨將至。

情景一:

「天不會下雨的,歷史上這裡下雨的概率是20%」----先驗概率

「但陰雲漠漠時,下雨的概率是80%」----後驗概率

情景二:

「飛飛別急著走啊,歷史上酒桌上死人的概率只有5%「----先驗概率

」可他是曹操啊,夢裡都殺人「----後驗概率


先驗分布:根據一般的經驗認為隨機變數應該滿足的分布

後驗分布:通過當前訓練數據修正的隨機變數的分布,比先驗分布更符合當前數據

似然估計:已知訓練數據,給定了模型,通過讓似然性極大化估計模型參數的一種方法

後驗分布往往是基於先驗分布和極大似然估計計算出來的。


聯合概率的乘法公式:

(如果隨機變數是獨立的,則)

由乘法公式可得條件概率公式:,

全概率公式:,其中

(,則可輕易推導出上式)

貝葉斯公式:

又名後驗概率公式、逆概率公式:後驗概率=似然函數×先驗概率/證據因子。解釋如下,假設我們根據「手臂是否很長」這個隨機變數(取值為「手臂很長」或「手臂不長」)的觀測樣本數據來分析遠處一個生物是猩猩類別還是人類類別(假設總共只有這2種類別)。我們身處一個人跡罕至的深山老林里,且之前就有很多報道說這裡有猩猩出沒,所以無需觀測樣本數據就知道是猩猩的先驗概率(Prior Probability)較大,比如根據歷史數據估計有70%=0.7。接著,我們得到了的觀測樣本數據:「手臂很長」──而猩猩類別表現為這種特徵的類條件概率,或者說這種「可能性」即似然(Likelihood)較大,相比於人類表現為「手臂很長」的似然。所以經這次觀測之後加強了我們的判斷:是一隻猩猩的後驗概率(Posterior Probability)變得比先驗概率更大,超過了之前的70%!反之,如果觀測發現這個生物的手臂不長,而猩猩類別表現為「手臂不長」的似然較小,則會減弱我們的判斷,是猩猩的後驗概率將小於70%。因此,後驗概率包含了先驗信息以及觀測樣本數據提供的後驗信息,對先驗概率進行了修正,更接近真實情況。此外,證據因子(Evidence,也被稱為歸一化常數)可僅看成一個權值因子,以保證各類別的後驗概率總和為1從而滿足概率條件。

如果我們的目標僅僅是要對所屬類別作出一個判別:是「猩猩」還是「人類」,則無需去計算後驗概率的具體數值,只需計算哪個類別的後驗概率更大即可。假設猩猩和人類出現的先驗概率相等,,則此時類別的判定完全取決於似然和的大小。因此,似然函數(Likelihood:「可能性」)的重要性不是它的具體取值,而是當參數(如類別參數)變化時,函數到底變小還是變大,以便反過來對參數進行估計求解(估計出是還是)。


P(H|X) is the posterior probability, or posteriori probality, of H conditioned on X. For example, suppose our world data tuples is confined to customers described by the attribute age and income, respectively, and the X is a 35-year-old custumer with an income of $40,000. suppose that H is the hypothesis that our customer will buy a computer. Then P(H|X) reflects the probability that customer X will buy a computer given that we know the customer"s age and income.

In contrast, P(H) is the prior probability, or a priori probability of H. For our example, this is the probability that any given customer will buy a computer, regardless of age, income, or any other information, for the matter. The posterior parobality, P(H|X), is based on more information(e.g., customer information) than the prior probabilty, P(H), which is independent of X.

Similarly, P(X|H) is the posterior probability of X conditioned on H. That is, it is the probability that a customer, X, is 35 years old and earns $40,000, given that we know the customer will buy a computer.

P(X) is the prior probability of X. Using our example, it is the probability that a person from our set of customers is 35 years old and earns $40,000.

The four probabilities satisfy Bayes" theorem, that is ,

P(H|X)=P(X|H)P(H)/P(X)


我覺得 @Agenter 答的已經超級好了,但是@Gavin 的回答和評論區理解都不太對,又得了很多贊同,我就想來糾正一下。

Gavin以烏雲和下雨為例子,原回答和評論都將「烏雲出現」當做了「因」,同時回答中對似然的解釋也不太對。

個人覺得該回答中,因是「下雨」,果是「有烏雲」,不是因為有烏雲了才下雨的,烏雲是將降雨的一個表現。類似的題目中,因是「地震」,果是「動物表示異常」,雖然人眼看到的順序是動物先異常,再發生地震,但是同樣的,「動物異常」是「地震發生」造成的,不是小雞小鴨亂跳一跳大地母親就地震了。

另外Gavin回答中說「似然」是「有果」求因,也不對吧,似然是已知原因時,結果的概率分布。

因此該答案可修改為:

先驗——根據若干年的統計(經驗)或者氣候(常識),某地方下雨(因)的概率;

似然/類條件概率——在下雨(因)的情況下,觀測到了烏雲(果)的概率,即原因已知時,結果出現的概率;

後驗——根據天上有烏雲(果),得到的下雨(因)的概率,即給定結果估計原因的概率;

後驗 ~ 先驗*似然 :

通過現在有烏雲(果)推斷下雨概率(因)**後驗**

~ 下雨(因)的概率 **先驗**

* 下雨(因)之前會有烏雲(果)**似然**

大家不要太糾結於順序,肉眼看到的是先有烏雲再下雨,但是這裡就是認為烏雲的出現是雨已經在路上了的一個表現。這個例子不算非常好,可能有人討論下雨的機制烏雲的形成原理,堅持烏雲是下雨的原因。還是去看 @Agenter 的隔壁老王的例子吧~

另外如果看了Agenter的例子了解了原理但不知道如何應用貝葉斯公式,可以給大家編一個具體數字的例子。「因」為交通方式w,「果」為所用時間x:

  1. 先驗 P(w):要走10公里去某地,老王開車的可能性最大,P(開車)=0.6,而騎車和走路可能性為P(騎車)=0.3,P(步行)=0.1.
  2. 似然 P(x|w):

開車時,花20分鐘比較多,也可能堵到2小時,大家想像一個分布:橫軸為時間,從0到120分鐘;縱軸為概率,0到1;分布是一條曲線,線下面積為1(總概率為1),20分鐘時值為0.5,120分鐘時值為0.05。

相同的,有兩條騎車和步行時的條件概率圖,騎車時時間為60分鐘的概率最大,為0.4,其他時間概率相應地較小;步行時120分鐘的概率最大,為0.5。

3. 跡象/證據 P(x):

老王去過這個地方20次了,所花分鐘數分別為:20,30,20,60,90,120,20,60,120,110,40,50,60,70,90,120,110,20,70,90. 則可做出時間分布的直方圖,不做也行。20分鐘出現了4次,P(20)=4/20=0.2,同樣的,P(120)=3/20=0.15.

4. 後驗 P(w|x):

老王告訴妻子,這次去某地花了120分鐘。妻子知道老王選交通方式的概率(先驗),知道3種交通方式對應的概率分布(似然),知道老王去的20次的時間分布(後驗)。於是妻子用貝葉斯公式,就能知道花了120分鐘的老王,採用的交通方式應該是什麼。

由P(w|x) = P(x|w)*P(w)/P(x),有

P(步行|時間=120分鐘) = P(120分鐘|步行) * P(步行) / P(120分鐘)。由數據知,P(步行)=0.1,P(120分鐘|步行)=0.5,P(120分鐘) = 0.15。代入三個數字,求出值為0.333.

類似的,可求出P(騎車|時間=120分鐘) =0.002,P(開車|時間=120分鐘) =0.02。其中步行的概率最大,所以妻子覺得老王最有可能是走著去的。這就是後驗啦。

哎不知道有沒有理解的不對的,初學者理解比較淺,這個例子里先驗和似然也是經驗值提供的,不來自樣本,分類屬性值也只有「交通方式」一個,沒有「路況」、「身體條件」什麼的。大家有不同意見還請指出。


推薦閱讀:

概率密度函數在某一點的值有什麼意義?
農場有100隻雞圍成一圈,每隻雞把旁邊的雞啄了一下,雞啄左邊右邊是隨機,不被啄的雞的數量的期望是多少?
n*n的格子區域,隨機向其中放置m*m的小格子,m小於n,直至無法放置,小格子佔據面積比例期望多少?
如何在KTV或者酒吧中吹牛,就是搖色子,所向披靡?
如果X服從標準正態分布,那X的絕對值符合什麼分布?

TAG:統計學 | 概率 | 概率論 |