標籤:

請教一道無限情況的貝葉斯公式問題?

這道題在用貝葉斯的時候會牽扯到大小取 n 的概率,但這個相當於 1 到無窮均勻分布取某個值的概率。這一項可以通過直接約掉解決,但真的可以這樣處理嗎?

另外,這道題還要計算一個 n 元正整數集集合最大元為 10 的情況數,我算的是 10^n-9^n ,但再帶進去算出來的答案是發散的。

希望知友給出一個完整的解題過程,現在真的算不出來了。


提了個好問題,這裡沒有先驗分布,貝葉斯公式是不能嚴格成立的,唯一合理的解釋是用0到N的均勻分布,然後令N趨向無窮求極限,這也並不顯然。

但是實際情況下這種方法的確很常用,也就是用似然值代替真正的概率,是很重要的工程方法。參數估計也經常這麼做。


誰出的題啊,條件不全。

首先你是取了n 個字元串構成了S 集合、最後你要求 n 的期望。那麼n 本身應該是個隨機變數。你要求它的後驗期望,當然依賴於它的後驗概率分布。而它的後驗概率分布必然依賴於n 的先驗分布,也就是依賴於最開始你是如何隨機抽取n的。但題目中完全沒有提到n 的先驗。所以條件不全。

你說假設n 在正整數集合上均勻分布,這是完全錯誤的。因為在正整數集上根本不存在均勻分布。

看到@靈劍 的答案中假設n 的先驗是從1 到 N 的均勻分布;求完後驗期望後再令N 趨向無窮大。要是這樣理解這題還可以一做,你們做吧 :)

題目里還有另一個小bug. 它說函數 h 生成的整數服從那個指定的幾何分布。這裡隱含了一個從字元串集合中抽取字元串的分布,即h 的輸入變數的分布。後面隨機構造S時抽取字元串所用的分布必須跟這個分布相同。這個也沒有說明。

哎,有這麼出題的嗎?害死學生了。


本題解答

我不明白題主為什麼覺得這道題和貝葉斯有關,這就是一道頻數主義問題。

假如最大值是 1,那麼 mathcal{P}(n=m) = (frac{1}{2})^m ,算一下期望是 2.

假如最大值是 t,那麼

mathcal{P}(n=m) = mathcal{P}(maxh le t)^m - mathcal{P}(maxh < t)^m = (1-frac{1}{2^t})^m - (1-frac{1}{2^{t-1}})^m

算一下期望,答案是 A。注意

mathcal{P}(maxhle t)^m

是最大值不大於 t 時的概率,題目中要求最大值就是 t,那麼必須排除最大值小於 t 的情況。

本題,假設平均分布下,貝葉斯解法,和頻數主義沒有顯著區別。

貝葉斯公式的適用範圍

說實話,概率不是一種嚴密的理論體系,雖然他有分析學基礎,但實際應用中,概率的演算法很多,比如頻數主義方法、貝葉斯主義方法。這道題按照貝葉斯主義觀點來說,就如同 @月光寶盒娛樂頻道 的答案。但一般人都會直覺按照頻數主義來算。

貝葉斯公式,同時定義了條件概率的形式和物理意義,所以,會出現問題,比如辛普森悖論。當然,這類悖論總是有解釋辦法,但實際上,還是由於雙重定義所致。可以參考概率啟示錄,這本書。

簡單說,貝葉斯公式只成立於貝葉斯公式適用的時候。不適用的情況下,你就不要用。適用不適用,全憑具體問題和經驗。

人工智慧中的概率派別

人工智慧中,概率的演算法很多,一部分邏輯概率,傾向於頻數主義;概率圖,傾向於貝葉斯主義。然而,實際上,比較先進的方法,是修改貝葉斯公式,最經典的工作就是正則貝葉斯,比如貝葉斯後驗正則。修改貝葉斯公式的方法,主要步驟就兩步:第一步,改寫貝葉斯為優化目標;第二步,修改目標。當然說起來容易,做起來難,具體細節參考貝葉斯後驗正則那些論文。

貝葉斯後驗正則的例子

我隨便舉一個無實際意義的例子,比如貝葉斯公式等價為:

min mathcal{KL}{mathcal{P}(y,x)||mathcal{P}(y|x)mathcal{P}(x)}

具體問題中,先驗是給定的,但我們仍然希望後驗和先驗接近,於是,我們修改目標:

min mathcal{KL}{mathcal{P}(y,x)||mathcal{P}(y|x)mathcal{P}(x)} +lambdamathcal{KL}{mathcal{P}(y|x)||mathcal{P}(y)}

為什麼貝葉斯正則會比貝葉斯公式好?

我之前說了,貝葉斯是一個定義性定理,簡單說,貝葉斯公式成立的原因是條件概率的定義。不精確地說,這是近乎公理性的定理,出現與實際不符的情況在所難免。這個循環論證的解決辦法,有很多,參見概率教材,但都不是本質性的。所以,修正貝葉斯公式,在很多情況下會更符合實際,也就效果更好。

推薦論文

這裡,還要夾帶私貨,推銷我學姐的論文,發表在 AAAI 上,主要是在半監督情況下,對貝葉斯公式的修正:Semi-Supervised Multinomial Naive Bayes for Text Classification by Leveraging Word-Level Statistical Constraint,加約束和改目標是無本質差別的。

如果對貝葉斯應用感興趣,可以看看我的新作:SAR: A Semantic Analysis Approach for Recommendation。


E(|S|)=sumlimits_{i=1}^infty iP(left.|S|=imiddle|max h(S)=10
ight.)

P(left.|S|=imiddle|max h(S)=10
ight.)=frac{P(|S|=i)P(left.max h(S)=10middle||S|=i
ight.)}{sumlimits_{j=1}^infty P(|S|=j)P(left.max h(S)=10middle||S|=j
ight.)}

P(left.max h(S)=10middle||S|=i
ight.)=(1-frac1{2^{10}})^i-(1-frac1{2^{9}})^i

這個解釋為max h(S)=10的概率就是算

max h(S)&<=10概率減去max h(S)&<=9概率

因為後者是前者的子集,剩下的部分為max h(S)=10的概率

而max h(S)&<=j概率

就是所有元素&<=j的概率(1/2+...+2^(-j))^i=(1-2^(-j))^i

概率p畫出來這樣

結果還是依賴於初始分布。

E(|S|)=frac{sumlimits_{i=1}^infty iP(|S|=i)((1-frac1{2^{10}})^i-(1-frac1{2^{9}})^i)}{sumlimits_{j=1}^infty P(|S|=i)((1-frac1{2^{10}})^i-(1-frac1{2^{9}})^i)}


推薦閱讀:

概率論中「矩」(moment)的實際含義是什麼,高階矩表示數據的哪些狀態?
如何推導指數分布的概率密度曲線?
有了方差為什麼需要標準差?
數學思維與工程思維的區別與聯繫?
有哪些可以培養提高數學思維的書值得推薦?

TAG:數學 | 概率論 |