標籤:

如何看待已經發生的事件,應該認為期望還是看作概率最高的事件?如何根據隨機抽樣的結果推算整體的情況?

今天結構力學老師上課提問,問了前6個人都不會或者答錯了,第7個人答對了,接著他說「這道題只有七分之一的人會」,瞬間感覺他的結論有問題。但後來想了想,到底該怎麼算會做的此題的人概率呢?

如果假定總人數為200人,某大神給了個思路: MAX{((200-x)/200)^6 * x/200}來估算,對嗎?


200名同學,假設老師不是故意按照學術水平挑選,而是隨機抽查提問。如果提問到的前6位都不會做,第7位會做。這時候,我們可不可以說大約有七分之一的同學會做?

因為被提問完了的同學不會再被重新提問,所以我們可以用left( frac{200-x}{200}  
ight)^6 cdot frac{x}{200} 估算,也可以像下面我這樣計算。

總人數200,其中會這道題的人數為 n,則前6個都不會,第7個會的概率為

P=frac{200-n}{200}cdot  frac{199-n}{199} cdot  frac{198-n}{198} cdot  frac{197-n}{197} cdot  frac{196-n}{196} cdot  frac{195-n}{195} cdot  frac{n}{194}

這個函數的圖形是這樣的:

  • 如果只有這6個同學不會,剩下的194個都會,這種情況下相當於你剛剛好把那6個不會的抽了出來,抽出這個超級大樂透的概率是1.213e-11,等於不可能。

  • 如果有一半的同學會做,也就是 n 等於100,這種情況下發生這件事的概率是0.746%。

  • 如果有43位同學會做,發生這件事的概率是5.079%。

  • 如果有28位同學會做,發生這件事的概率是5.767%。

  • 如果有17位同學會做,發生這件事的概率是5.106%。

  • 如果有10位同學會做,發生這件事的概率是3.774%。

  • 如果只有1位同學會做,第7位恰恰就是唯一會做這道題的同學,這種情況下發生這件事的概率的是0.5%。

因為這件事發生了,所以可以理解成它不是個小概率事件,也就是說,它在理論上發生的概率至少要大於5%。所以,會做這道題的同學的人數應該在17到43之間。

如果會做的人數大於43,則有很大的可能在前6個中就抽到一個會做的;如果小於17,則有很大的可能第7個也抽不到會做的,得繼續往下抽。只有會做的人數介於17和43之間,這件事情發生的概率才大於5%,也就是上面圖形中藍色直線以上的部分。

所以,會做的人數從17到43都是有可能的。我們注意到,28對應的概率值最大,達到了峰值5.767%,可以近似認為有28位同學會做的可能性最大。看,28除以200,正好約等於七分之一。

問題1:那如果提問了第1個同學,不會,然後再提問第二個同學,會做。我們能不能說有一半的同學會做呢?

跟上面情況一樣,P2=frac{200-n}{200}cdot  frac{n}{199} 。它的圖像是這樣的:

會做的人數介於11到189之間,都可以保證這件事發生的概率大於5%,所以這時候做推測就有點困難了。

問題2:如果是提問了7個人,都不會,再提問第8個人,會。這種情況呢?

這種情況,我們已經把範圍縮小到了24、25、26這三個可能,只有會做的人數為24、25、26的時候,這種情況發生的概率才高於5%。

問題3:如果提問了8個人,都不會,再提問第9個人,會。這種情況呢?如果提問10個人都不會呢,第11個會呢?

這種情況下,紅色曲線已經全部落到了藍色直線之下,也就是說,這不可能是個大概率事件。換言之,如果提問了10個人,都不會,那幾乎等於沒有人會做。否則的話,這10次中就應該抽到了。如果第11個會做,那有很大的可能性只有這一位學霸同學會做。


This is about Estimation. Your teacher gave a Maximum Likelihood Estimation and it is reasonable.

The answer for argmax{((200-x)/200)^6 * x/200} is also x=200/7, so that is just what you expect.


這是一個典型的參數估計問題。可以抽象成這樣一個問題:200個小球里有n個黑球,其餘的都是白球。現在做不放回的取球,第七次的時候第一次抽到黑球。根據這一信息估計n的取值。一般的點估計方法有矩估計和最大似然估計,這裡都能使用,所以方法不唯一。不過由於這個相當於是僅僅根據一個樣本的估計,所以精確度不高,不同方法可能估計結果不同。近似用幾何分布來估計的話應該是接近七分之一的。


老師那句話的完整表述是:

根據抽樣調查結果,有xx%的可能,貴班同學會做這題的概率落在0.142857 pm 0.yy之間。

(其中xx%通常可以是99%,95%,90%, 每個xx%對應一個0.yy,xx%越接近1,說明你越有信心,0.yy也就越大)

鑒於你沒有聽懂老師的話,說明你還沒有弄懂最基本的概念。

我有99%的把握說,在提問當天,你的概率弱爆了。

——————————————————————

思考題:

一個女人要睡過多少無良男人,才能有95%的把握說,男人沒一個好東西?(好男人&<5%)

可以參考

http://tw.myblog.yahoo.com/96kmu-emha/article?mid=60prev=61l=ffid=5


第一名的答案用到了一些bayesian inference的思想,而且很明顯的用到了後驗分布的估計,但是可惜沒有系統地寫出來,我試試整理一下。

首先如果我們用概率的思路來看這個問題,要設定一些假設:

學生通過與否符合一個二項分布,即對每個學生X_{i}

P(X_{i}=1|	heta)=	heta\
P(X_{i}=0|	heta)=1-	heta,且每個學生彼此之間保持獨立分布。

上個式子中	heta表示參數,物理含義就是學生通過的概率。

知道,X_{1}=X_{2}=X_{3}=X_{4}=X_{5}=X_{6}=1,X_{7}=0

問你X_{8}是多少,或者說P(X_{8}),再或者說是P(X_{8},X_{9}...X_{200})是多少

題主提到的演算法叫做最大似然估計(Maximum Likelihood Estimation,MLE),什麼意思,就是說,概率的參數應該滿足已經發生的概率出現的可能性最大。

在這個問題裡面:

L(	heta)=P(X_{1}...X_{6}=1,X_{7}=0)=	heta^{6}(1-	heta)\
lnL(	heta)=lnp(X_{1}...X_{7})=6ln	heta+ln(1-	heta)

上面的式子里,L(	heta)就表示,這個問題的「似然函數」,可以看到,就是,你把	heta固定成一個數之後,那麼已經發生的事情再現的概率,就是這個值。這個值是關於	heta的一個函數。我們估計參數就是找到	heta使得L(	heta)最大。找的辦法一般是取對數然後求導算導數為零的點。總之算出來使得L(	heta)最大的值,肯定是	heta=frac{1}{7}

好了,這裡面的問題就是,這個估計的假設就是,參數需要滿足已經出現的事情再現的概率最大。實際是這麼一回事嗎?@豬小寶 的答案做了一個分析,假設,	heta=frac{43}{200},算出來似然是5.079%,似乎也在可以接受的範圍之內,如果上面最大似然的假設不成立,怎麼辦?

概率裡面還有一種辦法,叫做,最大後驗估計(Maximum A Posteriori estimation,MAP)。就是說,找到	heta,滿足:

argmax P(	heta|X_{1}...X_{7}) =frac{P(X_{1}...X_{7}|	heta)P(	heta)}{P(X_{1}...X_{7})}

左邊那個分布叫做後驗分布。上面這個公式就是貝葉斯公式的基本定義。看這個形式,直觀意思就是說,給定7個人,找到一個	heta使得根據這個數據觀察到的	heta的概率最大。

這裡面就有一個基本的假設,那就是,	heta,它本身,是有一個概率分布的,是個隨機變數

最大似然估計里,它沒有這個假設,	heta是一個確定的數。

上面後驗分布的式子中,分母和	heta無關,在估計參數的時候一般略去。

最大後驗估計等同於如下式子:

argmax_{	heta}P(	heta|X_{1}...X_{7})=argmax_{	heta}P(X_{1}...X_{7}|	heta)P(	heta)\
=argmax_{	heta}[6ln	heta+ln(1-	heta)+lnP(	heta)]

在二項分布中,參數的分布P(	heta)一般定義為beta distribution。公式形式比較複雜,不展開說了。

順便再說說,上面這個式子,仔細看和最大似然估計其實只差了lnP(	heta)這一項而已,要是樣本數量大了,比如說採樣采了十萬個人,80000個人做出來了,20000個人沒做出來,那麼這兩個估計其實怎麼估計也差不多。

總之,估計出來:

	heta=frac{6+alpha-1}{7+alpha+eta-2}=frac{7}{9}

其中alpha,eta是beta分布的參數,一般都取2。

不管是最大似然估計還是最大後驗估計,這裡面都有一個隱含的假設:

P(X_{8}|X_{1}...X_{7})=P(X_{8}|	heta),就是說,首先確定出參數	heta是什麼,然後,用	heta去估計下一次是什麼。但仔細想想,我們要求的,就是這個式子左邊這個概率分布,然後把它化簡成了式子的右邊而已。把這種化簡的思想在進一步擴展展開,在	heta是隨機變數的前提下,左邊的式子可以寫成:

P(X_{8}|X_{1}...X_{7})=int{P(X_{8}|	heta)P(	heta|X_{1}...X_{7})d	heta}

就是說,把所有	heta的可能性都考慮進去,這個概率應該這麼算。這叫做bayesian inference(我不會翻譯...)

題主這個式子的答案我懶的求了,總之各種辦法可以算吧。

上面說了三種估計的辦法,那種靠譜呢?

從理論層面上:我們知道大數定理,簡單的那就是隨機變數觀察到的數量越多,它的分布就越靠譜。所以題主你7個樣本怎麼估計都不靠譜的。多麼不靠譜,你可以用大數定理去算。

從實驗層面上:你最後要得出結論,需要對估計的結果進行驗證。那就是,你分別用6/7和7/9去試試,哪個離後面193個學生的分布更接近,哪個就靠譜。實際做實驗應該是把7個人的樣本再拆開,一部分估計參數,用剩下的做驗證。

最後,我們假設這是二項分布,每個樣本(學生)彼此獨立,是這麼一回事嗎?你拿到六個學生,其實是一個學生牛逼過了,剩下五個抱大腿作弊抄的,剩下194個全不會,這也不一定啊。你要不是標準二項分布,根據模型的不同假設,你可以設計更複雜的混合模型,把我說的情況考慮進去。不管如何假設,都可以按照最大似然,最大後驗或者bayesian inference估計出來分布的結果。


私以為排名第一的答案有點跑偏。

--------------------------分割線---------------------------

老師曰:這個問題花了老子半年才搞出來,目測班裡能答出來的不超過三個!(好吧是1/7...)於是乎閉著眼隨便點了七個人的名字來回答(潛台詞:老子不信你們有一個能答出來哼!)果然基本全軍覆沒,前六個都不會,第七個巧了是個學神,面不改色心不跳把答案甩老師一臉...於是曰:你們這群渣渣!會做的人看來就只有1/7哈哈哈不枉老子花了半年時間解此題哈哈哈!!!

--------------------------分割線----------------------------

情景重現完畢,問題總結為:樓主有理由相信老師說的話嗎?有多大理由?如何根據隨機抽樣結果推算整體情況?這是概率統計上假設檢驗的問題。廢話不多說,上栗子。

結論:有百分之95%的把握不能拒絕老師的結論,即全班只有1/7的同學會做此題。(老師:你們這群渣渣還不滾去好好學習!!!)

P.S.個得票數最高的回答,「因為這件事發生了,所以可以理解成它不是個小概率事件,也就是說,它在理論上發生的概率至少要大於5%。所以,會做這道題的同學的人數應該在17到43之間」,個人認為這句話的邏輯有待商榷。:)還有此題的樣本7人太小,有效性有待商榷。

以上。

//////////////補充//////////////

個人在看過回答後又想了想,認為以極大似然的思想來看樓主的問題比較好,詳情見極大似然估計_百度百科 殊途同歸,以上方法均得出如下結論,即不能拒絕老師說的話是正確的:會回答的人數約為1/7(一定誤差內)。


我們看看能不能這樣來理解這個問題

如果我們假設全班做對這道題的比例為p

當人數足夠多的時候,每次抽樣不改變比例p

那麼本次抽樣(6個答錯,1個答對)的概率F=(1-p)^{6}p

我們認為這次抽樣運氣是比較好的,抽樣是最大概率的結果

那麼求F的最大值,frac{dF}{dp} =-6(1-p)^{5}p+(1-p)^{6}=(1-p)^{5}(-6p+1-p)=(1-p)^{5}(-7p+1)=0

p=frac{1}{7}

再將frac{1}{7} 代入F,得到F=0.0566


如果是按隨機原則抽那麼估計出來的概率就是七分之一 沒毛病 只是樣本比較少 按這個按置信水平0。95算出來的話大概200個人里有9 到41 個人會做


樣本是 1/7,總體的估計值也肯定是 1/7。置信度、總人數、抽取的順序(別以為前面有人答對,後回答的就不會答錯了,知乎上就有不少嘛)都沒有影響。

最大似然的基本原理,用不著計算。上綱上線地說句,「術」是很重要,但也別忘了「道」。


推薦閱讀:

一個1000人的營地,每天都有人過生日的概率?
猜拳中如果不出石頭,平局兩次算我贏,獲勝的概率有多大?
波利亞罐子模型怎樣證明?
如何看待吸引力法則?
功率譜密度如何理解?

TAG:概率 |