一道困惑很久的概率問題,這道題是有解還是本身題目就有問題?
有兩個天氣預報站A和B,各自獨立地進行預測,互相完全不知道對方。
根據歷史統計,當A預報第二天下雨時第二天真的下雨的概率是0.9,當B預報第二天下雨時第二天真的下雨的概率是0.8。現在A和B都預報明天下雨,那麼明天下雨的概率是多少?
首先,需要理解題目中的「獨立預測」是什麼意思。
一、它不是說兩個氣象站預測的結果獨立。兩個氣象站都不笨,它們的預測都是有根據的,往往會出現「英雄所見略同」的情況,這就不獨立了。二、有答案認為它的意思是條件獨立,具體地說是「在給定下雨/不下雨的條件下,兩站的預測獨立」。但我覺得這是為了解題而硬要添加條件,這個條件並不是「獨立預測」本來的意思。「獨立預測」在現實生活中的意思,是說兩站根據各自觀測到的數據,不參考對方的預測結果而進行預測。這的確可以理解為一種條件獨立,但這裡的條件是自然界中可以被觀測到並用來預測下雨與否的現象,而不是下雨與否這個結果。
換句話說,「獨立預測」對於本題來說是個無用條件。其次,我們需要採用頻率學派的觀點,即把歷史上隨機事件發生的頻率當作未來該事件發生的概率。如果不認同這一點,就陷入了不可知論,題也就不用做了。
取得了上面兩點共識之後,剩下的就是數學問題了。與其它答案一樣,用A、B、R分別代表「A站預測下雨」、「B站預測下雨」、「實際下雨」三個事件,用N(X)表示事件X發生過的次數。我們關心的是圖中標出的6個事件()。題目的條件其實是告訴了我們兩個比例關係:而我們要求的是下面這個比值:
顯然,已知的兩個條件不足以求出這個比值。@王芊理解成條件獨立這樣更加靠譜。也就是除了假設以外,還要加上
.這樣算出來的結果是.就這樣應該是可以了的。——————————————————————————————————————
我是來終結這個問題的。先說結果,僅從概率的角度來看,根據給的信息,明天下雨的概率可以是任意值。
方便起見,記A,B分別代表A,B預測明天有雨這個事件,就不區分記號了。記R是明天下雨這個事件。那麼根據題目給的有限的信息,總結一下,應該有且只有下面兩條:- ,也就是A,B獨立預測。
- .這個就是條件概率的公式。
那麼我們要求的值其實是.
下面給出構造.任取實數.考慮一個在上均勻分布的隨機變數x,如果就是下雨,就是不下雨。這個可以有實際意義的,比如說可以想像為x是某處的雲層高度,雲層高了說明就是下雨,雲層低就是不下。然後,A預報站是這樣解讀x值的,他們認為,或者就是下雨。這樣的話,。A是有預測對的時候的,也就是 的時候,因此.則,這個是符合的。
那麼下面來構造B的預測方案。我們希望,所以記這個時候B的方案為.比較複雜,是這樣的:當看到的時候,認為是不下雨,其餘時候認為是下雨。畫個圖來看標出來的數字是每一段的長度。這下比較清楚了。下面來算概率。...
.所以事情就很清楚了,帶進去算吧。所有的條件都是滿足的,並且,p是任意的。以上。雖然數學上是完成了,但我覺得我可能未必解決了題主的困惑……其實你題目里的獨立的意思應該是條件獨立,實際在同一真實天氣下的獨立
應該是P(A|R)*P(B|R)=P(AB|R)P(A|非R)*P(B|非R)=P(AB|非R)而不是@王錚所說的P(A)*P(B)=P(AB)下面這種獨立條件太弱了,沒有實際意義,上面的可以推出下面的
說說如果題目中是條件獨立怎麼說。P(R|A)=0.9 P(R|B)=0.8 P(A|R)*P(B|R)=P(AB|R)P( R|AB)=P( RAB)/P( AB)=P( AB|R)*P( R)/P(A)*P(B)=P( A|R)*P( B|R)*P( R)/P(A)*P(B)=P( AR)*P( BR)*P( R)/P(R)*P(R)*P(A)*P(B)= P(A|R)*P(B|R) / P(R)=0.72/P(R).好吧,實際還是缺一個P(R)的條件,如果你是頻率論的話-------------------------------------------------------------------------------------------------直觀的看起來好像有點問題,如果P(R)=1,那麼P( R|AB)=0.72。實際上P(R)是不能等於1的,否則P(B)=P(BR)=0.8P(B)=0;P(R)可以無限接近於1,那麼P( R|AB)略大於0.72感覺很不正常。怎麼我本身都靠近1了,兩個天氣預報也都超過0.8,你怎麼只得出0.72呢?事實上,這個情況下當下雨時預報下雨的概率反而會比預報不下雨的概率要小即
P(B|R)&其實這不過是換了個文字描述,預報說不下雨時下雨的可能性更大,預報說下雨時下雨的可能性更小。
所以當P(R)接近於1的時候,A,B預報說下雨其實是說明很可能不下雨,兩個預報都說很可能不下雨,那麼不下雨的可能性比這兩個單獨預測的可能性還大,所以才會得出接近0.72&<0.8&<0.9&<1的看似反常的結論設:
X事件:A站預報明天下雨Y事件:B站預報明天下雨R事件:明天下雨已知X,Y獨立。題目求P(R|X,Y)。由Bayes公式:P(R|X)= P(X,R)/ P(X)= P(X|R)P(R)/ P(X)同理:P(R|Y)= P(Y,R)/ P(Y)= P(X|R)P(R)/ P(Y)
得出:P(X|R)= P(R|X)P(X)/ P(R)= 0.9 P(X)/ P(R)P(Y|R)= P(R|Y)P(Y)/ P(R)= 0.8 P(Y)/ P(R)X,Y 是independent,所以:P(X,Y)= P(X)P(Y)P(X,Y|R)= P(X|R)P(Y|R)再次用Bayes公式:P(X,Y,R)= P(X,Y|R)P(R)= P(X|R)P(Y|R)P(R)
= P(R|X,Y)P(X,Y)所以最終:P(R|X,Y)= P(X|R)P(Y|R)P(R)/ P(X,Y)= 0.72/P(R)其他回答都不是完整且正確的,我的也是不完整的。
很多人都納悶,以為A站預測準確率0.9,B站準確率0.8,兩站都認為下雨,那準確率應該比較大。
其實你錯了,0.9和0.8並非準確率,換一個角度想想,如果那個地區本來就有99%的時間在下雨,但是偏偏A站預測要下雨的時候,下雨的概率就降到90%了,B站同理,你還會認為0.9和0.8是準確率了嗎?這種情況可以理解為A站和B站都在耍流氓。
準確率應該是什麼?準確率應該是:P(下雨且預測下雨)+P(不下雨且預測不下雨)。容易知道,下雨頻率高的話,總是預測下雨(從不預測不下雨)準確率也會很高,就像360殺毒說查殺率高,然而誤殺率也很高,並無卵用。所以準確率和誤報率放一起才有意義。
那如何用一個量來衡量預測的有意義程度?我認為應該用預測所帶來的信息量來衡量:預測前的信息熵 - 預測後的信息熵,信息熵的計算方法參考香農信息熵公式。
現實生活也很容易搞混這些概念,比如算命,算命大師常常能說出你曾經發生的事,其實是那件事發生的概率很大;比如醫院檢查準確率高就誤以為查出有病就很可能有病,真實情況應該是查出沒病就真的很可能沒病,查出有病就不能那麼肯定有病了。
回到這題答案應該是多少?根據 @Jon Lee 的回答,有P(R|AB) = 0.72/P(R) ,則P(R)必須不小於0.72,但是更準確的取值範圍應該是多少呢?有一種容易想到的特殊情況,如果A(或B)與R無關且B(或A)與R相關,也即P(R|A) = P(R) = 0.9 (或 P(R|B) = P(R) = 0.8),則P(R|AB) = 0.72/P(R) = 0.9(或0.8),其中容易知道A和B不能同時與R無關,因為P(R) 不能同時等於0.9和0.8。
如何理解這個結果?可以理解為A站和B站至少有一個是在胡扯,他預測的結果和真實結果完全無關,比如A站是通過拋硬幣預測下雨的話,下雨的頻率本來就是0.9,那他就有0.9的可能預測下雨的時候真的下雨了,但是預測不下雨的時候也是0.9的概率下雨,所以A說了跟沒說一樣;但是B呢,本來下雨頻率是0.9的,他說要下雨了,下雨概率就降低到0.8了,B喜歡說反話。反過來同理。所以結果就是下雨概率不是0.9就是0.8了。
正確結果至少包含0.8和0.9,但是更完整的答案應該是多少呢?
缺少條件,你不知道「明天」平均下雨的概率,或者說是從歷史氣象數據而言當地在該時期平均降水概率。題目是一個經典的離散bayesian估計的題目,但先驗概率無法確定,自然也不知道後驗證概率的數值。
王錚的答案應該是大家去關注的,如果看得懂的話。因為我本人是看不懂的學渣,所以我給一個容易理解的思路。
如果A氣象台歷史上預測下雨的準確性是100%,B氣象台也是100%,現在:
a、如果,兩個氣象台都預測明天下雨,明天下雨的概率是100%?未必吧?b、如果,兩個氣象台一個預測明天下雨,一個預測明天不下雨,下雨的概率是多少?50%?未必吧?按我外行的理解,過去的統計是推不出未來的概率的,所以一個預測也好,兩個預測也好,都無法得出結論吧?我想到一種簡單的方法。可以將此問題轉換成另外一種問題。
箱子中有十個沒有寫字的球,先隨機選9個球出來,寫上A,放回箱子。再隨機選8個球,寫上B(已經寫過A也沒關係),再放回去。問你現在再從箱子中隨機選一個球,上面寫了字的概率。
不知道我的想法對不對假如,題目給的0.8和0.9是基於過去1000天的預測給出的概率的話,那麼這題答案不就是,過去1000天,AB同時報下雨且第二天下雨了的天數除以AB同時報下雨的天數嗎。
這題應該是沒有實際意義,假設就是以之前1000天算出來的概率,那麼假設A就預測了最早十天下雨,其中九天下了,B預測是最後十天下雨,其中八天下了,那麼AB就沒有同時預測過下雨
條件直接寫A和B預測對的概率可能還行,具體到預報下雨且下雨的概率,反而意義不大直觀的感覺是明天下雨的概率要&>0.9,明天只有下雨和不下雨兩種情況,不參考任何條件,出現概率0.5. A給出下雨預測,則0.9可能性下雨,同時B給出下雨預測,可能性0.8&>非預測0.5,則加強了A結論正確的可能性。(但其實A和B的預測觀察條件可能是有重疊的,也就是B在對A的預測加強上事實上並不能起到加強0.8&>0.5的程度)。 可否換個角度,考慮明天不下雨的情況。 (1-0.9)*(1-0.8)=0.02, 所以明天下雨的可能性為0.98. 結果太不嚴謹了。
條件就這麼多嗎,如果給了全年下雨概率用貝葉斯公式很容易算出
0.7至0.8之間。以前是A站B站獨立預測,現在機構合併,AB站預測。合併後的錯誤分布在A錯誤完全包含於B錯誤和A錯誤與B錯誤不相交之間。易得,預測概率最大0.8,最小0.7。
假設A,B有歷史統計的天數共有110天,設當天預報下雨且實際下雨為1,當天預報下雨且實際未下雨為0,當天未預報下雨為X,則A,B氣象站的預報可簡化為下表:雖然假設A,B有歷史預報紀錄的天數共有110天,但A,B都有10天未預報,故在A,B各自有歷史預報統計的100天中的預報正確率和題目相符,那麼題主的問題即簡化為:A,B預報結果都為1以及都為0的情況中都為1的概率為多少?易得為8/9。
個人認為明天下雨的概率就是0.9,取大數。因為兩家天氣預報做預測,當一家的準確率高於了另一家,那麼第二家就不再具有參考意義。
推薦閱讀: