神奇的貝葉斯--通俗演繹過程
來自專欄 流統圈
認真讀完,你就能明白封面上謝耳朵寫的是啥了!
我先講個故事吧:
1968年6月海軍的天蠍號核潛艇在大西洋亞速海海域一下子失蹤了,潛艇和艇上的99名海軍官兵全部杳無音信……
事後調查殘骸發現,罪魁禍首竟是自己的魚雷擊中了自己,真是萌萌噠
Anyway,潛艇殘骸需要找出來!當時美國海軍有個首席科學家John Craven,他依據貝葉斯理論給出了一個搜尋方案。但是,美國大兵根本不care神馬貝葉斯,他們決定出動。結果搜尋了幾個月,空手而歸。不得不再次求助這位數學家!然後Craven默默的拿出了一張圖:
美國海軍懵逼了,這是啥?
Craven又默默的寫下了兩行公式
and
簡單來講:格子所在的海域是考慮到魚雷衝擊波,水流等因素後潛艇殘骸可能散落的區域,p和q分別代表殘骸散落到某個格子的概率以及在該格子內能夠被找出來的概率(不是說在某個格子就一定能被找出來,這和海域深度有關係)。
到這,也許你會想:這有啥神奇的,計算概率嘛,整個統計學說的不就是概率么!別著急,再看:分母1-pq是大於分子1-p的, 所以p<p, r>r. 也就是說每次搜尋完一個格子後,殘骸在這個格子里的概率p就比之前p下降了;而同時,殘骸在其它格子的概率就會上升。
所以,搜完一個格子後,全部區域都會重新洗牌,每次都會生成一個概率最大的格子,搜尋幾次後某個格子的概率會特別大,美軍只需要每次都駛向那個最大的,就能很快找到。
?
到這裡,如果已經蒙圈了,不要緊,慢慢來……慢慢就習慣了!統計歸根結底是數學,是要搞懂公式推導的,一個優秀的現代醫學統計學家應該是熱愛理論(一個方法吃一輩子不現實)+鑽研代碼(醫學研究在朝大批量數據發展,你除了要用軟體實現理論,更要提高效率)+醫學背景(不僅僅是和大夫溝通,更要理解變數的含義)
來吧,要正式開講了哦!
貝葉斯定理
貝葉斯定理關於隨機事件A和B的條件概率的一則定理(條件概率還記得不?P(A|B),讀作B的條件下A的概率)。
定義A1, A2, …, An為樣本空間Ω的一個劃分, 且P(Ai)>0 (i=1,2,…,n),則對於任何一事件 B ( P(B)>0), 我們有
該公式描述的是在觀察到事件B的條件下, 尋找導致B發生的每個原因的概率
貝葉斯定理--推導
為了滿足部分求知慾強的童鞋,曹老師帶你們來推一遍貝葉斯定理,不推倒怎麼能真正搞定呢!
開始前,我先提個問題,大家先思考:
2016年諾貝爾生理/醫學獎提名者272人,男女各半。男性60%在世,女性80%在世。若頒發給一名在世者,那麼是男的概率有多大?
前方高能,慎入:
維恩圖中,樣本空間由A和B構成,A和B有小部分交集。可以看出:在B出現的前提下,A出現的情況就是A交B的部分。故:(竟然是黑色背景,右側分子上A和B之間缺失的是交集符號)
不記得P(A|B)請回顧開頭
同理:A出現的前提下B出現的概率為對上述兩式稍作移項,分別得到
兩式左側相等,故
所以,B的條件下A的概率 = A的條件下B的概率 * A的概率 /B的概率。
到此,得出了大名鼎鼎的貝葉斯條件概率公式。
不妨總結一下,貝葉斯條件概率公式是幹嘛用的?明明給的是B,去求A,卻轉換成了根據給出A求B,成了逆過程!沒錯,貝葉斯一輩子最大的貢獻就是逆過程!
逆概率無處不在,所以貝葉斯現在應用非常廣泛:每天咱們都能收到郵件,但實際上95%的垃圾郵件都被過濾掉了,想想貝葉斯還是幫了我們很大忙哈!
還有輸入法的候選詞,谷歌無人駕駛汽車,……都是應用了貝葉斯原理
看來學好統計學真能吃飯!
那麼現在,你能回答之前提出的問題了嗎?
問題重複一遍:
2016年諾貝爾生理/醫學獎提名者272人,男女各半。男性60%在世,女性80%在世。若頒發給一名在世者,那麼是男的概率有多大?
問題用數學語言為:求解P(男|在世),即在世的前提下男性的概率,那麼根據貝葉斯條件概率公式,求解過程可以轉化為:
P(男)和P(在世)很好求
男女各半,所以P(男)=P(女)=0.5
男的在世+女的在世=在世,所以P(在世)=0.6*0.5+0.8*0.5=0.7
所以,P(男|在世)=0.6*0.5/0.7=0.428
大隅良典向你投來蔑視的一笑!
Anyway,總算是摳出來了!雖然你完全可以拿0.6/(0.6+0.8)=0.428吧,但這驗證了貝葉斯逆過程的正確性!更何況,很多時候你沒辦法直接算!
我們在回過頭來看下貝葉斯條件概率公式:如果我們稍作調整:
P(A|B)我們稱之為後驗概率,P(A)為先驗概率,而剩餘部分稱為調整因子。先驗概率和後驗概率分別代表引入一個事件前後你所觀察對象的概率。
貝葉斯定理--(2)
神馬,還有2?
Bingo,我們愉快的開啟完全概率公式的推導吧!
上圖是一個由A和A構成的樣本空間S,這時
觀察B的情況:
B由兩部分構成,和A相交部分+和A』相交部分,即:前麵條件概率推導過程中已知:
故改寫兩個交集部分,我們得到:
此即貝葉斯定理的全概率公式,反映:事件B的概率等於A和A的概率分別乘以B對這兩個事件的條件概率之和。
我們進一步推廣到A為多個屬性的情況:
比如一個人出現便血,它可能是痔瘡,可能是肛裂,可能是……所以我們需要推廣到A為多的情況。
相信大家還記得求和符號,繼續整理:
根據條件概率公式,我們知道
代入P(B),得到
就是開頭書上對貝葉斯定理的定義么!
推薦閱讀:
※洛伊克巴德,源自瑞士權威功能醫學檢測!
※Water Pump of Public Health
※阿嚏!又到漫天飛絮時,預防應對有妙招!
※What am I doing?預防醫學?