預測未來的魔法--概率論
來自專欄數據分析師之路6 人贊了文章
概率學是什麼?
是一項研究不確定事件和結果的學科。
有什麼應用?
通過統計學算出某件事發生的佔比,以此推斷未發生事件的概率。比如根據歷史天氣數據來推測明天下雨的概率。比如根據股票收益記錄來推測未來漲跌幅。等等等等。
怎麼使用?
1.首先我們來看幾個基本的定義:
以擲骰子為例,擲幾點給多少錢,那麼:
期望:所有不同結果的和,概率*收益(3.5美元)
樣本空間:實驗的所有可能結果{1,2,3,4,5,6}
樣本點:任何一個特定的實驗結果{1}
計數規則:定義我們要統計的情況{兩次都為1的情況}
2.二項分布(n重伯努利試驗)
二項分布說的是一個實驗只要滿足了:實驗次數是固定的,實驗各自獨立,而且每一次實驗都有兩個可能的結果,結果的概率都為50%。那麼我們就可以稱這個實驗滿足二項分布。
eg.在生活中的應用則是解決有機遇性質的問題,比如你設計的試卷有10道題,都是選擇題,怎麼才能確定這個試卷的答題者不是在亂猜呢?
用二項分布來計算:
也就是說如果試卷答對8道以上的題的概率為5%,那麼我們就可以認為這個試卷是認真完成的有效試卷了。
3.貝葉斯定理:
兩個獨立事件發生的概率為P(A)*P(B)
兩個相關事件發生的概率為P(A|B)=
貝葉斯定理是一個後驗概率,怎麼說呢?其實就是我們先預測一個事件A發生的概率為P(A),本來這樣下去我們可以得到結果:事件A發生的概率為P(A),但是現在突然冒出來另一件事:事件B發生了,而且我們知道A和B是有聯繫的。那麼為了最後的結果準確,我們就可以根據時間B來修正事件A的概率,具體表現為
P(新A)=P(B)*P(在B發生情況下A發生的概率)
4.獨立事件和互斥事件
互斥事件絕對不是獨立事件哦,因為互斥事件是當一件事發生之後我們可以判斷另一件事發生的概率為0,這樣二者關係就很明確了,不過是互相影響的有些特殊罷了。
5、樹形圖
實話說,有時候自己思維是一團亂麻的時候,怎麼辦?祭出概率學的大寶劍:樹形圖
樹形圖是下面這樣的,每個節點代表一件事,根節點代表概率(黑色的點)
樹形圖可以很好的幫我們理清邏輯,在事件A發生的情況下事件B發生的概率該怎麼求?
用階乘來求:階乘是!表示的一種運算方法
eg、5!=5*4*3*2*1=120
從N個物體中任意取出n個的實驗結果數目為:
6、隨機試驗
隨機試驗遵循兩條鐵律:每一種實驗結果必然大於0小於1;所有實驗結果概率之和必為1
隨機試驗還有一個很有名的定律:
麥都定律(嬰兒致死案翻案)說的是如果某件事情發生的概率本就不高,那麼在一個家庭中兩次甚至多次發生那就不可能是巧合。(前提一定要保證事件完全隨機,互相沒有聯繫)
7、大數定律與概率密度
大數定律是說:當數據總體不斷增大時,概率會收斂在期望附近。(拋硬幣)
概率密度則是我們統計的概率總體的數量是怎樣的,10人與100人與1000人的概率是否相同(啤酒)
8、「不科學」的感覺
玩籃球有手感了?輸了那麼多把這次該逆風翻盤了?股票都跌4天了,今天該漲了吧~這件事情發生的概率只有1%所以基本不可能發生。
以上都是日常生活中的錯覺,認為相對獨立的事件之間有關係。其實每一次投球、每一次賭博、每一次開盤都是相對獨立的事件,與之前的變化並無關係。
還有對於概率很小的事情一定要重視,「尾部風險」指的就是這種因為忽略小概率事件而帶來巨大損失的專有名詞(當年金融危機就是因為基金經理們都認為VaR模型尾部的1%不會發生)
9、常常出現的錯誤
想當然的認為事情之間不存在聯繫:如果我們出門帶兩把傘,今天會淋雨么?(第一把傘壞掉總不至於第二把也壞掉吧,所以淋雨的概率大大降低!)你是這麼想的么?如果是這樣想的那麼就中了我剛說過的圈套,設想:第一把傘壞掉與第二把傘壞掉之間沒有關係么,二者相互獨立?如果是因為狂風把傘吹壞了呢?吹壞一把傘和吹壞兩把傘是不是分分鐘的事。
對於統計證據的背景完全忽視,比如檢方謬誤:一個罪犯被抓到,DNA與現場吻合。而DNA與其他人吻合的概率為百萬分之一,那這個人是不是兇手。(如果這個人是死者的女友,或者這個人來自完全不同的國家,生前也沒有理由與死者相遇)
為什麼有一種感覺,哪個球隊簽下最貴的球星,那基本上接下來的比賽就會輸?回歸平均數就告訴了你這個魔咒是怎麼回事,其實只是球星發揮回到正常值罷了,所有球星在超常發揮之後都會有一段時間回到平均值的狀態,而媒體對於超常發揮大肆宣揚,給大家造成一種錯覺:這個球星很強,那麼接下來正常發揮就略有些失望了。只是球隊花大價錢買到的是明星球星的尾端而已啦。
當然明星CEO的情況除外,有研究表明媒體主導的超級明星文化對於CEO會產生行為扭曲,扭曲的程度甚至超過了平均值:比如他們會開始著手寫回憶錄,接受訪談,甚至沉迷電視上虛幻的曝光從而冷落了事業,導致明星光環瓦解。
對於統計性歧視:用***頭像的都是渣男,黑人都不會游泳,各種地域黑,都是統計性歧視的經典表現
推薦閱讀:
※凱利公式--給天台上徘徊的同學寫一篇科普文
※當神經網路撞上薛定諤:混合密度網路入門
※[概率]正態分布的基本性質
※可靠性筆記(一) | 故障分布函數
※Random遊戲的期望次數分析