2.2 概率論簡要回顧
2.2.1 離散隨機變數
可以定義離散隨機變數 來擴展二元事件的概念,它能在有限或可數無窮集合 中取任何值。用 或 表示事件 的概率。 稱為概率質量函數,滿足 及 。
2.2.2 基本規則
兩個事件的結合概率:
聯合概率:
邊緣分布:
鏈式規則:
其中類似於matlab符號的 表示集合 。
給定事件 為真,事件 的條件概率:
貝葉斯規則:
假設你做乳腺癌檢查,並被告知測試為陽性,儀器敏度為0.8,那麼:
人群患病概率為:
儀器假正概率為:
使用貝葉斯規則組合這三項,可以計算出患病概率為:
也就是說,即便測試為陽性,你也只有 概率患癌症。
可以泛化癌症診斷的例子到分類任意類型的特徵向量 :
這被稱為生成分類器。也可以直接擬合類別後驗, ,這被稱為判別分類器。
2.2.4 獨立與條件獨立
如果能表示聯合分布為兩個邊緣分布的乘積,則稱 與 為無條件獨立或邊緣獨立,標記為 。
如果條件聯合分布能被寫為條件邊緣分布的乘積,則稱 與 是條件獨立的。
定理2.2.1. 對於所有的 使得 ,如果存在函數 和 滿足:
則 。
2.2.5 連續隨機變數
設 是不確定的連續量, 在 間的概率可以如下這麼計算。定義事件 , 及 。我們有 ,因此 與 是互斥的,由加法規得:
因此:
定義函數 ,稱其為 的累積分布函數。用這個符號可得:
定義 ,稱其為概率密度函數。由概率密度函數可計算概率:
縮小積分範圍可得:
是可能的,例如,考慮均勻分布 :
如果設置 及 ,可得 當 。
2.2.6 分位數
由於F是單調遞增函數,所以它有反函數, 是 的值,滿足 ,這稱為 的 分位。如果 ,則中心 概率區域被
範圍覆蓋。如果分布是 ,則 間隔變為 。有時這被近似寫為 。
2.2.7 均值與方差
均值也被稱為期望值,寫作 。對於離散值, 。對於連續值, 。如果積分不是有限的,則均值沒有定義。方差寫作 。定義為:
從而得到有用的結果:
標準差定義為:
推薦閱讀:
※《機器學習實戰》學習總結(十一)——隱馬爾可夫模型(HMM)
※《信用風險評分卡研究》中最大似然估計分析表的解讀
※薦書 | 機器學習、深度學習演算法及其Python實現
※台大林軒田機器學習課第二十講筆記:軟間隔支持向量機
TAG:機器學習 |