2.4 一些常見的連續分布
來自專欄 機器學習 一種概率視角 學習筆記
2.4.1 高斯分布
高斯分布的概率密度函數為:
均值為 ,方差為 。記 表示 。如果 則稱 服從標準正態分布。高斯分布的精確度是方差的倒數, 。由於是概率密度函數, 是有可能的。累積分布函數為
也可以用誤差函數來計算
其中 及
高斯是最常用的分布,有很多原因。第一,高斯的兩個參數很容易解釋,就是分布的均值和方差。第二,中心極限定理告訴我們,獨立隨機變數的和近似與高斯分布,使得它是建模殘差或雜訊的良好選擇。第三,高斯分布使用了最少的假設,具有最大熵,受指定的均值和方差的約束,使得它是許多情況下默認的良好選擇。最後,它具有簡單的數學形式,實施簡單,又很有效。
2.4.2 退化概率密度函數
極限情況下, ,高斯分布在 點變為無限高和無限窄的尖峰:
其中 稱為狄拉克函數,定義為:
則
狄拉克函數的一個有用屬性是篩選屬性,可以從加法或積分中選出單一項:
因為被積函數僅在 處非零。
高斯分布有個問題是,對異常點敏感,因為對數概率只會與中心的距離以二次形式衰減。更穩健的分布是學生 分布,概率密度函數為:
其中 是均值, 是縮放係數, 稱為自由度。該分布具有以下屬性:
方差僅在 有定義,均值僅在 有定義。當 時,該分布稱為柯西分布或洛倫茲分布。值得注意的是具有如此重的尾巴以致於均值的積分不會收斂。為了保證有限的方差,需要 。 是常用的情況,有好的性能。 時 分布快速靠近高斯分布,並失去其穩健屬性。
2.4.3 拉普拉斯分布
另一種有重尾部的分布是拉普拉斯分布,或稱為雙邊指數分布。概率密度函數為:
其中 是位置參數, 是縮放係數。這個分布有如下屬性:
2.4.4 伽馬分布
伽馬分布是正實數 的分布,由兩個參數定義,形狀 與比例 :
其中 是伽馬函數:
該分布有如下屬性:
有一些分布是伽馬分布的特例:
指數分布。定義為 ,其中 是比例參數。該分布描述了泊松過程事件之間的時間,即事件以恆定平均比例 獨立地連續發生。
厄朗分布。當 是整數時與伽馬分布相同。通常取 ,得到單參數的厄朗分布, ,其中 是比例參數。
開方分布。定義為 。這是高斯隨機變數平方和的分布。更精確的說,如果 並且 ,則 。
其他的有用結論:如果 ,則 ,其中 是反伽馬分布,定義為:
該分布有如下性質:
當 時均值才存在,當 時方差才存在。
2.4.5 貝塔分布
貝塔分布支持區間 ,定義如下:
其中 是貝塔函數:
需要 來保證分布是可積的,也就是貝塔函數存在。如果 則得到均勻分布。如果 與 都小於1,則得到雙峰分布,尖峰在 和 。如果 與 都大於1,則是分布是單峰的。該分布有以下屬性:
2.4.6 帕累托分布
帕累托分布用於建模展現出長尾的量的分布。概率密度函數為:
該密度函數斷言 必須大於某個常數 ,但又不能太大, 控制太大是多大。當 時,分布接近 。該分布有如下屬性:
推薦閱讀:
※機器學習入門筆記2
※快去註冊!吳恩達新書《機器學習思維》免費預定開啟
※Facebook如何利用機器演算法人工智慧教計算機閱讀
※使用tensorflow構建卷積神經網路(CNN)
※深度學習實踐 & 關鍵點定位演算法介紹(1)
TAG:機器學習 |