標籤:

2.4 一些常見的連續分布

2.4 一些常見的連續分布

來自專欄 機器學習 一種概率視角 學習筆記

2.4.1 高斯分布

高斯分布的概率密度函數為:

N(xmid mu,sigma^2)	riangleqfrac{1}{sqrt{2pisigma^2}}e^{-frac{1}{2sigma^2}(x-mu)^2}	ag{2.43}

均值為 mu=E[X] ,方差為 sigma^2=var[X] 。記 Xsim N(mu,sigma^2) 表示 p(X=x)=N(xmid mu,sigma^2) 。如果 Xsim N(0,1) 則稱 X 服從標準正態分布。高斯分布的精確度是方差的倒數, lambda=1/sigma^2 。由於是概率密度函數, p(x)gt1 是有可能的。累積分布函數為

phi(x;mu,sigma^2)	riangleq int^x_{-infty}N(zmid mu,sigma^2)dz	ag{2.44}

也可以用誤差函數來計算

phi(x;mu,sigma)=frac{1}{2}[1+erf(z/sqrt2)]	ag{2.45}

其中 z=(x-mu)/sigma

erf(x)	riangleqfrac{2}{sqrt{pi}}int^x_0e^{-t^2}dt	ag{2.46}

高斯是最常用的分布,有很多原因。第一,高斯的兩個參數很容易解釋,就是分布的均值和方差。第二,中心極限定理告訴我們,獨立隨機變數的和近似與高斯分布,使得它是建模殘差或雜訊的良好選擇。第三,高斯分布使用了最少的假設,具有最大熵,受指定的均值和方差的約束,使得它是許多情況下默認的良好選擇。最後,它具有簡單的數學形式,實施簡單,又很有效。

2.4.2 退化概率密度函數

極限情況下, sigma^2
ightarrow0 ,高斯分布在 mu 點變為無限高和無限窄的尖峰:

lim_{sigma^2
ightarrow0}N(xmid mu,sigma^2)=delta(x-mu)	ag{2.47}

其中 delta 稱為狄拉克函數,定義為:

delta(x)=egin{cases} infty& 	ext{if }x=0\ 0& 	ext{if }x
e0 end{cases}	ag{2.48}

int^infty_{-infty}delta(x)dx=1	ag{2.49}

狄拉克函數的一個有用屬性是篩選屬性,可以從加法或積分中選出單一項:

int^infty_{-infty}f(x)delta(x-mu)dx=f(mu)	ag{2.50}

因為被積函數僅在 x-mu=0 處非零。

高斯分布有個問題是,對異常點敏感,因為對數概率只會與中心的距離以二次形式衰減。更穩健的分布是學生 t 分布,概率密度函數為:

	au(xmid mu,sigma^2,upsilon)propto[1+frac{1}{upsilon}(frac{x-mu}{sigma})^2]^{-(frac{upsilon+1}{2})}	ag{2.51}

其中 mu 是均值, sigma^2gt0 是縮放係數, upsilongt0 稱為自由度。該分布具有以下屬性:

mean=mu,mode=mu,var=frac{upsilonsigma^2}{(upsilon-2)}	ag{2.52}

方差僅在 upsilongt2 有定義,均值僅在 upsilongt1 有定義。當 upsilon=1 時,該分布稱為柯西分布或洛倫茲分布。值得注意的是具有如此重的尾巴以致於均值的積分不會收斂。為了保證有限的方差,需要 upsilongt2upsilon=4 是常用的情況,有好的性能。 upsilongg5t 分布快速靠近高斯分布,並失去其穩健屬性。

2.4.3 拉普拉斯分布

另一種有重尾部的分布是拉普拉斯分布,或稱為雙邊指數分布。概率密度函數為:

Lap(xmid mu,b)	riangleqfrac{1}{2b}expleft(-frac{|x-mu|}{b}
ight)	ag{2.53}

其中 mu 是位置參數, bgt0 是縮放係數。這個分布有如下屬性:

mean=mu,mode=mu,var=2b^2	ag{2.54}

2.4.4 伽馬分布

伽馬分布是正實數 xgt0 的分布,由兩個參數定義,形狀 agt0 與比例 bgt0

Ga(Tmid shape=a,rate=b)	riangleqfrac{b^a}{Gamma(a)}T^{a-1}e^{-Tb}	ag{2.55}

其中 Gamma(a) 是伽馬函數:

Gamma(x)=int^infty_0u^{x-1}e^{-u}du	ag{2.56}

該分布有如下屬性:

mean=frac{a}{b},mode=frac{a-1}{b},var=frac{a}{b^2}	ag{2.57}

有一些分布是伽馬分布的特例:

指數分布。定義為 Expon(xmid lambda)	riangleq Ga(xmid 1,lambda) ,其中 lambda 是比例參數。該分布描述了泊松過程事件之間的時間,即事件以恆定平均比例 lambda 獨立地連續發生。

厄朗分布。當 a 是整數時與伽馬分布相同。通常取 a=2 ,得到單參數的厄朗分布, Erlang(xmid lambda)=Ga(xmid 2,lambda) ,其中 lambda 是比例參數。

開方分布。定義為 chi^2(xmid upsilon)	riangleq Ga(xmid frac{upsilon}{2},frac{1}{2}) 。這是高斯隨機變數平方和的分布。更精確的說,如果 Z_isim N(0,1) 並且 S=sum^upsilon_{i=1}Z_i^2 ,則 Ssimchi^2_upsilon

其他的有用結論:如果 Xsim Ga(a,b) ,則 frac{1}{X}sim IG(a,b) ,其中 IG 是反伽馬分布,定義為:

IG(xmid shape=a,scale=b)	riangleqfrac{b^a}{Gamma(a)}x^{-(a+1)}e^{-b/x}	ag{2.58}

該分布有如下性質:

mean=frac{b}{a-1},mode=frac{b}{a+1},var=frac{b^2}{(a-1)^2(a-2)}	ag{2.59}

agt1 時均值才存在,當 agt2 時方差才存在。

2.4.5 貝塔分布

貝塔分布支持區間 [0,1] ,定義如下:

Beta(xmid a,b)=frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}	ag{2.60}

其中 B(p,q) 是貝塔函數:

B(a,b)	riangleqfrac{Gamma(a)Gamma(b)}{Gamma(a+b)}	ag{2.61}

需要 a,bgt0 來保證分布是可積的,也就是貝塔函數存在。如果 a=b=1 則得到均勻分布。如果 ab 都小於1,則得到雙峰分布,尖峰在 01 。如果 ab 都大於1,則是分布是單峰的。該分布有以下屬性:

mean=frac{a}{a+b},mode=frac{a-1}{a+b-2},var=frac{ab}{(a+b)^2(a+b+1)}	ag{2.62}

2.4.6 帕累托分布

帕累托分布用於建模展現出長尾的量的分布。概率密度函數為:

Pareto(xmid k,m)=km^kx^{-(k+1)}I(xge m)	ag{2.63}

該密度函數斷言 x 必須大於某個常數 m ,但又不能太大, k 控制太大是多大。當 k
ightarrowinfty 時,分布接近 delta(x-m) 。該分布有如下屬性:

mean=frac{km}{k-1}	ext{if }kgt1,mode=m,var=frac{m^2k}{(k-1)^2(k-2)}	ext{if }kgt2	ag{2.64}


推薦閱讀:

機器學習入門筆記2
快去註冊!吳恩達新書《機器學習思維》免費預定開啟
Facebook如何利用機器演算法人工智慧教計算機閱讀
使用tensorflow構建卷積神經網路(CNN)
深度學習實踐 & 關鍵點定位演算法介紹(1)

TAG:機器學習 |