標籤:

2.5 聯合概率分布

2.5.1 協方差與相關性

兩個實數 XY 的協方差度量了相關性的程度。協方差定義為: cov[X,Y]	riangleq E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]	ag{2.65}

如果 mathrm x 是一個 d 維隨機向量,則其協方差矩陣被定義為如下對稱正定矩陣: egin{align} cov[mathrm x] & 	riangleq Eleft[(mathrm x-E[mathrm x])(mathrm x-E[mathrm x])^T
ight]	ag{2.66} \ &=egin{pmatrix} var[X_1]&cov[X_1,X_2]&dots&cov[X_1,X_d]\ cov[X_2,X_1]&var[X_2] &dots&cov[X_2,X_d]\ vdots&vdots&ddots&vdots\ cov[X_d,X_1]&cov[X_d,X_2]&dots&var[X_d] end{pmatrix}	ag{2.67} end{align}

協方差範圍是零到無窮,可以使用標準化度量來變得有上界。相關係數定義如下: corr[X,Y]	riangleqfrac{cov[X,Y]}{sqrt{var[X]var{Y}}}	ag{2.68}

相關矩陣有這種形式: R=egin{pmatrix} corr[X_1,X_1]&corr[X_1,X_2]&dots&corr[X_1,X_d]\ vdots&vdots&ddots&vdots\ corr[X_d,X_1]&corr[X_d,X_2]&dots&corr[X_d,X_d] end{pmatrix}	ag{2.69}

-1le corr[X,Y] le1 ,對角線每個元素都是1。如果 Y=aX+bcorr[X,Y]=1 。相關係數與回歸線的斜率有關。回歸係數由 a=cov[X,Y]/var[X] 給出。如果 XY 獨立,意味著 p(X,Y)=p(X)p(Y) ,則 cov[X,Y]=0 ,因此 corr[X,Y]=0 ,所以它們是不相關的。反過來卻不是,不相關不代表獨立。例如,若 Xsim U(-1,1) 並且 Y=X^2 。很明顯 YX 是相關的, YX 唯一確定,但可以看到 corr[X,Y]=0

2.5.2 多元高斯分布

多變數正態分布是連續變數中應用最廣泛的聯合概率密度函數。 D 維多變數正態分布定義為: N(mathrm xmid mu,Sigma)	riangleqfrac{1}{(2pi)^{D/2}|Sigma|^{1/2}}expleft[-frac{1}{2}(mathrm x-mu)^TSigma^{-1}(mathrm x-mu)
ight]	ag{2.70}

其中 mu=E[mathrm x]in R^D 是均值向量, Sigma=cov[mathrm x]D	imes D 協方差矩陣。有時會用京都矩陣或濃度矩陣代替。這只是協方差矩陣的逆矩陣, Lambda=Sigma^{-1} 。歸一化常數 (2pi)^{-D/2}|Lambda|^{1/2} 只是為了保誠概率密度函數積分為1。

2.5.3 多元學生 t 分布

多元 t 分布的概率密度函數為: egin{align}	au(mathrm x mid mu,Sigma,upsilon)&=frac{Gamma(upsilon/2+D/2)}{Gamma(upsilon/2)}frac{|Sigma|^{-1/2}}{upsilon^{D/2}pi^{D/2}}	imesleft[1+frac{1}{upsilon}(mathrm x-mu)^TSigma^{-1}(mathrm x-mu)
ight]^{-(frac{upsilon+D}{2})}	ag{2.71}\ &=frac{Gamma(upsilon/2+D/2)}{Gamma(upsilon/2)}|pi V|^{-1/2}	imesleft[1+(mathrm x-mu)^TV^{-1}(mathrm x -mu)
ight]^{-(frac{upsilon+D}{2})}	ag{2.72} end{align}

其中 Sigma 稱為尺度矩陣,因為它不完全是協方差矩陣, V=upsilonSigma ,這比高斯分布有更胖的尾巴。 upsilon 越小尾巴越胖,當 upsilon
ightarrowinfty ,該分布趨近於高斯分布。該分布有如下屬性: mean=mu,mode=mu,cov=frac{upsilon}{upsilon-2}Sigma	ag{2.73}

2.5.4 狄利克雷分布

貝塔分布的多變數泛化是狄利克雷分布,它支持概率單純形,定義為: S_K={mathrm x:0le x_kle 1,sum^K_{k=1}x_k=1}	ag{2.74}

概率密度函數為: Dir(mathrm xmidalpha)	riangleqfrac{1}{B(alpha)}prod^K_{k=1}x^{alpha_k-1}_kI(mathrm xin S_K)	ag{2.75}

其中 B(alpha_1,ldots,alpha_K) 是貝塔函數對 K 變數的自然概括: B(alpha)	riangleqfrac{prod^K_{k=1}Gamma(alpha_k)}{Gamma(alpha_0)}	ag{2.76}

其中 a_0	riangleqsum^K_{k=1}alpha_k 。該分布具有如下屬性: E[x_k]=frac{alpha_k}{alpha_0},mode[x_k]=frac{alpha_k-1}{alpha_0-K},var[x_k]=frac{alpha_k(alpha_0-alpha_k)}{alpha^2_0(alpha_0+1)}	ag{2.77}

其中 alpha_0=sum_kalpha_k 。通常使用對稱狄利克雷先驗 alpha_k=alpha/K ,這種情況下,均值為 1/K ,方差為 var[x_k]=frac{K-1}{K^2(alpha+1)} 。所以增加 alpha 可以增加精度,減少方差。

推薦閱讀:

【精品】12條核心知識帶你了解機器學習
機器學習入門精講,這些知識點不可錯過
【用Sklearn進行機器學習】第一篇 - 介紹Scikit-Learn
Capsule network--《Dynamic Routing Between Capsules》

TAG:機器學習 |