標籤:

2.6 隨機變數的變換

2.6 隨機變數的變換

來自專欄 機器學習 一種概率視角 學習筆記

2.6.1 線性變換

如果 f() 是線性函數:

mathrm y=f(mathrm x)=Amathrm x+mathrm b 	ag{2.78}

mathrm y 的均值為:

E[mathrm y]=E[Amathrm x+mathrm b]=Amu+mathrm b 	ag{2.79}

其中 mu=E[mathrm x] 。如果 f() 是標量函數 f(mathrm x)=mathrm a^Tmathrm x+b ,則相應的結果為:

E[mathrm a^Tmathrm x+b]=mathrm a^Tmu+b	ag{2.80}

方差為:

cov[mathrm y]=cov[Amathrm x+b]=ASigma A^T	ag{2.81}

其中 Sigma=cov[mathrm x] 。如果 f() 為標量值函數,則結果為:

var[y]=var[mathrm a^Tmathrm x+b]=mathrm a^TSigma a	ag{2.82}

2.6.2 一般變換

如果 X 是離散實值則可以通過相加所有的概率質量導出概率質量函數使得 f(x)=y

p_y(y)=sum_{x:f(x)=y}p_x(x)	ag{2.83}

如果 X 是連續值,則使用累積分布函數:

P_y(y)	riangleq P(Yle y)=P(f(X)le y)=P(Xin(f(x)le y))	ag{2.84}

概率密度函數可以通過累積分布函數求導得到。當單調,因此可逆時,可得:

P_y(y)=P(f(X)le y)=P(Xle f^{-1}(y))=P_x(f^{-1}(y))	ag{2.85}

求導可得:

p_y(y)	riangleqfrac{d}{dy}P_y(y)=frac{d}{dy}P_x(f^{-1}(y))=frac{dx}{dy}frac{d}{dx}P_x(x)=frac{dx}{dy}p_x(x)	ag{2.86}

其中 x=f^{-1}(y) 。由於符號並不重要,因此可得一般表達式:

p_y(y)=p_x(x)|frac{dx}{dy}|	ag{2.87}

可將上述結果拓展為多變數分布。令 fR^nR^n 的映射, mathrm y=f(mathrm x) 。則雅可比矩陣 J 為:

J_{mathrm x
ightarrowmathrm y}	riangleqfrac{partial(y_1,ldots,y_n)}{partial(x_1,ldots,x_n)}	riangleq egin{pmatrix} frac{partial y_1}{partial x_1} &dots&frac{partial y_1}{partial x_n}\ vdots&ddots&vdots\ frac{partial y_n}{partial x_1}&dots&frac{partial y_n}{partial x_n} end{pmatrix}	ag{2.88}

|det J| 度量了單位立方體在應用 f 時的體積變化量。如果 f 是一個可逆映射,可以使用反映射 mathrm y
ightarrowmathrm x 的雅可比矩陣定義變換變數的概率密度函數:

p_y(mathrm y)=p_x(mathrm x)|detleft(frac{partial mathrm x}{partialmathrm y}
ight)|=p_x(mathrm x)| det J_{mathrm y
ightarrowmathrm x}|	ag{2.89}

例如,考慮從笛卡爾坐標系 mathrm x=(x_1,x_2) 轉換概率密度到極坐標系 mathrm y=(r,	heta) ,其中 x_1=rcos	hetax_2=rsin	heta 。則:

J_{mathrm y 
ightarrowmathrm x}=egin{pmatrix} frac{partial x_1}{partial r} &frac{partial x_1}{partial 	heta}\ frac{partial x_2}{partial r}&frac{partial x_2}{partial 	heta} end{pmatrix}=egin{pmatrix} cos	heta &-rsin	heta\ sin	heta&rcos	heta end{pmatrix}	ag{2.90}

|det J|=|rcos^2	heta+rsin^2	heta|=|r|	ag{2.91}

因此

p_{mathrm y}(mathrm y)=p_{mathrm x}(mathrm x)|det J|	ag{2.92}

p_{r,	heta}(r,	heta)=p_{x_1,x_2}(x_1,x_2)r=p_{x_1,x_2}(rcos	heta,rsin	heta)r	ag{2.93}

P(rle Rle r+dr,	heta le Thetale 	heta+d	heta)=p_{r,	heta}(r,	heta)drd	heta 	ag{2.94}

p_{r,	heta}(r,	heta)drd	heta=p_{x_1,x_2}(rcos	heta,rsin	heta)rdrd	heta	ag{2.95}

2.6.3 中心極限定理

考慮 N 個概率密度函數為 p(x_i) 的隨機變數,均值為 mu 方差為 sigma^2 ,每個變數獨立同分布。令 S_N=sum^N_{i=1}X_i 為變數之和。隨著 N 增加,這個和的分布趨近於

p(S_N=s)=frac{1}{sqrt{2pi Nsigma^2}}expleft(-frac{(s-Nmu)^2}{2Nsigma^2}
ight)	ag{2.96}

因此數量的分布:

Z_N	riangleqfrac{S_N-Nmu}{sigma sqrt N}=frac{ar{X}-mu}{sigma/sqrt N}	ag{2.97}

收斂於標準正態分布,其中 ar X=frac{1}{N}sum^N_{i=1}x_i 是樣本均值。這稱為中心極限定理。


推薦閱讀:

AI行業動態|2018第十五周(04.08-04.13)|自主武器、Facebook聽證會、無人銀行、商湯6億……
CS259D:數據挖掘與網路安全講義筆記
聚類演算法——K-Means
邁克爾 · 喬丹:我討厭將機器學習稱為AI
CS231N 課程筆記合集

TAG:機器學習 |