多維高斯分布是如何由一維發展而來的?

最近在看PRML,看到第二章概率模型時對於從一維高斯分布到二維高斯分布的推導真心看不懂啊,不理解啊,求大神給個詳細的解釋和推導


首先一維標準正態分布你懂吧?

p(x) = frac{1}{sqrt{2pi}} exp left( -frac{x^2}{2} 
ight)

二維標準正態分布,就是兩個獨立的一維標準正態分布隨機變數的聯合分布:

p(x,y) = p(x)p(y) = frac{1}{2pi} exp left( -frac{x^2+y^2}{2} 
ight)

把兩個隨機變數組合成一個隨機向量:mathbf{v} = [x,,,y]^T

則有p(mathbf{v}) = frac{1}{2pi} exp left( -frac{1}{2}mathbf{v}^Tmathbf{v} 
ight)

然後從標準正態分布推廣到一般正態分布,辦法是通過一個線性變換:mathbf{v} = A(mathbf{x}-mu)

p(mathbf{x}) = frac{|A|}{2pi} exp left[ -frac{1}{2} (mathbf{x} - mu) ^T A^TA (mathbf{x} - mu) 
ight]

注意前面的係數多了一個|A|(A的行列式)。

可以證明這個分布的均值為mu,協方差為(A^TA)^{-1}。記Sigma = (A^TA)^{-1},那就有

p(mathbf{x}) = frac{1}{2pi|Sigma|^{1/2}} exp left[ -frac{1}{2} (mathbf{x} - mu) ^T Sigma^{-1} (mathbf{x} - mu) 
ight]

高維情形同理。


前面的王同學 @王贇 Maigo 很贊,受他的啟發我寫重寫了下:

標準的一元高斯分布概率密度函數是:

f(x_1)=frac{1}{sqrt{2pi}}e^{frac{-x_1^2}{2}}

如果有另外一個隨機變數x_2,它和x_1是相互獨立的,那麼,它們的聯合概率密度函數是:

egin{split}
g(x_1, x_2) = f(x1)f(x_2)\
            = frac{1}{sqrt{2pi}}frac{1}{sqrt{2pi}}e^{frac{-(x_1^2+x_2^2)}{2}}
end{split}

那麼,如果用x_1x_2組成一個隨機向量,形如:

m x = left(
egin{array}{c}
x_1\
x_2
end{array}

ight)

那麼,m x的密度函數就是:

egin{split}
g(m x) = 
    frac{1}{(2pi)^{frac{2}{2}}}e^{-frac{x_1^2+x_2^2}{2}}\
    =frac{1}{(2pi)^{frac{2}{2}}}e^{-frac{m x ^Tm x}{2}}
end{split}

為了讓形式更一般化,設:

m y = frac{A(m x - u)}{sigma}

概率密度函數關係里可知(這一步是是可以證明的,但比較長,也許以後再貼,也許...):

g(m y) = frac{|A|}{sigma}g(frac{A(m x - u)}{sigma})

所以,m y的概率密度函數是:

egin{split}
g(m y) = frac{|A|}{(2pi)^{frac{2}{2}}sigma }e^{-frac{(m x - u)^TA^TA(m x - u)}{2sigma ^2}}
end{split}

令:

Sigma=frac{sigma ^2}{A^TA}

如果兩側取行列式,則:

|Sigma|=frac{sigma ^2}{|A^TA|}=frac{sigma ^2}{|A^T||A|}=frac{sigma ^2}{|A||A|}

所以:

egin{split}
g(m y) = frac{|A|}{(2pi)^{frac{2}{2}}sigma }e^{-frac{(m x - u)^TA^TA(m x - u)}{2sigma ^2}}\
    = frac{1}{(2pi)^{frac{2}{2}}|Sigma|^{frac{1}{2}}}e^{-frac{1}{2}(m x - u)^TSigma ^{-1}(m x - u)}
end{split}

如果m xm yd維隨機變數,那麼上式就變成:

g(m y) = frac{1}{(2pi)^{frac{d}{2}}|Sigma|^{frac{1}{2}}}e^{-frac{1}{2}(m x - u)^TSigma ^{-1}(m x - u)}


根據上述大神 @石蘇 @王贇 Maigo 思路,寫完整版如下,歡迎批評指正


也是在看花書的時候碰到的,受 @王贇 Maigo 和 @石蘇 啟發,又和組裡一起實習的小哥們討論了一會,終於搞明白了多維高斯分布的由來,下面這些就當作是對兩位回答的補充吧。

看其中一個特例,也即二維標準正態分布, xy 分別獨立同 N(0,1)

此時用聯合概率密度函數 p(x,y)=p(x)p(y) ,容易推出二維的公式。

由此特例向 p 維高斯分布拓展時,

p 維隨機向量 X=(X_{1},X_{2},...,X_{p})

其中 X_{1},X_{2},...,X_{p} 並不一定相互獨立(但一定不存在線性變換)。

由於協方差矩陣 Sigma>0rank(Sigma)=p

則存在 p 階非奇異方陣 A

使得 X=AU+mu

其中 U=(U_{1},U_{2},...,U_{p})

U_{1},U_{2},...,U_{p} 相互獨立同 N(0,1)

接下來的事情就是套用聯合概率密度函數了。

上面的邏輯中,讓我最頭疼的一塊是,多維高斯分布里 X_{1},X_{2},...,X_{p} 並不一定相互獨立,但由不能有線性關係,否則 rank(Sigma)<P> ,導致多維高斯分布公式里的 <img src= (當然多維高斯分布本來就排除了這種情形)。

想了半天,到底是什麼非線性變換 f ,使得下面三個式子同時成立:

X_{1} sim N(0,1)

X_{2} =f(X_{1})

X_{2} sim N(0,1)

後來幾位小哥點撥,構造一個枚舉的  f ,就暴力地滿足上麵條件了。


請問 他的協方差和 均值是怎麼推導出來的


推薦閱讀:

我想做一個基於神經網路的數字識別程序,請問我應該看哪些書?
知識圖譜怎樣入門?
為什麼梯度下降法每次找到的都是下降最快的點?
如何評價 Coursera 的機器學習 (Andrew Ng) 課程?
如何評價Deep and Hierarchical Implicit Models?

TAG:數學 | 計算機 | 機器學習 |