正態分布隨機變數的和還是正態分布嗎？

12-14

怎麼可能呢？？用腦子想一想也知道呀....

加起來就變成第三幅圖啦……除非均值對齊？

update:
就是紅色裡面說的....o(&>﹏&<)o

update:
這是我的新理解哈...不知道對不對額...

1. 令 $X$ 和 $Y$ 為兩個獨立的一維正態r.v.s，那麼 $X+Y$ 確實仍然是正態分布。

2. $X+Y$ 的pdf不是 $0.5p_X(cdot)+0.5p_Y(cdot)$ ——後者是「 $X$ 和 $Y$ 等概率的mixture」的pdf，即 $pi X + (1-pi) Y$ 的pdf，其中 $pi$ 是一個與 $(X, Y)$ 獨立的Bernoulli r.v.，參數為0.5。這裡不要犯「pdf直接求和」的低級錯誤，起碼一個合法的pdf必須積分為1.

3. 再次澄清一下一個(不可思議地常見的)錯誤：「根據中心極限定理，樣本量足夠大時樣本分布趨於正態」。中心極限定理說的是，一定條件下樣本均值的分布趨於正態，絕不是樣本分布趨於正態。這著實令我懷疑國內很多大學教概率論課根本就沒強調這一點。

參考：Mixture distribution

呃，排名前幾位都沒說到關鍵啊，X+Y 還是正態，要求這X 和Y 必須是jointly normal 的。兩個相互獨立的正態是這種情況的一個特例。

比如，X, Y 是jointly normal 的，則， X+Y ~ N( EX+EY, var(X) + var(Y) + 2cov(X,Y)) 。如果X,Y independent, 則cov(X,Y)=0。

一個常見的，非jointly normal 的兩個正態隨機變數加起來不是正態的。
X ~ N(EX, var(X) ), 是一個正態隨機變數。
令 Y= m * X. 其中，m 有1/2 概率為1，1/2 概率為-1，m 獨立於X.
可以證明， Y 的分布也是正態的。
但是X+Y = (1+m) *X 不是正態分布，因為其會在 0 點有一個概率為1/2 的聚集。

應該是計算卷積，而不是直接做和

不知道被誰邀請來回答這個問題……我也是嚇哭了……前面的幾位基本都已經說的很清楚了……我還是覺得自己讀書的時候要多獨立思考……

給定兩個獨立正態分布 $X_1sim N(mu_1, sigma_1^2)$ $X_2sim N(mu_2, sigma_2^2)$ 其概率密度函數分別為 $f_1,f_2$

設隨機變數

$Z = X_1 + X_2$

Z的概率概率密度函數 $f_Z(z)$ 是什麼呢？

題主的第一反應應該是 $f_Z(z) = f_1(z) + f_2(z)$ ，這裡就出錯了

舉個例子，當 $Z=1$ 時，可以是 $X_1=0,X_2=1$ ，也可以是 $X_1=1,X_2=0$ 總之 $X_1 + X_2 = Z$

所以，隨機變數 $Z$ 的概率密度函數其實是

$f_Z(z) = int_{-infty}^{+infty} f_1(x) f_2(z-x)dx$

這個就是上面各位答主說的卷積形式

然後可以繼續證明 $f_Z$ 是正態分布形式，證明可以參考 Sum of normally distributed random variables，這裡引用如下

$egin{align} f_Z(z) = int_{-infty}^infty frac{1}{sqrt{2pi}sigma_Y} exp left[-{(z-x-mu_Y)^2 over 2sigma_Y^2} ight] frac{1}{sqrt{2pi}sigma_X} exp left[-{(x-mu_X)^2 over 2sigma_X^2} ight] , dx \[6pt] = int_{-infty}^infty frac{1}{sqrt{2pi}sqrt{2pi}sigma_Xsigma_Y} exp left[-frac{sigma_X^2(z-x-mu_Y)^2 + sigma_Y^2(x-mu_X)^2}{2sigma_X^2sigma_Y^2} ight] , dx \[6pt] = int_{-infty}^infty frac{1}{sqrt{2pi}sqrt{2pi}sigma_Xsigma_Y} exp left[ -frac {sigma_X^2(z^2 + x^2 + mu_Y^2 - 2xz - 2zmu_Y + 2xmu_Y) + sigma_Y^2(x^2 + mu_X^2 - 2xmu_X)} {2sigma_Y^2sigma_X^2} ight] , dx \[6pt] = int_{-infty}^infty frac{1}{sqrt{2pi}sqrt{2pi}sigma_Xsigma_Y} exp left[ -frac { x^2(sigma_X^2 + sigma_Y^2) - 2x(sigma_X^2(z - mu_Y) + sigma_Y^2mu_X) + sigma_X^2(z^2 + mu_Y^2 - 2zmu_Y) + sigma_Y^2mu_X^2 } {2sigma_Y^2sigma_X^2} ight] , dx \[6pt] end{align}$

定義 $sigma_Z = sqrt{sigma_X^2 + sigma_Y^2}$

$egin{align} f_Z(z) = int_{-infty}^infty frac{1}{sqrt{2pi}sigma_Z} frac{1}{sqrt{2pi}frac{sigma_Xsigma_Y}{sigma_Z}} exp left[ -frac { x^2 - 2xfrac{sigma_X^2(z - mu_Y) + sigma_Y^2mu_X}{sigma_Z^2} + frac{sigma_X^2(z^2 + mu_Y^2 - 2zmu_Y) + sigma_Y^2mu_X^2}{sigma_Z^2} } {2left(frac{sigma_Xsigma_Y}{sigma_Z} ight)^2} ight] , dx \[6pt] = int_{-infty}^infty frac{1}{sqrt{2pi}sigma_Z} frac{1}{sqrt{2pi}frac{sigma_Xsigma_Y}{sigma_Z}} exp left[ -frac { left(x - frac{sigma_X^2(z - mu_Y) + sigma_Y^2mu_X}{sigma_Z^2} ight)^2 - left(frac{sigma_X^2(z - mu_Y) + sigma_Y^2mu_X}{sigma_Z^2} ight)^2 + frac{sigma_X^2(z - mu_Y)^2 + sigma_Y^2mu_X^2}{sigma_Z^2} } {2left(frac{sigma_Xsigma_Y}{sigma_Z} ight)^2} ight] , dx \[6pt] = int_{-infty}^infty frac{1}{sqrt{2pi}sigma_Z} exp left[ -frac { sigma_Z^2left(sigma_X^2(z - mu_Y)^2 + sigma_Y^2mu_X^2 ight) - left(sigma_X^2(z - mu_Y) + sigma_Y^2mu_X ight)^2 } {2sigma_Z^2left(sigma_Xsigma_Y ight)^2} ight] frac{1}{sqrt{2pi}frac{sigma_Xsigma_Y}{sigma_Z}} exp left[ -frac { left(x - frac{sigma_X^2(z - mu_Y) + sigma_Y^2mu_X}{sigma_Z^2} ight)^2 } {2left(frac{sigma_Xsigma_Y}{sigma_Z} ight)^2} ight] , dx \[6pt] = frac{1}{sqrt{2pi}sigma_Z} exp left[ - { (z-(mu_X+mu_Y))^2 over 2sigma_Z^2 } ight] int_{-infty}^{infty} frac{1}{sqrt{2pi}frac{sigma_Xsigma_Y}{sigma_Z}} exp left[ - frac{left(x-frac{sigma_X^2(z-mu_Y)+sigma_Y^2mu_X}{sigma_Z^2} ight)^2}{2left(frac{sigma_Xsigma_Y}{sigma_Z} ight)^2} ight] , dx end{align}$

可以看到積分符號右邊就是一個正態分布的密度函數形式，所以這個積分結果為1，然後我們得到最終形式

$f_Z(z) = frac{1}{sqrt{2pi}sigma_Z} exp left[ - { (z-(mu_X+mu_Y))^2 over 2sigma_Z^2 } ight]$

為了美觀我就不用引用符號了

如果 $Xsim N(mu_{X} ,sigma_{X}^{2})$ 與 $Ysim N(mu_{Y} ,sigma_{Y}^{2})$ 是統計獨立的常態隨機變數，那麼：
它們的和也滿足正態分布 $U=X+Ysim Xsim N(mu_{X}+mu_{Y} ,sigma_{X}^{2}+sigma_{Y}^{2})$ 。

我想你問的應該是這個性質吧？證明過程見維基百科 Sum of normally distributed random variables。

竟然無法反駁。既然你用直覺來思考統計/數學，給你舉個直覺點的例子吧。這個問題離散一下，就是，我有兩盒子球。第一個盒子，取到一個的紅球的概率最大，等於0.6，第二個盒子，取到這樣一個紅球的概率等於0.7. 把這兩個盒子里的球倒在一起，你覺得，取到紅色球的概率是0.6+0.7么? 你畫得圖叫概率密度圖。就是取到x軸上點的概率。那麼問題來了，兩個概率圖能直接加么？

聯合分布……就是概率密度函數相加嗎？

隨機變數X+Y一個方法是做卷積。

如果你真的想相加的話，需要求兩個分布的特徵函數，再簡單相加，再逆求分布，類似於傅里葉變換和卷積的關係。

不論那一種方法，均值在分布頻率譜上的「相位信息」被抹掉了。

就類似於信號分析裡面，自相關把時間的相位信息抹掉了一樣的。

如果換一種簡單粗暴的理解方式，那也不應該是直接在頻率維度上相加吧。你應該用抽樣+聯合分布的角度去理解啊。

中心極限定理是說，對任意分布的隨機變數，取n個樣本，當n很大時，n個樣本的平均值服從高斯分布，均值為原分布均值。

題主書里說的x1 bar和x2 bar就是這種情況。

接著，獨立高斯變數的和也服從高斯分布（而且x是高斯的，-x也是高斯的，只不過均值不同），根據其他答主的證明，就得到x1 bar-x2 bar服從mu1-mu2均值的高斯分布了。

這就是書里這段話說的內容用人話說出來的效果。

直觀的來講，如果你相信某個沒接電源的電子線路2端的熱雜訊電壓符合平穩高斯分布，那麼你把2個這樣的電路串聯起來，總的熱雜訊電壓也符合高斯分布。

如果沒有這樣的可加性的性質的話，高斯分布也就不會在我們的生活周圍，處處常見啦。

你畫的這是pdf，是說取到x的概率密度是y。

這裡說的是分布，也就是比如你有兩個盒子，你可以分別從裡面拿一個數字，這個結果分別滿足正態分布。然後你把取出來的兩個數字加起來，然後觀察每次加起來的數字，還是滿足正態分布。

題主的圖是把概率密度函數相加的結果，但是題主討論的是把正態分布隨機變數相加。這完全不是一個概念

好吧，不腰自來～

大家都說了概率密度不能相加的事情，關於卷積、矩母函數還有二重積分的證明維基上寫的也很清楚了，我就不贅述了（順便一句，仔細想想傅立葉變換或者信號系統時域頻域的關係…咦…這他喵的證明的不是一個意思嗎！好吧，誰讓矩母函數就是概率密度的傅立葉反變換呢）

但是看著題主提供的圖，貌似還是沒說鴿子為什麼這麼大～

所以索性呢，我們來個簡單粗暴的，把什麼概念啊、定理啊，這些通通推倒，剝離它天生的驕傲，排除這些按題主提供的圖那樣把概率密度加起來！

什麼！CDF最後不為1了，為了滿足概率公理，我們需要歸一化一下。
假設兩個分布的概率密度分別是 $f_1, f_2$ ，對新分布的概率密度是
$f_n=pcdot f_1+(1-p)cdot f_2cdot cdot cdot cdot cdot cdot cdot (ast )$

考慮一下如下兩種情況：
1. 有兩個「骰子」可以分別隨機搖出服從 $N(mu ,1), N(-mu ,1)$ 的正態分布，然後我分別搖兩個骰子，然後把結果相加得到結果 $R_1$ ，其結果是一個新的服從 $N(0,2)$ 的正態分布，這個結果就是大部分答案所解釋的意思呢～
2. 有兩個「骰子」可以分別隨機搖出服從 $N(mu ,1), N(-mu ,1)$ 的正態分布，但是現在把他們放進一個袋子里，每次摸出一個骰子去搖一下結果，而選中骰子一的概率為p。那麼最後骰子顯示結果 $R_2$ 的概率密度就是我們剛剛得到的 $(ast )$ 式。
好吧，p其實就是先驗概率。

所以題主其實畫的就是一維的 Gaussian Mixture Model 的樣子呢～ Mixture model

最後三點也許能幫助題主理解：（嗯，這麼自問自答我也是醉了）
一、當 $mu gg 0$ 時， $R_1, R_2$ 在0周圍的概率的差別？—— $R_1$ 在0周圍概率更高;
二、當 $mu=0 , p=0.5;$ $R_1, R_2$ 的區別？—— $R_1sim N(0,2);R_2sim N(0,1)$ ；
三、第2種情況中，當 $mu e 0$ 時，然後某人隨機摸出骰子後開始狂搖骰子，得出一堆結果後，我們是不是就能從這一堆數去猜 $mu$ 和 $p$ ？—— 最後一個clustering問題，困了不想寫了，就這樣吧，晚安么么噠～（其實是我不會）