正態分布隨機變數的和還是正態分布嗎?

怎麼可能呢?? 用腦子想一想也知道呀....

加起來就變成第三幅圖啦……除非均值對齊?

update:
就是紅色裡面說的....o(&>﹏&<)o

update:
這是我的新理解 哈...不知道對不對額...


1. 令XY為兩個獨立的一維正態r.v.s,那麼X+Y確實仍然是正態分布。

2. X+Y的pdf不是0.5p_X(cdot)+0.5p_Y(cdot)——後者是「XY等概率的mixture」的pdf,即pi X + (1-pi) Y的pdf,其中pi是一個與(X, Y)獨立的Bernoulli r.v.,參數為0.5。這裡不要犯「pdf直接求和」的低級錯誤,起碼一個合法的pdf必須積分為1.

3. 再次澄清一下一個(不可思議地常見的)錯誤:「根據中心極限定理,樣本量足夠大時樣本分布趨於正態」。中心極限定理說的是,一定條件下樣本均值的分布趨於正態,絕不是樣本分布趨於正態。這著實令我懷疑國內很多大學教概率論課根本就沒強調這一點。

參考:Mixture distribution


呃,排名前幾位都沒說到關鍵啊,X+Y 還是正態,要求這X 和Y 必須是jointly normal 的。兩個相互獨立的正態是這種情況的一個特例。

比如,X, Y 是jointly normal 的,則, X+Y ~ N( EX+EY, var(X) + var(Y) + 2cov(X,Y)) 。 如果X,Y independent, 則cov(X,Y)=0。

一個常見的,非jointly normal 的兩個正態隨機變數加起來不是正態的。
X ~ N(EX, var(X) ), 是一個正態隨機變數。
令 Y= m * X. 其中,m 有1/2 概率為1,1/2 概率為-1,m 獨立於X.
可以證明, Y 的分布也是正態的。
但是X+Y = (1+m) *X 不是正態分布,因為其會在 0 點有一個概率為1/2 的聚集。


應該是計算卷積,而不是直接做和


不知道被誰邀請來回答這個問題……我也是嚇哭了……前面的幾位基本都已經說的很清楚了……我還是覺得自己讀書的時候要多獨立思考……


給定兩個獨立正態分布 X_1sim N(mu_1, sigma_1^2)X_2sim N(mu_2, sigma_2^2) 其概率密度函數分別為 f_1,f_2

設隨機變數

Z = X_1 + X_2

Z的概率概率密度函數 f_Z(z) 是什麼呢?

題主的第一反應應該是 f_Z(z) = f_1(z) + f_2(z) ,這裡就出錯了

舉個例子,當 Z=1 時,可以是 X_1=0,X_2=1 ,也可以是 X_1=1,X_2=0 總之  X_1 + X_2 = Z

所以,隨機變數 Z 的概率密度函數其實是

f_Z(z) = int_{-infty}^{+infty} f_1(x) f_2(z-x)dx

這個就是上面各位答主說的卷積形式

然後可以繼續證明 f_Z 是正態分布形式,證明可以參考 Sum of normally distributed random variables,這裡引用如下

egin{align} f_Z(z) = int_{-infty}^infty frac{1}{sqrt{2pi}sigma_Y} exp left[-{(z-x-mu_Y)^2 over 2sigma_Y^2}
ight] frac{1}{sqrt{2pi}sigma_X} exp left[-{(x-mu_X)^2 over 2sigma_X^2}
ight] , dx \[6pt] = int_{-infty}^infty frac{1}{sqrt{2pi}sqrt{2pi}sigma_Xsigma_Y} exp left[-frac{sigma_X^2(z-x-mu_Y)^2 + sigma_Y^2(x-mu_X)^2}{2sigma_X^2sigma_Y^2}
ight] , dx \[6pt] = int_{-infty}^infty frac{1}{sqrt{2pi}sqrt{2pi}sigma_Xsigma_Y} exp left[ -frac {sigma_X^2(z^2 + x^2 + mu_Y^2 - 2xz - 2zmu_Y + 2xmu_Y) + sigma_Y^2(x^2 + mu_X^2 - 2xmu_X)} {2sigma_Y^2sigma_X^2} 
ight] , dx \[6pt] = int_{-infty}^infty frac{1}{sqrt{2pi}sqrt{2pi}sigma_Xsigma_Y} exp left[ -frac { x^2(sigma_X^2 + sigma_Y^2) - 2x(sigma_X^2(z - mu_Y) + sigma_Y^2mu_X) + sigma_X^2(z^2 + mu_Y^2 - 2zmu_Y) + sigma_Y^2mu_X^2 } {2sigma_Y^2sigma_X^2} 
ight] , dx \[6pt] end{align}

定義 sigma_Z = sqrt{sigma_X^2 + sigma_Y^2}

egin{align} f_Z(z) = int_{-infty}^infty frac{1}{sqrt{2pi}sigma_Z} frac{1}{sqrt{2pi}frac{sigma_Xsigma_Y}{sigma_Z}} exp left[ -frac { x^2 - 2xfrac{sigma_X^2(z - mu_Y) + sigma_Y^2mu_X}{sigma_Z^2} + frac{sigma_X^2(z^2 + mu_Y^2 - 2zmu_Y) + sigma_Y^2mu_X^2}{sigma_Z^2} } {2left(frac{sigma_Xsigma_Y}{sigma_Z}
ight)^2} 
ight] , dx \[6pt] = int_{-infty}^infty frac{1}{sqrt{2pi}sigma_Z} frac{1}{sqrt{2pi}frac{sigma_Xsigma_Y}{sigma_Z}} exp left[ -frac { left(x - frac{sigma_X^2(z - mu_Y) + sigma_Y^2mu_X}{sigma_Z^2}
ight)^2 - left(frac{sigma_X^2(z - mu_Y) + sigma_Y^2mu_X}{sigma_Z^2}
ight)^2 + frac{sigma_X^2(z - mu_Y)^2 + sigma_Y^2mu_X^2}{sigma_Z^2} } {2left(frac{sigma_Xsigma_Y}{sigma_Z}
ight)^2} 
ight] , dx \[6pt] = int_{-infty}^infty frac{1}{sqrt{2pi}sigma_Z} exp left[ -frac { sigma_Z^2left(sigma_X^2(z - mu_Y)^2 + sigma_Y^2mu_X^2
ight) - left(sigma_X^2(z - mu_Y) + sigma_Y^2mu_X
ight)^2 } {2sigma_Z^2left(sigma_Xsigma_Y
ight)^2} 
ight] frac{1}{sqrt{2pi}frac{sigma_Xsigma_Y}{sigma_Z}} exp left[ -frac { left(x - frac{sigma_X^2(z - mu_Y) + sigma_Y^2mu_X}{sigma_Z^2}
ight)^2 } {2left(frac{sigma_Xsigma_Y}{sigma_Z}
ight)^2} 
ight] , dx \[6pt] = frac{1}{sqrt{2pi}sigma_Z} exp left[ - { (z-(mu_X+mu_Y))^2 over 2sigma_Z^2 } 
ight] int_{-infty}^{infty} frac{1}{sqrt{2pi}frac{sigma_Xsigma_Y}{sigma_Z}} exp left[ - frac{left(x-frac{sigma_X^2(z-mu_Y)+sigma_Y^2mu_X}{sigma_Z^2}
ight)^2}{2left(frac{sigma_Xsigma_Y}{sigma_Z}
ight)^2} 
ight] , dx end{align}

可以看到積分符號右邊就是一個正態分布的密度函數形式,所以這個積分結果為1,然後我們得到最終形式

f_Z(z) = frac{1}{sqrt{2pi}sigma_Z} exp left[ - { (z-(mu_X+mu_Y))^2 over 2sigma_Z^2 } 
ight]

為了美觀我就不用引用符號了


如果Xsim N(mu_{X} ,sigma_{X}^{2})Ysim N(mu_{Y} ,sigma_{Y}^{2}) 是統計獨立的常態隨機變數,那麼:
它們的和也滿足正態分布U=X+Ysim Xsim N(mu_{X}+mu_{Y} ,sigma_{X}^{2}+sigma_{Y}^{2})

我想你問的應該是這個性質吧?證明過程見維基百科 Sum of normally distributed random variables。


竟然無法反駁。既然你用直覺來思考統計/數學,給你舉個直覺點的例子吧。這個問題離散一下,就是,我有兩盒子球。第一個盒子,取到一個的紅球的概率最大,等於0.6,第二個盒子,取到這樣一個紅球的概率等於0.7. 把這兩個盒子里的球倒在一起,你覺得,取到紅色球的概率是0.6+0.7么? 你畫得圖叫概率密度圖。就是取到x軸上點的概率。那麼問題來了,兩個概率圖能直接加么?


聯合分布……就是概率密度函數相加嗎?

隨機變數X+Y一個方法是做卷積。

如果你真的想相加的話,需要求兩個分布的特徵函數,再簡單相加,再逆求分布,類似於傅里葉變換和卷積的關係。

不論那一種方法,均值在分布頻率譜上的「相位信息」被抹掉了。

就類似於信號分析裡面,自相關把時間的相位信息抹掉了一樣的。

如果換一種簡單粗暴的理解方式,那也不應該是直接在頻率維度上相加吧。你應該用抽樣+聯合分布的角度去理解啊。


中心極限定理是說,對任意分布的隨機變數,取n個樣本,當n很大時,n個樣本的平均值服從高斯分布,均值為原分布均值。

題主書里說的x1 bar和x2 bar就是這種情況。

接著,獨立高斯變數的和也服從高斯分布(而且x是高斯的,-x也是高斯的,只不過均值不同),根據其他答主的證明,就得到x1 bar-x2 bar服從mu1-mu2均值的高斯分布了。

這就是書里這段話說的內容用人話說出來的效果。


直觀的來講,如果你相信某個沒接電源的電子線路2端的熱雜訊電壓符合平穩高斯分布,那麼你把2個這樣的電路串聯起來,總的熱雜訊電壓也符合高斯分布。

如果沒有這樣的可加性的性質的話,高斯分布也就不會在我們的生活周圍,處處常見啦。


你畫的這是pdf,是說取到x的概率密度是y。

這裡說的是分布,也就是比如你有兩個盒子,你可以分別從裡面拿一個數字,這個結果分別滿足正態分布。 然後你把取出來的兩個數字加起來,然後觀察每次加起來的數字,還是滿足正態分布。


題主的圖是把概率密度函數相加的結果,但是題主討論的是把正態分布隨機變數相加。這完全不是一個概念


好吧,不腰自來~

大家都說了概率密度不能相加的事情,關於卷積、矩母函數還有二重積分的證明維基上寫的也很清楚了,我就不贅述了(順便一句,仔細想想傅立葉變換或者信號系統時域頻域的關係…咦…這他喵的證明的不是一個意思嗎!好吧,誰讓矩母函數就是概率密度的傅立葉反變換呢)

但是看著題主提供的圖,貌似還是沒說鴿子為什麼這麼大~

所以索性呢,我們來個簡單粗暴的,把什麼概念啊、定理啊,這些通通推倒,剝離它天生的驕傲,排除這些按題主提供的圖那樣把概率密度加起來!

什麼!CDF最後不為1了,為了滿足概率公理,我們需要歸一化一下。
假設兩個分布的概率密度分別是f_1, f_2,對新分布的概率密度是
f_n=pcdot f_1+(1-p)cdot f_2cdot cdot cdot cdot cdot cdot cdot (ast )

考慮一下如下兩種情況:
1. 有兩個「骰子」可以分別隨機搖出服從N(mu ,1), N(-mu ,1) 的正態分布,然後我分別搖兩個骰子,然後把結果相加得到結果R_1其結果是一個新的服從N(0,2) 的正態分布,這個結果就是大部分答案所解釋的意思呢~
2. 有兩個「骰子」可以分別隨機搖出服從N(mu ,1), N(-mu ,1) 的正態分布,但是現在把他們放進一個袋子里,每次摸出一個骰子去搖一下結果,而選中骰子一的概率為p。那麼最後骰子顯示結果R_2的概率密度就是我們剛剛得到的(ast )式。
好吧,p其實就是先驗概率。


所以題主其實畫的就是一維的 Gaussian Mixture Model 的樣子呢~ Mixture model

最後三點也許能幫助題主理解:(嗯,這麼自問自答我也是醉了)
一、當mu gg 0 時,R_1, R_2 在0周圍的概率的差別?——R_1在0周圍概率更高;
二、當mu=0 , p=0.5;R_1, R_2 的區別?—— R_1sim N(0,2);R_2sim N(0,1)
三、第2種情況中,當mu 
e 0時,然後某人隨機摸出骰子後開始狂搖骰子,得出一堆結果後,我們是不是就能從這一堆數去猜mu p?—— 最後一個clustering問題,困了不想寫了,就這樣吧,晚安么么噠~(其實是我不會)

好吧,其實是我編不下去了,其實我都是抄的維基什麼的,一點技術含量也木有,摺疊我啊啊啊~~


正態的特徵函數好算,獨立正態和的特徵函數也好算,算完結果就出來了


密度函數直接相加也是6,如果真的可以這樣的話,世界將美好到無以復加。我的好多工作都有閉式解了/


擴展一下這個問題,正態分布的極限是否還是正態分布?


建議把題目修改成兩個服從正態分布的隨機變數之和是否服從正態分布。


u=x+y,v=y
p(x(u,v),y(u,v))*/J/*dudv
課本上的第3.4章吧
對v幾份就有了


噗好巧 。。。上課上精算模型剛好講到理賠額的正態近似 的確是用卷積的 摺疊吧


最近在學隨機過程,恰好學到這個問題,如果n維隨機變數服從正態分布,那麼其中任意變數的線性組合也服從正態分布,可以用特徵函數來證明


推薦閱讀:

醫患糾紛是否降低了從醫意願?
對於候選人來說,「10 人錄取 1 人」和「100 人錄取 10 人」兩種規則難度一樣嗎?
基於次線性期望(Sublinear expectation)的概率論體系有何價值?
如何求出正態分布的尾部期望?

TAG:數學 | 統計學 | 概率 | 正態分布 | 概率論 |