一系列正態分布的最大值,max(X1,...,Xn),是什麼分布?

如果X之間是independent,CDF應該是原來的開n次方。但是如果X之間有correlation,我們有什麼結論呢?再進一步,如果X的variance不等,還有correlation,我們有什麼結論呢?


對於二元的情況,有非常簡潔的解析式,設X_1,X_2分別服從N(mu_1,sigma_1^2),N(mu_2,sigma_2^2)和它們的相關係數為
ho,則X=max(X_1,X_2)的pdf為:

公式出自:Exact Distribution of the Max/Min of Two Gaussian

Random Variables (Saralees Nadarajah and Samuel Kotz, 2008,https://www.gwern.net/docs/conscientiousness/2008-nadarajah.pdf, 資料來源網路,侵刪)

對於多元的情況,我猜測是沒有很簡潔的表達式的,但這篇文章最後提到

如果max(X_1,X_2)X_3獨立的話,我們可以一直遞推下去;如果它們不是獨立的話,那麼也可以寫成類似的表達式的。(見下圖)

但由於文章並沒有給出式子的來源和證明方法,而且給出的四篇相關文獻(8-11)里我只能找到的兩篇也沒有我想要的結果。 題主如果想了解,可以看看它並根據它的思路尋找答案。

另一方面,如果我們只是想知道它的bound的話,也許有不錯的結果,例如這篇文章

Bounding the Maximum of Dependent Random Variables(J.A. Hartigan,2011, http://arxiv.org/pdf/1312.1207.pdf)。 我最初的想法是,沒有解析式(只給出分布和相關係數矩陣的話),但是我們可以估計P(Xleq x)的bound(X=max(X_1,X_2,...,X_n)), 例如最樸素的想法,用copula的bound, 即知我們有

max(nx+1-n,0) leq P(Xleq x)leq x

這個下界也是Hartigan文章里tail probability的上界(變換一下就好了)。

最後,如果不是求準確表達式的話,這裡有一篇關於相關的正態變數最大值尾部分布的估計的文章(Tail Distribution of the Maximum of Correlated Gaussian Random Variables,Zdravko Boteva,Michel Mandjesb,Ad Ridderc http://papers.tinbergen.nl/15132.pdf)


如果X是i.i.d,max(X)的分布就是一個ordered statistics,

直接把normal的pdf和cdf套進去上面的公式就好了。具體的推導過程,google ordered statistics就行了。你這個是求max值,相應的還有有min和k-th的分布的。

這個截圖的來源是http://www4.stat.ncsu.edu/~hzhang/st522/08Chapter5_order.pdf

如果X只是independent,但是不是identical的話,就是用 Bapat-Beg theorem。

Bapata€「Beg theorem

如果X是有correlation的,這個我也不是很清楚,不過我可以幫你問問:)


https://stsda.kaust.edu.sa/Documents/2008.AG.SPL.pdf

On the exact distribution of the maximum of absolutely
continuous dependent random variables

這個文章討論了exchangeable random vector with a multivariate normal distribution的情形。

上結論:

這個的數值需要算多元分布的cdf,文章提到有個R的包叫mvtnorm 可以用。

2維情況下這個分布叫Skew normal。任意多元正態的情況就不知道了。


樓主問的是order statistics嗎?

從同種分布中抽出的樣本,樣本之間為什麼會有相關性?

而且套順序統計量公式好像也不是cdf開方吧?


這不就是順序統計量嗎。。。

令式中的k=n即得到最大值的pdf了,題主自己吧正態分布的代進去算算就出來了

想了解更多請參考數理統計的教材

圖片來自《數理統計學導論(第五版影印版)》Robert V. Hogg


如果不同X是independent,那就是extreme value distribution


在independent的情況下分布可以用order statistics的性質求出來。當n很大的時候統計問題關注的是max(X1...,Xn)的期望有多大(如果Xi的期望是0,方差是1,那麼n個正態分布隨機變數的最大值期望近似於sqrt(2 log n)),以及tail probability衰減得有多快


推薦閱讀:

哪裡能找到真實的較大數據集合?
關於大學至博士期間的數學學習你有什麼學習的經驗?
檢測異常值的常用方法,除了超過幾倍標準差,還有哪些?
經過第一盤棋,李世石戰勝 AlphaGo 的可能性更大了還是更渺茫了?
自學數據挖掘可以找到相關工作嗎?

TAG:數學 | 機器學習 | 統計 | 概率論 |