X條件於Y的分布,以及Y條件於X的分布,能否唯一確定(X,Y)的聯合分布?
也想問問更多維的情況,多謝!
給個簡單的反例吧.
對任意 :
,
.
那麼聯合分布由實數a唯一決定.
易得條件分布為
,
,
,
.
可以發現條件分布與a無關,因此無法由條件分布確定a的值,從而無法得到聯合分布.
其實可以這麼想。回憶一下條件密度的公式:
聯合分布需要用條件分布和邊緣分布一起決定。如果只用邊緣分布的話,兩個邊緣分布函數必須使用一個Copula函數連接起來才能成為聯合分布函數:
其中C為Copula函數,是一個定義在上的分布函數(C的邊緣分布需要為均勻分布)。隨機變數X和Y的所有相關性的信息都體現在這個C函數裡面,也就是Copula裡面。給定不同的Copula函數,就有不同的聯合分布,而且其邊緣分布都一樣。反過來,如果你只有條件分布,那麼這兩個條件分布已經完全告訴你X和Y是如何相依的,但是由於你缺少了邊緣分布的信息,所以仍然不能把聯合分布確定下來,給定不同邊緣分布,你也會有不同的聯合分布函數。
比如 @汪軻的反例中,兩個隨機變數是完全相互決定的,但是沒有邊緣分布的信息是不能確定聯合分布函數的,隨意給定一個邊緣分布都可以得到不同的聯合分布。這時候只要有了某一個隨機變數的邊緣分布,問題就解決了。答案是不能。有人已經給出反例了,我給一個直覺上的理解吧。
可以把求聯合分布的過程想像成給一群人 (樣本空間) 比較身高 (概率密度) 的過程。
首先,在一個有離散二維坐標的空間中,讓這一群人隨意選擇一個位置站,不重疊。由題知,我們可以觀測任意行和任意列人群的相對身高 (條件概率密度),然而想要知道所有人的相對身高(聯合分布),我們必須在同一尺度下進行兩兩比較。
顯然,這樣的條件經常會失效。例如,某些關鍵位置上沒有人(概率密度為0) ,導致無法獲得一群人 (一部分樣本空間) 和另一群人(另一部分樣本空間) 的比較結果。高贊答案就是一個例子。這應該已經是一個過定問題了(也不一定,有點小錯誤),也就是說如果對於樣本空間允許的所有X你都知道Y|X分布以及對於樣本空間所允許的Y都知道X|Y的分布的話,至多能求出一個滿足條件的聯合分布。
考慮一個簡單的例子吧,假設樣本空間是{1,2...n}×{1,2...n},則確定這個分布需要n2-1個實數。
對於某個x∈{1,2...n},知道Y|X=x就確立了n-1個方程,X|Y同理。因此全部已知條件確立了2n2-2n個方程,恆大於n2-1。方程多於未知數有可能是沒解的,因此至多可以得到一個滿足條件的聯合分布。(要看線性方程的秩,有可能是個欠定問題)
其實如果你能對於所有的x∈{1,2...n},知道Y|X=x,以及對於任何一個y*∈{1,2...n},知道X|Y=y*,恰好有n2-1個方程,這個分布就可以確定下來了。具體計算公式為P(X=x,Y=y) ∝ P(Y=y|X=x) * P(X=x|Y=y*) / P(Y=y*|X=x)。
連續情況下應該也差不多(不是很確定)?知道全部x∈R的密度p(Y|X=x)和某一密度p(X|Y=y*),可以確定p(x,y)密度函數p(X=x,Y=y) ∝ p(Y=y|X=x) * p(X=x|Y=y*) / p(Y=y*|X=x)。而一般情況下是過定的。
反對高票答案
當已知的「X條件於Y的分布,以及Y條件於X的分布」是compatible時,是可以確定的:
不信?不妨計算看一看。
設X,Y 的聯合密度為,假設絕對連續
X的邊緣密度為
Y的邊緣密度為
給定X,Y的條件密度為
給定Y,X的條件密度為
那麼有
所以
但這是有條件的:
連續情況下要求
1. 二者支集(supp)相等
2. 且
高維下也有類似結論和條件,詳情見參考文獻
- Arnold, B., S. James Press. (1989). Compatible Conditional Distributions. Journal of the American Statistical Association, 84(405), 152-156. doi:10.2307/2289858
知道了 兩個條件分布的關係 也就確定了兩個獨立分布的關係 用一個表示另外一個 使之與定義相等 解微分方程就得到了某一個獨立分布
copula正解 - 給定marginal distribution,copula不一樣可以生成不一樣的joint distribution
高票大神講的很清楚了。我補充個上課聽來在的在金融方面的應用:統計上來說金融數據一般有著長尾的特徵,大意就是真正數據在極大值/極小值的分布,比統計學常用的分布要高。例如我們有兩個資產回報,對一些factor回歸後剩下的非系統部分,一般都是認為是normal distributed的noise。但是問題在於,金融市場會出現大牛市/大熊市,這些"noise"在長尾的分布要比normal大。從風險管理角度來講,單個資產這麼做問題不大,畢竟長尾再長,也只是一點點;問題來自對兩個資產回報fit一個joint normal,其實就顯著地under-estimate了系統性風險 - 根據模型兩個資產同時跌50%的概率是0.001%(joint normal「短尾」)但實際上是0.01%(真正數據長尾)。所以人們想要找出一種數學模型能夠保留marginal distribution,但是在model joint distribution的時候又可以有一定的自由。什麼自由呢?指定長尾特徵的自由。
所以大衛李大神就創造出了copula(不是馬刺隊的大衛李o-o)copula叼的地方在於,金融分析師可以按照自己對市場的理(chui)解(niu),規定不一樣的copula。而不一樣的copula就生成了不一樣的joint distribution,從而有不一樣的長尾的特徵。這樣,copula就成為了一個,風險管理裡面既scientific,又能夠發揮員工才(chui)能(niu)的工具。
拙見望大神指正。
什麼叫X相對於Y的條件分布= =......指的是我們知道兩個conditional expectation?那並不能得到聯合概率分布吧?
推薦閱讀:
※為什麼說Dirichlet分布是分布的分布?
※為什麼樣本均值的標準差是總體均值標準差除以根號n?
※均勻骰子有多少種?
※如何選擇概率論研究方向?
※一次丢5颗骰子,怎么快速计算骰子点数和的概率分布?
TAG:概率論 |