標籤:

X條件於Y的分布,以及Y條件於X的分布,能否唯一確定(X,Y)的聯合分布?

也想問問更多維的情況,多謝!


給個簡單的反例吧.

對任意0  ,我們定義離散的二維隨機變數<img src= :

mathbb{P}(X_a=0,Y_a=0)=a ,

mathbb{P}(X_a=1,Y_a=1)=1-a .

那麼聯合分布由實數a唯一決定.

易得條件分布為

mathbb{P}(X_a=0 | Y_a=0)=1,

mathbb{P}(X_a=1 | Y_a=1)=1,

mathbb{P}(Y_a=0 | X_a=0)=1,

mathbb{P}(Y_a=1 | X_a=1)=1.

可以發現條件分布與a無關,因此無法由條件分布確定a的值,從而無法得到聯合分布.


其實可以這麼想。回憶一下條件密度的公式:

聯合分布需要用條件分布和邊緣分布一起決定。

如果只用邊緣分布的話,兩個邊緣分布函數必須使用一個Copula函數連接起來才能成為聯合分布函數:

F(x,y)=C[F_X(x),F_Y(y)],C(u,v):[0,1]	imes [0,1]
ightarrow [0,1]

其中C為Copula函數,是一個定義在[0,1]^2上的分布函數(C的邊緣分布需要為均勻分布)。隨機變數X和Y的所有相關性的信息都體現在這個C函數裡面,也就是Copula裡面。給定不同的Copula函數,就有不同的聯合分布,而且其邊緣分布都一樣。

反過來,如果你只有條件分布,那麼這兩個條件分布已經完全告訴你X和Y是如何相依的,但是由於你缺少了邊緣分布的信息,所以仍然不能把聯合分布確定下來,給定不同邊緣分布,你也會有不同的聯合分布函數。

比如 @汪軻的反例中,兩個隨機變數是完全相互決定的,但是沒有邊緣分布的信息是不能確定聯合分布函數的,隨意給定一個邊緣分布都可以得到不同的聯合分布。這時候只要有了某一個隨機變數的邊緣分布,問題就解決了。


答案是不能。有人已經給出反例了,我給一個直覺上的理解吧。

可以把求聯合分布的過程想像成給一群人 (樣本空間) 比較身高 (概率密度) 的過程。

首先,在一個有離散二維坐標的空間中,讓這一群人隨意選擇一個位置站,不重疊。由題知,我們可以觀測任意行和任意列人群的相對身高 (條件概率密度),然而想要知道所有人的相對身高(聯合分布),我們必須在同一尺度下進行兩兩比較。

顯然,這樣的條件經常會失效。例如,某些關鍵位置上沒有人(概率密度為0) ,導致無法獲得一群人 (一部分樣本空間) 和另一群人(另一部分樣本空間) 的比較結果。高贊答案就是一個例子。


這應該已經是一個過定問題了(也不一定,有點小錯誤),也就是說如果對於樣本空間允許的所有X你都知道Y|X分布以及對於樣本空間所允許的Y都知道X|Y的分布的話,至多能求出一個滿足條件的聯合分布。

考慮一個簡單的例子吧,假設樣本空間是{1,2...n}×{1,2...n},則確定這個分布需要n2-1個實數。

對於某個x∈{1,2...n},知道Y|X=x就確立了n-1個方程,X|Y同理。因此全部已知條件確立了2n2-2n個方程,恆大於n2-1。方程多於未知數有可能是沒解的,因此至多可以得到一個滿足條件的聯合分布。(要看線性方程的秩,有可能是個欠定問題)

其實如果你能對於所有的x∈{1,2...n},知道Y|X=x,以及對於任何一個y*∈{1,2...n},知道X|Y=y*,恰好有n2-1個方程,這個分布就可以確定下來了。具體計算公式為P(X=x,Y=y) ∝ P(Y=y|X=x) * P(X=x|Y=y*) / P(Y=y*|X=x)。

連續情況下應該也差不多(不是很確定)?知道全部x∈R的密度p(Y|X=x)和某一密度p(X|Y=y*),可以確定p(x,y)密度函數p(X=x,Y=y) ∝ p(Y=y|X=x) * p(X=x|Y=y*) / p(Y=y*|X=x)。而一般情況下是過定的。


反對高票答案

當已知的「X條件於Y的分布,以及Y條件於X的分布」是compatible時,是可以確定的:

f_{ X,Y }=frac { f_{ Y|X } }{ int frac { f_{ Y|X } }{ f_{ X|Y } } , dy }

不信?不妨計算看一看。

設X,Y 的聯合密度為f_{X,Y}(x,y),假設絕對連續

X的邊緣密度為f_X(x)=int f_{X,Y}(x,y) , dy

Y的邊緣密度為f_Y(y)=int f_{X,Y}(x,y) , dx

給定X,Y的條件密度為f_{Y|X}(y|x)=f_{Y|X=x}(y)=frac{f_{X,Y}(x,y)}{f_X(x)}

給定Y,X的條件密度為f_{X|Y}(x|y)=f_{X|Y=y}(y)=frac{f_{X,Y}(x,y)}{f_Y(y)}

那麼有

frac{f_{Y|X}}{f_{X|Y}}= frac{frac{f_{X,Y}(x,y)}{f_X(x)}}{frac{f_{X,Y}(x,y)}{f_Y(y)}} =frac{f_Y(y)}{f_X(x)}

所以

frac{f_{Y|X}}{int frac{f_{Y|X}}{f_{X|Y}} , dy}=frac{f_{X,Y}(x,y)}{f_X(x) int frac{f_Y(y)}{f_X(x)} , dy}=frac{f_{X,Y}(x,y)}{int f_Y(y) , dy}=f_{X,Y}(x,y)

但這是有條件的:

連續情況下要求

1. 二者支集(supp)相等

2. frac{f_Y(y)}{f_X(x)}=u(x) v(y)int u(x) , dx<infty

高維下也有類似結論和條件,詳情見參考文獻

  1. Arnold, B., S. James Press. (1989). Compatible Conditional Distributions. Journal of the American Statistical Association, 84(405), 152-156. doi:10.2307/2289858


知道了 兩個條件分布的關係 也就確定了兩個獨立分布的關係 用一個表示另外一個 使之與定義相等 解微分方程就得到了某一個獨立分布


copula正解 - 給定marginal distribution,copula不一樣可以生成不一樣的joint distribution

高票大神講的很清楚了。我補充個上課聽來在的在金融方面的應用:統計上來說金融數據一般有著長尾的特徵,大意就是真正數據在極大值/極小值的分布,比統計學常用的分布要高。例如我們有兩個資產回報,對一些factor回歸後剩下的非系統部分,一般都是認為是normal distributed的noise。但是問題在於,金融市場會出現大牛市/大熊市,這些"noise"在長尾的分布要比normal大。從風險管理角度來講,單個資產這麼做問題不大,畢竟長尾再長,也只是一點點;問題來自對兩個資產回報fit一個joint normal,其實就顯著地under-estimate了系統性風險 - 根據模型兩個資產同時跌50%的概率是0.001%(joint normal「短尾」)但實際上是0.01%(真正數據長尾)。所以人們想要找出一種數學模型能夠保留marginal distribution,但是在model joint distribution的時候又可以有一定的自由。什麼自由呢?指定長尾特徵的自由。

所以大衛李大神就創造出了copula(不是馬刺隊的大衛李o-o)copula叼的地方在於,金融分析師可以按照自己對市場的理(chui)解(niu),規定不一樣的copula。而不一樣的copula就生成了不一樣的joint distribution,從而有不一樣的長尾的特徵。這樣,copula就成為了一個,風險管理裡面既scientific,又能夠發揮員工才(chui)能(niu)的工具。

拙見望大神指正。


什麼叫X相對於Y的條件分布= =......指的是我們知道兩個conditional expectation?那並不能得到聯合概率分布吧?


推薦閱讀:

為什麼說Dirichlet分布是分布的分布?
為什麼樣本均值的標準差是總體均值標準差除以根號n?
均勻骰子有多少種?
如何選擇概率論研究方向?
一次丢5颗骰子,怎么快速计算骰子点数和的概率分布?

TAG:概率論 |