X條件於Y的分布，以及Y條件於X的分布，能否唯一確定(X,Y)的聯合分布？

01-16

也想問問更多維的情況，多謝！

給個簡單的反例吧.

對任意 $0 ,我們定義離散的二維隨機變數<img src=$ :

$mathbb{P}(X_a=0,Y_a=0)=a$ ,

$mathbb{P}(X_a=1,Y_a=1)=1-a$ .

那麼聯合分布由實數a唯一決定.

易得條件分布為

$mathbb{P}(X_a=0 | Y_a=0)=1$ ,

$mathbb{P}(X_a=1 | Y_a=1)=1$ ,

$mathbb{P}(Y_a=0 | X_a=0)=1$ ,

$mathbb{P}(Y_a=1 | X_a=1)=1$ .

可以發現條件分布與a無關,因此無法由條件分布確定a的值,從而無法得到聯合分布.

其實可以這麼想。回憶一下條件密度的公式：

聯合分布需要用條件分布和邊緣分布一起決定。

如果只用邊緣分布的話，兩個邊緣分布函數必須使用一個Copula函數連接起來才能成為聯合分布函數：

$F(x,y)=C[F_X(x),F_Y(y)],C(u,v):[0,1] imes [0,1] ightarrow [0,1]$

其中C為Copula函數，是一個定義在 $[0,1]^2$ 上的分布函數（C的邊緣分布需要為均勻分布）。隨機變數X和Y的所有相關性的信息都體現在這個C函數裡面，也就是Copula裡面。給定不同的Copula函數，就有不同的聯合分布，而且其邊緣分布都一樣。

反過來，如果你只有條件分布，那麼這兩個條件分布已經完全告訴你X和Y是如何相依的，但是由於你缺少了邊緣分布的信息，所以仍然不能把聯合分布確定下來，給定不同邊緣分布，你也會有不同的聯合分布函數。

比如 @汪軻的反例中，兩個隨機變數是完全相互決定的，但是沒有邊緣分布的信息是不能確定聯合分布函數的，隨意給定一個邊緣分布都可以得到不同的聯合分布。這時候只要有了某一個隨機變數的邊緣分布，問題就解決了。

答案是不能。有人已經給出反例了，我給一個直覺上的理解吧。

可以把求聯合分布的過程想像成給一群人 (樣本空間) 比較身高 (概率密度) 的過程。

首先，在一個有離散二維坐標的空間中，讓這一群人隨意選擇一個位置站，不重疊。由題知，我們可以觀測任意行和任意列人群的相對身高 (條件概率密度)，然而想要知道所有人的相對身高(聯合分布)，我們必須在同一尺度下進行兩兩比較。

顯然，這樣的條件經常會失效。例如，某些關鍵位置上沒有人(概率密度為0) ，導致無法獲得一群人 (一部分樣本空間) 和另一群人(另一部分樣本空間) 的比較結果。高贊答案就是一個例子。

這應該已經是一個過定問題了（也不一定，有點小錯誤），也就是說如果對於樣本空間允許的所有X你都知道Y|X分布以及對於樣本空間所允許的Y都知道X|Y的分布的話，至多能求出一個滿足條件的聯合分布。

考慮一個簡單的例子吧，假設樣本空間是{1,2...n}×{1,2...n}，則確定這個分布需要n2-1個實數。

對於某個x∈{1,2...n}，知道Y|X=x就確立了n-1個方程，X|Y同理。因此全部已知條件確立了2n2-2n個方程，恆大於n2-1。方程多於未知數有可能是沒解的，因此至多可以得到一個滿足條件的聯合分布。（要看線性方程的秩，有可能是個欠定問題）

其實如果你能對於所有的x∈{1,2...n}，知道Y|X=x，以及對於任何一個y*∈{1,2...n}，知道X|Y=y*，恰好有n2-1個方程，這個分布就可以確定下來了。具體計算公式為P(X=x,Y=y) ∝ P(Y=y|X=x) * P(X=x|Y=y*) / P(Y=y*|X=x)。

反對高票答案

當已知的「X條件於Y的分布，以及Y條件於X的分布」是compatible時，是可以確定的：

$f_{ X,Y }=frac { f_{ Y|X } }{ int frac { f_{ Y|X } }{ f_{ X|Y } } , dy }$

不信？不妨計算看一看。

設X,Y 的聯合密度為 $f_{X,Y}(x,y)$ ，假設絕對連續

X的邊緣密度為 $f_X(x)=int f_{X,Y}(x,y) , dy$

Y的邊緣密度為 $f_Y(y)=int f_{X,Y}(x,y) , dx$

給定X，Y的條件密度為 $f_{Y|X}(y|x)=f_{Y|X=x}(y)=frac{f_{X,Y}(x,y)}{f_X(x)}$

給定Y，X的條件密度為 $f_{X|Y}(x|y)=f_{X|Y=y}(y)=frac{f_{X,Y}(x,y)}{f_Y(y)}$

那麼有

$frac{f_{Y|X}}{f_{X|Y}}= frac{frac{f_{X,Y}(x,y)}{f_X(x)}}{frac{f_{X,Y}(x,y)}{f_Y(y)}} =frac{f_Y(y)}{f_X(x)}$

所以

$frac{f_{Y|X}}{int frac{f_{Y|X}}{f_{X|Y}} , dy}=frac{f_{X,Y}(x,y)}{f_X(x) int frac{f_Y(y)}{f_X(x)} , dy}=frac{f_{X,Y}(x,y)}{int f_Y(y) , dy}=f_{X,Y}(x,y)$

但這是有條件的：

連續情況下要求

1. 二者支集(supp)相等

2. $frac{f_Y(y)}{f_X(x)}=u(x) v(y)$ 且 $int u(x) , dx<infty$

高維下也有類似結論和條件，詳情見參考文獻

Arnold, B., S. James Press. (1989). Compatible Conditional Distributions. Journal of the American Statistical Association, 84(405), 152-156. doi:10.2307/2289858

知道了兩個條件分布的關係也就確定了兩個獨立分布的關係用一個表示另外一個使之與定義相等解微分方程就得到了某一個獨立分布

copula正解 - 給定marginal distribution，copula不一樣可以生成不一樣的joint distribution

高票大神講的很清楚了。我補充個上課聽來在的在金融方面的應用：統計上來說金融數據一般有著長尾的特徵，大意就是真正數據在極大值/極小值的分布，比統計學常用的分布要高。例如我們有兩個資產回報，對一些factor回歸後剩下的非系統部分，一般都是認為是normal distributed的noise。但是問題在於，金融市場會出現大牛市/大熊市，這些"noise"在長尾的分布要比normal大。從風險管理角度來講，單個資產這麼做問題不大，畢竟長尾再長，也只是一點點；問題來自對兩個資產回報fit一個joint normal，其實就顯著地under-estimate了系統性風險 - 根據模型兩個資產同時跌50%的概率是0.001%(joint normal「短尾」)但實際上是0.01%(真正數據長尾)。所以人們想要找出一種數學模型能夠保留marginal distribution，但是在model joint distribution的時候又可以有一定的自由。什麼自由呢？指定長尾特徵的自由。

所以大衛李大神就創造出了copula（不是馬刺隊的大衛李o-o）copula叼的地方在於，金融分析師可以按照自己對市場的理(chui)解(niu)，規定不一樣的copula。而不一樣的copula就生成了不一樣的joint distribution，從而有不一樣的長尾的特徵。這樣，copula就成為了一個，風險管理裡面既scientific，又能夠發揮員工才(chui)能(niu)的工具。

拙見望大神指正。

什麼叫X相對於Y的條件分布= =......指的是我們知道兩個conditional expectation？那並不能得到聯合概率分布吧？