相關係數具有傳遞性嗎?

比如說 A 變數和 B 變數的相關性為 r1,B 和 C 的為 r2,那麼 A 和 C 的相關 r3 與 r1、r2 獨立嗎?


順著 @陳文欽 的思路,我來根據兩個相關係數,計算一下第三個相關係數的上下限。

設三個隨機變數A, B, C的方差分別為sigma_A, sigma_B, sigma_C,它們之間的相關係數分別為
ho_{AB}, 
ho_{AC}, 
ho_{BC}

這三個變數的協方差矩陣為

Sigma = left[ egin{array}{ccc}
sigma_{A}^2  
ho_{AB}sigma_{A}sigma_{B}  
ho_{AC}sigma_{A}sigma_{C} \

ho_{AB}sigma_{A}sigma_{B}  sigma_{B}^2  
ho_{BC}sigma_{B}sigma_{C} \

ho_{AC}sigma_{A}sigma_{C}  
ho_{BC}sigma_{B}sigma_{C}  sigma_{C}^2 end{array} 
ight]

此矩陣必須是非負定的。

由於方差都是非負的,這等價於下面的矩陣非負定:

A = left[ egin{array}{ccc}
1  x  y \
x  1  z\
y  z  1 end{array} 
ight]

其中,我把三個相關係數簡記為x, y, z。

矩陣A是實對稱陣,它有三個實特徵值。矩陣A非負定的充要條件是它的三個特徵值都是非負的。

列出特徵方程:

|lambda I - A| = left| egin{array}{ccc}
lambda - 1  -x  -y \
-x  lambda - 1  -z \
-y  -z  lambda - 1
end{array} 
ight| = 0

整理:

(lambda - 1)^3 - (x^2+y^2+z^2) (lambda - 1) - 2xyz = 0

lambda^3 - 3lambda^2 + (3-x^2-y^2-z^2)lambda + (x^2+y^2+z^2-2xyz-1) = 0

這是一個關於lambda的、三次項係數為1的一元三次方程。

對於方程lambda^3+blambda^2+clambda+d=0,在已知它的三個根都是實數的情況下,它的三個根lambda_1,lambda_2,lambda_3均非負的充要條件為:

left{ egin{array}{lc}
b = -(lambda_1+lambda_2+lambda_3) le 0  (1) \
c = lambda_1lambda_2 + lambda_1lambda_3 + lambda_2lambda_3 ge 0  (2) \
d = -lambda_1lambda_2lambda_3 le 0  (3)
end{array} 
ight.

(證明留給讀者)

在本例中,b=-3已經滿足(1)式;

由於x,y,z都是相關係數,它們的絕對值都小於等於1,所以(2)式即c=3-x^2-y^2-z^2 ge 0也成立。

這樣,協方差矩陣非負定充要條件就是(3)式,即x^2+y^2+z^2-2xyz-1 le 0

在已知兩個相關係數x,y的情況下,把上式看作關於第三個相關係數z的一元二次不等式:

z^2 - 2xyz + (x^2+y^2-1) le 0

其判別式Delta = 4x^2y^2 - 4(x^2+y^2-1) = 4(x^2-1)(y^2-1)

由於|x| le 1, |y| le 1,故Delta ge 0,所以z的取值範圍是一段區間,其上下限為:

z_1,z_2 = frac{2xy pm sqrt{4(x^2-1)(y^2-1)}}{2} = xy pm sqrt{1-x^2}sqrt{1-y^2}

也就是說,

xy-sqrt{1-x^2}sqrt{1-y^2} le z le xy+sqrt{1-x^2}sqrt{1-y^2}

到此,我們就顯式地給出了已知兩個相關係數的情況下,第三個相關係數的取值範圍。

可以看到,已知的兩個相關係數的絕對值越大,第三個相關係數的取值範圍就越小。

不過,這個結果能不能再直觀一點呢?

能!

由於所有相關係數都在-1到1之間,不妨設x = cosalpha, y = coseta, z = cosgammaalpha, eta, gamma in [0,pi]

於是有cosalpha coseta - sinalpha sineta le cosgamma le cosalpha coseta + sinalpha sineta

cos(alpha+eta) le cosgamma le cos(alpha-eta)

也就是|alpha - eta| le gamma le min(alpha + eta, 2pi - alpha - eta)

到了這裡就能看出來了,這個關係就是空間中共端點的三條射線所成的三個角應滿足的關係。

事實上,隨機變數可以看成無窮維空間中的向量,協方差是它們的內積,而相關係數是向量的夾角的餘弦。

在三個向量的夾角中有兩個(alpha,eta)已經確定的情況下,第三個夾角gamma的極值在三個向量共面的時候取得。

alpha,eta的非公共邊在公共邊的同側時,gamma取得最小值|alpha-eta|

alpha,eta「背靠背」的時候,gamma取得最大值min(alpha+eta, 2pi - alpha - eta)


相關係數的傳遞性需要對因果關係的假設。如果三個變數的關係可以用圖模型A-&>B-&>C來描述,並且這是從A到C的唯一道路,那麼r3=r1*r2。

這個問題最早是由Sewell Wright在20世紀20年代開始研究的,可以從這篇wikipedia開始看:Path analysis (statistics)。現代的更一般的描述可以看Judea Pearl的CAUSALITY, 2nd Edition, 2009。


這是常見的筆試題或面試題

答案是 有關係

由於這三個變數的相關矩陣非負定,由此可以根據其中兩個相關係數推出第三個相關係數的上限和下限。

一個簡單的例子:x和y相關係數為1,x和z相關係數為r,那麼y和z相關係數為r。


相關係數看作原隨機向量標準化後的向量夾角餘弦即可,然後用幾何觀點分析


A、B、C分別標準化,這樣一來相關係數就是協方差

A = r_{AB}B + X \
B = B\
C = r_{BC}B + Y

A、C關於B做正交分解,

VAR(X) = sqrt{1-r_{AB}^2}\
VAR(Y) = sqrt{1-r_{BC}^2}

這樣的話,

COV(A,C)=r_{AB}r_{BC} + COR(X,Y)cdot sqrt{(1-r_{AB}^2)(1-r_{BC}^2)}

COR(X,Y)的範圍是-1到1.


在一般情況下,相關係數矩陣最多會簡寫成三角陣,因此除了特殊情況,題主所提到的三個相關係數是沒有什麼關係的。


首先要說明一點,相關係數是數,談不上獨立。

能談獨立的是事件和隨機變數。

所以我猜測你的問題是第三個數是否可以表示成以前兩個數為自變數的函數。

事實上不可以,前兩個數只能給出第三個數的範圍,這是因為協方差陣是非負定的。


不具有。

1.金字塔的棱與相交的兩條底邊夾角都不是90度,但是這兩條底邊彼此是垂直關係。(甲與乙相關,乙與丙相關,但甲不一定與丙也相關。)

2.只要讓底邊B在正交於底邊A的平面上移動,即可在保持棱與底邊A夾角不變,且底邊A與底邊B垂直的情況下,實現棱和底邊B夾角變化。(甲與乙相關性發生改變時,甲與丙以及乙與丙的相關性不一定也改變。)

這三條線可以認為是三維空間中的三個向量,同樣的道理推廣到高維空間仍然適用。


不一定。如果A跟B完全相關,B跟C完全相關,則A跟C完全相關;如果A跟B完全獨立,B跟C完全相關,則A跟C完全獨立。部分相關的情況要複雜很多,沒有一個簡單的結論。


給出一個相關係數矩陣,無論多少階,可以用一個方法(至少我做過一個方法)判斷這個相關係數矩陣是否來自於一組時間序列計算生成的,也就是說偽造的相關係數矩陣可以被發現,作為一個特例,自然是可以推測出一個上下界。


推薦閱讀:

為什麼樣本量太大時用卡方檢驗做獨立性檢驗會失效?
如何有效處理特徵範圍差異大且類型不一的數據?
能否使用3的指數來減小二進位文件存儲的體積?
應該怎樣理解bootstrap的結果可以通過λ=1的泊松過程來模擬?
為什麼有些公司在機器學習業務方面傾向使用 R + Hadoop 方案?

TAG:數學 | 統計學 | 相關性分析 | 概率論 |