N個隨機變數之間的相關性兩兩小於0.7 ?

我不是來騙答案的,請不要關閉這個問題

你有N個trading strategy,每個都產生3天的PnL(3個PnL,也就是收益),求問你能否找出最大的N,使得這些strategy兩兩之間的PnL的Correlation小於0.7?

=======================

這題目我覺得是不是少了條件?或者需要事先給出PnL的分布?

樣本量畢竟只有三個。


答案是7。

這個問題如果是面試的話還挺有意思的。先定義名字吧,X_i代表第 i 個隨機變數,i in {1, 2, ..., N}X_i^k則是第 i 個隨機變數的第 k 個樣本,k in {1, 2, 3}

首先我們先簡化這個問題:這個問題並沒有提到X_i的任何性質,但是因為我們只關心他們兩兩之間的 correlation,定義是corr_{j, k} = frac{E[(X_i^k-mu_i) dot (X_j^k-mu_j)]}{sigma_i dot sigma_j},那麼我們可以不失普遍性地假設forall iin{1, 2, ..., N}, mu_i = 0, sigma_i=1,因為這些都只是scalar,不影響相關係數。

註:此處的mu_isigma_i是樣本均值和樣本標準差,跟X_i固有分布的性質不一定相同。

接下來我們就知道了,對於每一個X_i,都有兩條性質:

X_i^1 + X_i^2 + X_i^3 = 0 (1)

(X_i^1)^2 + (X_i^2)^2 + (X_i^3)^2 = 3 (2)

:看來有好多人沒明白這倆式子是什麼意思,其實我只是把均值和方差用和的形式表達出來了。此處的X_i^2的意思是X_i的第二個樣本,而不是X_i的二次方。至於為什麼可以設均值為0,方差為1上面也解釋過了,假如還是不明白請不要再問我了,謝謝)

那麼我們可以看出,如果把 (X_i^1, X_i^2, X_i^3) 當成一個向量的話,這個向量首先在(1)所描述的平面上,並且在(2)所描述的球體上,那麼很顯然這兩者的交界是一個以原點為圓心,半徑為sqrt{3}的圓。

以上是把這個問題標準化的過程。那麼問題就變成了,有N個由原點到上述圓周上的向量(標記為(x_i, y_i, z_i)),求最大的N使得任意 i, j, x_ix_j + y_iy_j + z_iz_j leq 0.7 * 3 = 2.1。(3)

這就很簡單了。首先觀察到兩個向量之和的二次模為:

(x_i+x_j)^2+(y_i+y_j)^2+(z_i+z_j)^2 = x_i^2+x_j^2+y_i^2+y_j^2+z_i^2+z_j^2+2x_ix_j+2y_iy_j+2z_iz_j,而右邊的前六項之和我們已經知道是6,而由(3)得出後三項的和不超過4.2,也就是說我們現在需且只需要求上述向量集中,任意兩個向量之和的二次模(長度平方)不超過10.2。

這時候就該餘弦定理登場啦!設這兩個向量的夾角為	heta_{i, j}0<	heta<pi),那麼根據餘弦定理,這兩個向量之和的二次模:

||v||^2 = ||v_i||^2 + ||v_j||^2 - 2cos(pi-	heta_{i, j})dot ||v_i|| dot ||v_j||

而我們已知||v_i||||v_j||都是sqrt3,帶入則知:

6-2cos(pi - 	heta_{i, j}) * 3 leq 10.2

cos(	heta_{i, j}) leq 0.7,得知forall i, j, 	heta_{i, j} geq 0.7953,也就是說任意兩向量的夾角不小於45.57度。

答案就很明顯了:N leq frac{360}{45.57},取整就是7。

註:做完之後我覺得真·大神應該會直接跳到上述的倒數第二行,不過我只能隱隱約約感到和夾角有關係,具體還需要推導,所以寫出了啰啰嗦嗦的一大堆思維過程。


當我看到這個題目,第一反應是想起了一篇paper ^_^

The Failure of Long-Term Capital Management

http://papers.ssrn.com/sol3/papers.cfm?abstract_id=952512


學渣硬要回答這個問題無異於自取其辱。

我來回答的原因就是想告訴樓主,題目我看不懂。


貌似是World Quant的面試題。問最多有多少個n維向量兩兩相關係數小於給定閾值C,來源於多策略組合中控制風險的問題。


高中解析幾何題套了一件統計的衣服。

隨機變數的相關性是希爾伯特空間中的「餘弦」。與之對應,樣本的相關性是歐式空間中的餘弦(這個結論完全可以在高中解析幾何範圍里得到)。

那這個題其實是在問,單位圓上最多放幾個點兩兩間餘弦小於0.7。

但這個問題推廣到希爾伯特空間是沒有意義的(因為答案是無窮多),所以本質上和統計沒關係。如果把術語解釋清楚,頭腦聰明些的高中生都會做。如果出題人自己再糊塗一點,樣本相關性和隨機變數相關性不區分標記,這題就完全沒有考察價值了。

PS:

記隨機變數X的三個樣本為x1 x2 x3, Y的三個樣本為y1, y2, y3。xi, yi分別中心化後得到si, ti, e.g. s1 = x1 - (x1+x2+x3)/3。

顯然,x和y的樣本相關性為cos(s,t), s = (s1, s2, s3),

t=(t1, t2, t3)。不妨設s和t的長度為1。又s1+s2+s3 = t1+t2+t3 = 0,s和t都在同一個二維線性子空間中。

由此,s和t都在二維子空間的單位圓上,而兩者的餘弦即樣本方差。


因為

corr_{i,j}=frac{1}{3cdotsigma_{i}sigma_{j} }( x_{i}x_{j}+y_{i}y_{j}+z_{i}z_{j})=frac{<X_{i}, X_{j}>}{sqrt{3}cdotsqrt{3} }<br />
=frac{<X_{i}, X_{j}>}{left|| X_{i}<br />
ight||cdot left|| X_{j}<br />
ight||}=cos(	heta _{i,j} )leq 0.7

所以直接到倒數第二行。。。

感謝@Jianchi Chen 拋玉引磚。。

===========

事實上,若對任意iin left{1,2,...N
ight},有sigma_{1,2,...N}=sigma, mu_{1,2...N}=0

則對於n維向量X_{i}=(x_{i}^{1}, x_{i}^{2}, ... x_{i}^{n}),有

left|| X_{i} 
ight||^{2} =sum_{k=1}^{n}{x_{i}^{k}}^{2}=nE(X_{i}^{2})=n(sigma^2+0^{2})=nsigma^{2},x_{i}^{k}X_{i}的第k個樣本

那麼

corr_{i,j}=frac{1}{ncdotsigma_{i}sigma_{j} }(sum_{k=1}^{n}{x_{i}^{k} x_{j}^{k}} )=frac{<X_{i}, X_{j}>}{sqrt{n}sigmacdotsqrt{n}sigma}<br />
=frac{<X_{i}, X_{j}>}{left|| X_{i}<br />
ight||cdot left|| X_{j}<br />
ight||}=cos(	heta _{i,j} )leq 0.7

亦即corr_{i,j}=cos(	heta _{i,j})恆成立。

但是更一般性的 mu_{1,2...N}
e0並沒有搞出來這個結論,求高人指點,求拍磚

不過正如 @郭倞 所說,這都然並卵。。


推薦閱讀:

P值與α值的關係?
一條長度為一的線段隨機分成五份,其中至少有一份>四分之一的幾率是多少?
人類行為服從的冪律分布是否違背了中心極限定理?
概率論問題:邏輯上說不通?
如足夠久,180萬隻猴子能不能敲出莎士比亞全集?

TAG:寬客Quant | 統計 | 金融 | 概率論 |