N個隨機變數之間的相關性兩兩小於0.7 ?
我不是來騙答案的,請不要關閉這個問題
你有N個trading strategy,每個都產生3天的PnL(3個PnL,也就是收益),求問你能否找出最大的N,使得這些strategy兩兩之間的PnL的Correlation小於0.7?=======================
這題目我覺得是不是少了條件?或者需要事先給出PnL的分布?樣本量畢竟只有三個。
答案是7。
這個問題如果是面試的話還挺有意思的。先定義名字吧,代表第 i 個隨機變數,;則是第 i 個隨機變數的第 k 個樣本,。
首先我們先簡化這個問題:這個問題並沒有提到的任何性質,但是因為我們只關心他們兩兩之間的 correlation,定義是,那麼我們可以不失普遍性地假設,因為這些都只是scalar,不影響相關係數。
註:此處的和是樣本均值和樣本標準差,跟固有分布的性質不一定相同。
接下來我們就知道了,對於每一個,都有兩條性質:
(1) (2)(注:看來有好多人沒明白這倆式子是什麼意思,其實我只是把均值和方差用和的形式表達出來了。此處的的意思是的第二個樣本,而不是的二次方。至於為什麼可以設均值為0,方差為1上面也解釋過了,假如還是不明白請不要再問我了,謝謝)
那麼我們可以看出,如果把 () 當成一個向量的話,這個向量首先在(1)所描述的平面上,並且在(2)所描述的球體上,那麼很顯然這兩者的交界是一個以原點為圓心,半徑為的圓。
以上是把這個問題標準化的過程。那麼問題就變成了,有N個由原點到上述圓周上的向量(標記為),求最大的N使得任意 i, j, 。(3)
這就很簡單了。首先觀察到兩個向量之和的二次模為:
,而右邊的前六項之和我們已經知道是6,而由(3)得出後三項的和不超過4.2,也就是說我們現在需且只需要求上述向量集中,任意兩個向量之和的二次模(長度平方)不超過10.2。這時候就該餘弦定理登場啦!設這兩個向量的夾角為(),那麼根據餘弦定理,這兩個向量之和的二次模:
而我們已知和都是,帶入則知:
即,得知,也就是說任意兩向量的夾角不小於45.57度。
答案就很明顯了:,取整就是7。
註:做完之後我覺得真·大神應該會直接跳到上述的倒數第二行,不過我只能隱隱約約感到和夾角有關係,具體還需要推導,所以寫出了啰啰嗦嗦的一大堆思維過程。當我看到這個題目,第一反應是想起了一篇paper ^_^
The Failure of Long-Term Capital Managementhttp://papers.ssrn.com/sol3/papers.cfm?abstract_id=952512學渣硬要回答這個問題無異於自取其辱。
我來回答的原因就是想告訴樓主,題目我看不懂。貌似是World Quant的面試題。問最多有多少個n維向量兩兩相關係數小於給定閾值C,來源於多策略組合中控制風險的問題。
高中解析幾何題套了一件統計的衣服。
隨機變數的相關性是希爾伯特空間中的「餘弦」。與之對應,樣本的相關性是歐式空間中的餘弦(這個結論完全可以在高中解析幾何範圍里得到)。
那這個題其實是在問,單位圓上最多放幾個點兩兩間餘弦小於0.7。
但這個問題推廣到希爾伯特空間是沒有意義的(因為答案是無窮多),所以本質上和統計沒關係。如果把術語解釋清楚,頭腦聰明些的高中生都會做。如果出題人自己再糊塗一點,樣本相關性和隨機變數相關性不區分標記,這題就完全沒有考察價值了。
PS:
記隨機變數X的三個樣本為x1 x2 x3, Y的三個樣本為y1, y2, y3。xi, yi分別中心化後得到si, ti, e.g. s1 = x1 - (x1+x2+x3)/3。顯然,x和y的樣本相關性為cos(s,t), s = (s1, s2, s3),
t=(t1, t2, t3)。不妨設s和t的長度為1。又s1+s2+s3 = t1+t2+t3 = 0,s和t都在同一個二維線性子空間中。由此,s和t都在二維子空間的單位圓上,而兩者的餘弦即樣本方差。因為
所以直接到倒數第二行。。。感謝@Jianchi Chen 拋玉引磚。。
===========事實上,若對任意,有則對於n維向量,有,為的第k個樣本那麼亦即恆成立。但是更一般性的並沒有搞出來這個結論,求高人指點,求拍磚不過正如 @郭倞 所說,這都然並卵。。推薦閱讀:
※P值與α值的關係?
※一條長度為一的線段隨機分成五份,其中至少有一份>四分之一的幾率是多少?
※人類行為服從的冪律分布是否違背了中心極限定理?
※概率論問題:邏輯上說不通?
※如足夠久,180萬隻猴子能不能敲出莎士比亞全集?