為什麼隨機變數X和Y不相關卻不一定獨立?
獨立的描述更加本質,它要求兩個變數時時刻刻都的確不會相互影響;
而不相關則是從統計角度上,描述兩個變數整體的數值表現,如果它們在整體上沒有出現數值一起改變跡象,算出來的協方差為0,那麼就是不相關的。但是未必兩個變數之間沒有相互影響。
舉個形象但未必完全準確的比方:
獨立:兩個完全不認識的人,沒有任何關聯,兩人之間自然不會有任何相互的影響。
不相關:通常也是兩個獨立沒有關聯的人,但也有可能是兩個有地下戀情的人。你觀察他們一段時間的行為表現,似乎沒有發現關聯,但實際上內心早已緊緊綁在了一起,只不過在裝。
回到數學上,不相關只是說兩個變數不線性相關,協方差為0。
協方差反映什麼?
如果兩個隨機變數,一個變大,另一個也跟著它變大,那麼協方差大於0;
如果一個變大另一個變小,那麼協方差小於0。
如果統計學上算下來,一個就不跟著另一個變化,那麼協方差等於0——它們倆不相關。
但是僅僅數值上的表現就能證明它們倆絕對沒有相互影響嗎?不,可能只是用協方差這個統計量算出來恰好是0,可能它們之間的影響體現在不易覺察的方面,比如方差。
為什麼隨機變數X和Y不相關卻不一定獨立? - 孫逍的回答
說的是對的,我舉個更直觀的例子吧
(X,Y) 均勻分布在單位元 x^2 + y^2 = 1上
X和Y的(線性)相關係數是0。為什麼呢?直觀來說,因為是個圓,如果你畫一條線性回歸的線,線的斜率是正的還是負的都不合適,因為是對稱的。數學上
因為
E(X|Y) = E(Y|X) = 0
所以
E(X) = E(Y) = 0,而且
E(XY) = E[E(XY|X)] = E[X E(Y|X) ] = 0
所以
Cov(X,Y) = E(XY) - E(X)E(Y) = 0但是X,Y 不是獨立的,因為Y的取值對於X的取值分布是影響的
首先,我們假定要研究的兩個隨機變數是X和Y。他們的聯合密度函數是f(x,y),X的邊緣密度g(x),Y的邊緣密度是h(y),他們的期望分別是EX和EY,方差是Var(X)和Var(Y),協方差為Cov(X,Y)=E(XY)-EXEY
然後,題主問的是隨機變數X和Y不相關卻不一定獨立?
這裡我們默認不相關指的是不線性相關,也就是協方差或者Pearson的線性相關係數為0
即Cov(X,Y)=E(XY)-EXEY=0 或者說 EXY=EXEY。
PS:一般來說,概率和統計中不加說明的使用不相關都是指線性相關係數為0。此外,相關係數不為0的情況,各式各樣的說法有很多,有的人會說這兩個隨機變數相關,有的人會說兩個隨機變數之間有一定的線性關係,顯得不嚴謹,因為xjb亂用的人太多了,總之怎麼舒服怎麼來,講清楚就ok。此外樓主說的是隨機變數,隨機變數的獨立要想嚴格討論一定要在概率的框架下面,此外隨機變數uncorrelated的定義就是協方差為0,請自行wiki。在統計中,獨立只出現在假設中,樣本本身是不能用來討論獨立性的,度量樣本相關性的量很多,除了Pearson的線性相關係數,還有Kendall』s tau,Spearman『s rho。
獨立就是兩個隨機變數相互獨立,等價於f(x,y)=g(x)h(y),即聯合密度函數等於兩個邊緣密度的乘積。對於離散的隨機變數會稍有不同,Pr(X=x,Y=y)=Pr(X=x)Pr(Y=y) for all x and y。
首先,很明確的告訴題主, 隨機變數的 不相關 和 獨立 在定義上就是不等價的。
獨立是不相關的充分不必要條件,即獨立可以推出不相關,反之不行。
Proof:如果已知f(x,y)=g(x)h(y),
獨立=&>相關 證畢
下面我們看相關!=&>獨立
如果已知 EXY=EXEY,顯然是無法推出,f(x,y)=g(x)h(y)。
我們只需要構造一個反例就可以了,
反例如下
X 是在-1,-1/2,0,1/2,1上等可能取值的隨機變數,即Pr(X=?)=1/5 for all ?,E(X)=0
Y=X^2,則Pr(Y=1)=2/5,Pr(Y=1/4)=2/5,Pr(Y=0)=1/5,E(Y)=1/2
XY=X^3的分布,是在-1,-1/8,0,1/8,1上等可能取值的隨機變數,即Pr(XY=?)=1/5 for all ?,E(XY)=0
E(XY)-EXEY=0
X與Y是不(線性)相關。
但是顯然他們不是獨立的(其實不顯然,這裡是要證明的,開動你們的腦筋,哈哈)
PS:給愛思考的孩子,為什麼相關係數為0呢,因為X和Y是perfect的quadratic relationship,taylor展開的一階項為0。
等我有時間再補一個連續型隨機變數的例子=w=這裡面有偷梁換柱的嫌疑,因為我的反例是離散情況下的,但是我想證反的是連續的情況~Update:連續的例子已經有人給出了,我可以安息了
加餐:
在某些特殊的情況下,不相關可以推出獨立,這時候不相關和獨立等價
1. X,Y的聯合分布服從二元高斯分布
2. X,Y都是兩值隨機變數(Bernoulli random variable)
第一個證明上網上一搜就有,自己證也很簡單。
第二個是我本科學概率論的課後習題,愛思考的孩子,加油哦~
所以我一看樓上幾個拚命用bernoulli r.v. 舉例子的仁兄,覺得特別可愛哦。
之前例子有問題,改一個好的。
---------------------
舉個反例就好了。
讓X 在[-1,1]上均勻分布。
當然你要想要什麼直覺意義上的描述,就是相關性的公式是以期望定義的,這是一個平均的性質。但獨立是對於種情況都要滿足。所以獨立比相關性的要求強。
PS:統計上相關性和線性相關不是一個概念。
先說說相關和獨立這兩個概念。直觀上來說,相關性是一個統計匯總的概念,獨立性是一個點對點的概念。統計匯總就像是有一組數,其和為0,點對點好比其中每一個元素為0。從信息的角度來說,顯然後者包含了更多的信息。我們很容易由後者得到前者的一些性質,但是無法從前者得之後者的性質。
很久沒看過概率了,沒記錯的話,相關是線性相關的縮寫。
不獨立當然不一定是線性相關。
數學的東西好好看看習題書就好了,舉個實際的並不特別恰當的例子。比如父子兩人反目,然後水火不容,漸漸的就可以說父子兩人不相關了。可是他們的關係真的可以獨立么?估計難吧,畢竟有著血緣關係哈!
相關性反應的實際上是一種線性關係,而獨立性則反映的是更為一般的線性無關性。
比較好的例子是正態分布關於正態分布的條件期望是那些正太分布的線性組合,而正態分布完全可由二階矩決定,因此正態分布不相關等價於獨立
反例其他回答已經舉了很多了,給一個直觀解釋。
獨立是說聯合分布函數等於分布函數的乘積,這個等式蘊含的信息量是很大的,你知道邊際分布,就知道聯合分布了。
不相關是說二階混合中心矩等於0,是一個平均值。這個等式只蘊含了一個信息。你可以想像,在只有一個混合矩確定的情況下,聯合分布函數仍然有很多變動的餘地。
這和方差一樣分布可能不一樣幾乎是一個道理。
相關指的是線性相關,即X Y 有 Y=aX+b 這樣的關係;獨立用通俗的話來講就是X的取值對Y不會產生任何影響,反之亦然,獨立的要求實際上是比相關更高的,獨立必定不相關,不相關卻未必獨立。例如說Y=X^2,這兩者就是不相關的,因為不存在線性關係,但從關係式就可以看出肯定不獨立。
獨立:沒有關係
不相關:沒有線性關係
沒有關係一定也沒有線性關係,但是沒有線性關係不一定沒有關係。
題主,相關(這裡指皮爾遜)是用矩定義的,獨立是用分布定義的,你可以想像一下是誰強誰弱了吧?唯有正態分布兩者等價。
哈哈哈哈 考研數學有辨析這個問題 不相關是Exy=Ex×Ey.獨立是Pxy=Px×Py.不相關是只考慮不是線性關係,即y=kx+b這種,獨立的話就要xy之間完全沒任何關係啦。
補充,它倆會在二維正態分布時充分必要
http://blog.csdn.net/ffeng271/article/details/7353881
獨立是用分布定義的,相關是用隨機變數的數值定義的,茆詩松書上寫的很清楚…有些概念真不適合腦洞大開
兩個隨機變數的「獨立」與「不相關」是兩個概念,不相關指的是兩個隨機變數X和Y沒有線性關係,而獨立指的是兩個隨機變數X和Y既沒有線性關係也沒有非線性關係,獨立一定不相關,但不相關不一定獨立。如圖。
簡單地說,這裡「不相關」的「相關」指的是線性相關性,相關性除了線性相關性之外還有非線性相關性,其他回答舉的例子就都是非線性相關性的,比如X與Y=X^2,而獨立性的要求更強,有非線性關係的兩個變數當然不是獨立的。
如圖所示:X和Y肯定不是獨立的(Y=X^2,即Y完全由X確定),但經過計算X與Y線性無關~
註:圖片來自學堂在線的課程:袁博《數據挖掘:理論與演算法》第三講(從貝葉斯到決策樹)第二部分(樸素是一種美德)
One is based on probability while the other one based on expectation.
推薦閱讀:
※如何理解及運用王和朗道演算法(Wang and Landau algorithm)?
※中醫黑們為什麼喜歡說概率?
※林卡爾天然鈣真的能提高生男孩么?如何說服身邊的人不要信這個?
※在北京大馬路上撞見自己某一個前男友/前女友的數學概率是多少?
※雙胞胎的基因有遺傳嗎?如果爸爸是雙胞胎,他的女兒懷上雙胞胎的概率有多少?