請問為何「E(XY)=E(X)E(Y)」或者「相關係數=0」等價於「變數之間沒有線性關係」?有沒有幾何解釋呢?

1.請問能證明下為何E(XY)=E(X)E(Y)等價於線性不相關嗎?好像只看到過結論沒見過證明… 感覺E(XY)=E(X)E(Y)看起來這麼對稱竟然是給非線性好不甘心啊:(

============================================================

新增問題:

2.相關係數是什麼,有沒有幾何意義

3.最小回歸中b是什麼,有沒有幾何意義

4.Y=X^2真的一定 相關係數=0嗎?


獨立是強於不相關的一個概念,獨立意味著不相關,不相關不意味著獨立:

E(XY)=E(X)E(Y)=&>Cov(X,Y)=0(因為cov(x,y)=E(xy)-ExEy)

對於協方差和相關係數,搬運一個我的回答:

如何通俗易懂地解釋「協方差」與「相關係數」的概念? - 黎韜的回答 - 知乎


這個用證明么?

兩個隨機變數不相關的定義就是協方差為0,協方差為0的直接推論就是,EXY=EXEY

線性是什麼?linear

一條直線,y=ax+b是線性,y和x之間有線性關係

線性代數 v=Aw,v和w是向量, A是一個矩陣(線性變換),v和w之間有線性關係

兩個隨機變數有線性關係很自然,就是X=aY+b呀

這時候你可以去算他們的相關係數

EXY=EXEY 這是在描述兩個隨機變數X和Y的乘積的性質,注意這裡X和Y是用乘法聯繫的,X和Y之間的關係呈現非線性很奇特么?

題主應該好好看概率論與數理統計

可以參考一下這個

為什麼隨機變數X和Y不相關卻不一定獨立? - 孫逍逍的回答


證明:

E(XY)=?xy f(x,y) d xd y

由隨機變數X,Y相互獨立,知:

f(x, y)=f(x)f(y)

從而

E(XY)=?x yf(x)f(y)d x d y

=∫x f(x)d x∫y f(y)d y

=E(X)E(Y)

Q. E. D

因為這個證明裡已經含有了相互獨立,所以從而能夠推導出隨機變數X,Y線性不相關,但是反過來線性不相關是不能推導出相互獨立的。

---------------------------------------------------------------------------------------------------------------

相關係數的定義以及證明

定義:相關係數(度量線性相關性)
ho _{x,y} =frac{cov(x,y)}{sqrt{x} sqrt{y} }

證明:

考慮用a+bX來近似的表示變數Y,用均方誤差e=E[(Y-(b-aX))^{2} ]來表示a+bXY的近似程度。

化簡得e=E[(Y-(b-aX))^{2} ]=E(Y^{2} )+b^{2} E(X^{2} )+a^{2} -2bE(XY)+2abE(X)-2aE(Y)

e求偏導

frac{partial e}{partial a} =2a+2bE(X)-2E(Y)

frac{partial e}{partial b} =2bE(X^{2} )-2E(XY)+2aE(X)

frac{partial e}{partial a} =0,frac{partial e}{partial b} =0,解得

b_{0} =frac{cov(X,Y)}{D(X)} ,a_{0} =E(Y)-b_{0}E(X) =E(Y)-E(X)frac{cov(X,Y)}{D(X)}

代入b_{0} ,a_{0} a+bX中得

min E[(Y-(a+bX))^{2} ]=(1-
ho _{X,Y} ^{2} )D(Y)

由此可知當
ho _{X,Y} =0取得最大值,變數X,Y完全線性不相關;當
ho _{X,Y} =1時取得最小值,變數X,Y完全線性相關。

Q.E.D

題主好像沒有搞清楚線性不相關的獨立的概念,獨立能推導出線性不相關,但是線性不相關是不能推導出獨立的。


寫在前面:

感謝 @李光頭的回答!!

他的回答給了初學者的我一個很好的方向

因為以前我學回歸是完全沒有方向的,看到這些定義也沒有去想(實際上也沒想到..)i

======================================================================

經過自己這幾天的學習

大概分享下自己的心得

雖然估計也沒啥人會看到

但是希望對以後來恰巧也來搜這個題目的人能有些幫助~

如果能幫助對回歸分析初步的直觀理解的話那最開心不過!

如果有任何錯誤,希望千萬不要保留指出!!

首先是對相關係數的理解:

定義:

1.Cov(X,Y) ={Sigma (x-mu _{x} )(y-mu _{y} )}

2.
ho _{XY} =frac{Cov(X,Y)}{sigma_{X}sigma_{Y} }

帶入表達式得到


ho _{XY} =frac{Sigma (x-mu _{x} )(y-mu _{y} )}{sqrt{Sigma (x-mu _{x})^{2} } sqrt{Sigma (y-mu _{y})^{2} } }

這是啥?剛開始學的時候我就暈了,

這也是為什麼我會提問線性這個性質和
ho 到底有啥關係

感謝李光頭,讓俺發現了

這和向量有關!!

X

Y

所以Cov(X,Y)就是A,B的內積嘛:


ho _{XY} =frac{X

那麼相關係數
ho 就是X,Y夾角的餘弦值嘛!

所以
ho _{XY} =cos	heta ,	heta 為X",Y"的夾角.

(想提醒一下各位,這裡X" 的定義不是可不是(x_{1},x_{2},..x_{n} ),

而是X噢~

有一個好處在於其長度正好是是標準差!)

看到這一步,我對回歸的恐懼就消失了大半了

因為,哇!原來定義是這麼的直覺!

那麼接下來可以得到哪些結論呢?

顯然的一個是:


ho =pm 1,即X",Y"共線, 有A"=kB"

那麼就有y_{i}-mu _{y}=k(x_{i}-mu _{x})  ,這是啥?

標準的直線方程嘛 線性嘛!

那麼當
ho 
e pm 1時候呢?

那就表明此時並沒有y_{i}-mu _{y}=k(x_{i}-mu _{x})  了,不過也許可以把等號改成約等於號?或者改成y_{i}-mu _{y}=k(x_{i}-mu _{x})  +varepsilon _{i} 反正varepsilon _{i} 就是我解釋不出來的東東...那麼這樣e=(varepsilon _{1},varepsilon _{2},...,varepsilon _{n})也可以組成一個

這樣可以看到此時,雖然X" Y"不共線,但是Y"可以分解成一段共線的kX『和一段完全沒有線性關係(垂直)的e,此時說明的就是X" Y"有線性關係但是又不是全是(XD)

有一點我覺得值得提醒的是

其他答案中舉例說如果Y=X^2啊Y=sin(X)時
ho 就等於0了

這樣看來是不對的

因為圖上看,線性總體來說Y的值有或沒有隨著X的趨勢變化才是
ho 意涵吧

所以如果假設X&>0(Y=X^2例中)或者-π/2&(完全等於0時應該圖像會有軸對稱吧?~)

再來是線性係數和線性回歸的最小二乘法的關係的理解了

其實我們上面的過程幾乎已經快要做完最小二乘了,上面e不就是最小二乘中定義的那個Y-	ilde{Y} q其中僅對一元回歸的話就是ar{Y}=b_{0} +b_{1} X

最小化e正是要有eot X!

此時得出b_{1}=frac{left| Y 
ight| cos(	heta )}{left| X 
ight| } =frac{left| Y 
ight| 
ho }{left| X 
ight| }=k的結論幾何意義也就很明顯了。

b_{1} 是啥?是當x與ar{x} 距離x-ar{x}

y會距離ar{y} 多少,「理論上」.

因為{left| Y 
ight| 
ho }={left| Y 
ight| cos(	heta ) }是Y"在X』上投影的長度

換句話說b_{1} 就是 【Y"在X』上投影的長度】和【X"長度】 的比值

再考慮到前面說X『和Y』的特性

b_{1} 就是 【Y"因X"變動而變動所帶來的標準差】和【X"標準差】的比值

那麼如果是多元呢?

稍微看下,加入Y=b_{0}+b_{1}X_{1} +b_{2}X_{2}+varepsilon

給出已有結論:

b_{1}=frac{Sigma (y_{i}-ar{y})(x_{1i}-ar{x_{1}})Sigma (x_{2i}-ar{x_{2}})^{2}-Sigma (y_{i}-ar{y})(x_{2i}-ar{x_{2}})Sigma (x_{1i}-ar{x_{1}})(x_{2i}-ar{x_{2}})}{Sigma (x_{1i}-ar{x_{1}})^{2}Sigma (x_{2i}-ar{x_{2}})^{2}-[Sigma (x_{1i}-ar{x_{1}})(x_{2i}-ar{x_{2}})]^{2} }

這個公式是不是有點喪心病狂的感覺...

不要緊,我們試著用前面的步驟來推推看這到底是啥~

我們先令

X_{1}

X_{2}

Y

帶到b_{1} 中得到:

b_{1}=frac{(Y

	heta _{y,1},	heta _{y,2},	heta _{1,2} 分別為(Y的夾角

則有b_{1}=frac{(left| Y

最後得到b_{1}=frac{left| Y

還沒感覺?不要緊 我來幫您複習一下高中數學XD:

有感覺了嗎?~

最後再來理解下常態方程:

(X^{T}X)b=XY是啥?

轉成向量運算形式left| X 
ight| ^{2} b=Xullet Y

推得 b=frac{Xullet Y}{left| X 
ight| ^{2}} =frac{left| Y 
ight| }{left| X 
ight|}cos	heta  嘻嘻 懂了吧?

但是這裡

X=(x_{1},x_{2},...,x_{n})以及Y=(y_{1},y_{2},...,y_{n})

WHY?往下看看()

附一張圖

其中A-DE-G反應的是常態公式

而A-DE-F反應的是SST=SSR+SSE

其中向量AG=(1,1,...,1)從而ar{Y} 與其共線,而C則代表任意一點,而E則是使Y-Y_{estimated}最小的過程~注:Y_{estimated}為圖中頭上有圓弧的Y~

我們來證明一下這邊為什麼此時有Y_{estimated}-ar{Y} X-ar{X} 共線(平行)

我們把尋找在最小e的過程的圖去掉

首先證明:

向量AFot 向量DF

AFullet DF=Sigma ar{Y}(Y-ar{Y} ) =ar{Y}Sigma (Y-ar{Y} )=ar{Y}(Sigma Y-nar{Y} )=0

得證!

又有 向量DEot 向量AF

可知 向量AF 垂直於 面DEF

所以 向量AFot 向量FE

也就是Y_{estimated}-ar{Y} ot 向量AF

而 向量AF=k(1,1,1,,1) 原因是b_{0}=(1,1,1,...,1)

所以AFullet (X-ar{x} )=kSigma (x_{i}-ar{x} ) =0

X-ar{X} ot 向量AF

所以Y_{estimated}-ar{Y} 平行於


線性不相關是Linear independent,你說的應該是獨立,就是independent。並且你的兩個結論不等價,獨立的等價條件是P(X=x,Y=y)=P(X=x)P(Y=y),而E(XY)=(求和取所有x,y的可能值)xyP(X=x,Y=y)。由獨立可以把P拆開,就得到了E(XY)=E(X)E(Y)。

反過來E(XY)=E(X)E(Y)不一定能推出X和Y是獨立的,所以兩者不等價。

-------------------------------------------------------------------------------------------------------------------------------------

發現我誤解了問題,這是我的第二個回答:

那就是Correlation(Pearson"s)?不好意思因為不接觸中文術語太久了。Correlation是用協方差算出來的,是兩個隨機變數的協方差除以它們的標準差。這個數字是1或者-1說明兩個隨機變數完全線性相關,是0說明兩個隨機變數線性不相關(當然有可能是非線性關係比如Y=X^2)。E(XY)=E(X)E(Y)等價於協方差是0,於是也等價於Correlation是0。

--------------------------------------------------------------------------------------------------------------------------------------

那為啥完全相關的時候Correlation是1呢?其實有很多方法都可以說明,感覺用幾何的方法說明更好,但是我折騰了半天發現自己畫圖無能,只好簡單說說Idea。簡單來說你有一列X的觀測值的向量,有一列Y的觀測值的向量,Correlation其實就是對兩列向量進行標準化(減去平均數除以標準差)之後算出的夾角的餘弦。如果X和Y是一個完美的線性關係,那麼這個夾角應該是0。比如向量(1,2)和(2,4)的夾角是0,所以這個夾角的餘弦就是1。如果X和Y得出的了一堆觀測值,你把它們放在一起,兩個向量總是正交,比如如果Y=X^2,你可能會得到(1,-1)和(1,1)兩個向量,這個時候向量的夾角是90度,它的餘弦是0。

如果單說Correlation=1的情況,又想了另外一個比較簡單的方法,其實就兩點:

第一,根據Correlation的定義,X和X自己的Correlation是Cov(X,X)/SD(X)SD(X),其實就是Var(X)/Var(X)=1.

第二,只要能證明當Y=aX+b的時候,correlation不變,那麼X和Y的correlation就等於X和它自己的correlation。再根據第一點得出,此時Correlation是1。

第二點並不難證,因為b這個常數對Cov和SD都沒有影響,a可以上下約掉。

目前還沒想出一個特別完美又簡潔的證明,看看有沒有大神出現,希望問主有一點點幫助。


推薦閱讀:

在進行 OLS 估計時,為了滿足 BLUE 條件,為什麼會有 X 取值要在重複抽樣時固定的前提?
學生化殘差中的學生化是什麼意思?
非線性回歸的驗證?
線性回歸中,殘差的和為什麼等於0?這個假設的依據是什麼?
線性回歸的相關指數R平方的表達式(見圖)是怎麼來的?

TAG:數學 | 統計 | 線性代數 | 計量經濟學 | 線性回歸 |