請問為何「E(XY)=E(X)E(Y)」或者「相關係數=0」等價於「變數之間沒有線性關係」?有沒有幾何解釋呢?
1.請問能證明下為何E(XY)=E(X)E(Y)等價於線性不相關嗎?好像只看到過結論沒見過證明… 感覺E(XY)=E(X)E(Y)看起來這麼對稱竟然是給非線性好不甘心啊:(
============================================================新增問題:2.相關係數是什麼,有沒有幾何意義3.最小回歸中b是什麼,有沒有幾何意義4.Y=X^2真的一定 相關係數=0嗎?
獨立是強於不相關的一個概念,獨立意味著不相關,不相關不意味著獨立:E(XY)=E(X)E(Y)=&>Cov(X,Y)=0(因為cov(x,y)=E(xy)-ExEy)對於協方差和相關係數,搬運一個我的回答:如何通俗易懂地解釋「協方差」與「相關係數」的概念? - 黎韜的回答 - 知乎
這個用證明么?
兩個隨機變數不相關的定義就是協方差為0,協方差為0的直接推論就是,EXY=EXEY線性是什麼?linear
一條直線,y=ax+b是線性,y和x之間有線性關係 線性代數 v=Aw,v和w是向量, A是一個矩陣(線性變換),v和w之間有線性關係兩個隨機變數有線性關係很自然,就是X=aY+b呀
這時候你可以去算他們的相關係數EXY=EXEY 這是在描述兩個隨機變數X和Y的乘積的性質,注意這裡X和Y是用乘法聯繫的,X和Y之間的關係呈現非線性很奇特么?題主應該好好看概率論與數理統計可以參考一下這個為什麼隨機變數X和Y不相關卻不一定獨立? - 孫逍逍的回答證明:E(XY)=?xy f(x,y) d xd y由隨機變數X,Y相互獨立,知:f(x, y)=f(x)f(y)
從而
E(XY)=?x yf(x)f(y)d x d y =∫x f(x)d x∫y f(y)d y =E(X)E(Y)Q. E. D因為這個證明裡已經含有了相互獨立,所以從而能夠推導出隨機變數X,Y線性不相關,但是反過來線性不相關是不能推導出相互獨立的。---------------------------------------------------------------------------------------------------------------相關係數的定義以及證明定義:相關係數(度量線性相關性)證明:考慮用來近似的表示變數,用均方誤差來表示與的近似程度。
化簡得對求偏導令,解得代入到中得由此可知當取得最大值,變數X,Y完全線性不相關;當時取得最小值,變數X,Y完全線性相關。Q.E.D
題主好像沒有搞清楚線性不相關的獨立的概念,獨立能推導出線性不相關,但是線性不相關是不能推導出獨立的。寫在前面:
感謝 @李光頭的回答!! 他的回答給了初學者的我一個很好的方向 因為以前我學回歸是完全沒有方向的,看到這些定義也沒有去想(實際上也沒想到..)i======================================================================經過自己這幾天的學習
大概分享下自己的心得雖然估計也沒啥人會看到但是希望對以後來恰巧也來搜這個題目的人能有些幫助~
如果能幫助對回歸分析初步的直觀理解的話那最開心不過!如果有任何錯誤,希望千萬不要保留指出!!首先是對相關係數的理解:
定義:1.2.帶入表達式得到這是啥?剛開始學的時候我就暈了,這也是為什麼我會提問線性這個性質和到底有啥關係
感謝李光頭,讓俺發現了
這和向量有關!!所以Cov(X,Y)就是A,B的內積嘛:
那麼相關係數就是X,Y夾角的餘弦值嘛!所以,為X",Y"的夾角.(想提醒一下各位,這裡X" 的定義不是可不是,而是噢~
有一個好處在於其長度正好是是標準差!)看到這一步,我對回歸的恐懼就消失了大半了
因為,哇!原來定義是這麼的直覺!那麼接下來可以得到哪些結論呢?
顯然的一個是: 當,即X",Y"共線, 有A"=kB" 那麼就有,這是啥? 標準的直線方程嘛 線性嘛!那麼當時候呢?
那就表明此時並沒有了,不過也許可以把等號改成約等於號?或者改成反正就是我解釋不出來的東東...那麼這樣也可以組成一個這樣可以看到此時,雖然X" Y"不共線,但是Y"可以分解成一段共線的kX『和一段完全沒有線性關係(垂直)的e,此時說明的就是X" Y"有線性關係但是又不是全是(XD)有一點我覺得值得提醒的是
其他答案中舉例說如果Y=X^2啊Y=sin(X)時就等於0了這樣看來是不對的因為圖上看,線性總體來說Y的值有或沒有隨著X的趨勢變化才是意涵吧所以如果假設X&>0(Y=X^2例中)或者-π/2&再來是線性係數和線性回歸的最小二乘法的關係的理解了
其實我們上面的過程幾乎已經快要做完最小二乘了,上面e不就是最小二乘中定義的那個 q其中僅對一元回歸的話就是最小化e正是要有!此時得出的結論幾何意義也就很明顯了。是啥?是當x與距離時 y會距離多少,「理論上」.因為是Y"在X』上投影的長度換句話說就是 【Y"在X』上投影的長度】和【X"長度】 的比值再考慮到前面說X『和Y』的特性就是 【Y"因X"變動而變動所帶來的標準差】和【X"標準差】的比值那麼如果是多元呢?稍微看下,加入給出已有結論:這個公式是不是有點喪心病狂的感覺...不要緊,我們試著用前面的步驟來推推看這到底是啥~我們先令帶到中得到:設分別為的夾角則有最後得到還沒感覺?不要緊 我來幫您複習一下高中數學XD:有感覺了嗎?~最後再來理解下常態方程:
是啥?轉成向量運算形式推得嘻嘻 懂了吧?但是這裡以及WHY?往下看看()附一張圖其中A-DE-G反應的是常態公式而A-DE-F反應的是SST=SSR+SSE其中向量AG=(1,1,...,1)從而與其共線,而C則代表任意一點,而E則是使最小的過程~注:為圖中頭上有圓弧的Y~我們來證明一下這邊為什麼此時有和共線(平行)我們把尋找在最小e的過程的圖去掉首先證明:向量AF向量DF得證!
又有 向量DE向量AF可知 向量AF 垂直於 面DEF所以 向量AF向量FE也就是向量AF而 向量AF=k(1,1,1,,1) 原因是所以向量AF所以平行於線性不相關是Linear independent,你說的應該是獨立,就是independent。並且你的兩個結論不等價,獨立的等價條件是P(X=x,Y=y)=P(X=x)P(Y=y),而E(XY)=(求和取所有x,y的可能值)xyP(X=x,Y=y)。由獨立可以把P拆開,就得到了E(XY)=E(X)E(Y)。
反過來E(XY)=E(X)E(Y)不一定能推出X和Y是獨立的,所以兩者不等價。
-------------------------------------------------------------------------------------------------------------------------------------發現我誤解了問題,這是我的第二個回答:那就是Correlation(Pearson"s)?不好意思因為不接觸中文術語太久了。Correlation是用協方差算出來的,是兩個隨機變數的協方差除以它們的標準差。這個數字是1或者-1說明兩個隨機變數完全線性相關,是0說明兩個隨機變數線性不相關(當然有可能是非線性關係比如Y=X^2)。E(XY)=E(X)E(Y)等價於協方差是0,於是也等價於Correlation是0。--------------------------------------------------------------------------------------------------------------------------------------那為啥完全相關的時候Correlation是1呢?其實有很多方法都可以說明,感覺用幾何的方法說明更好,但是我折騰了半天發現自己畫圖無能,只好簡單說說Idea。簡單來說你有一列X的觀測值的向量,有一列Y的觀測值的向量,Correlation其實就是對兩列向量進行標準化(減去平均數除以標準差)之後算出的夾角的餘弦。如果X和Y是一個完美的線性關係,那麼這個夾角應該是0。比如向量(1,2)和(2,4)的夾角是0,所以這個夾角的餘弦就是1。如果X和Y得出的了一堆觀測值,你把它們放在一起,兩個向量總是正交,比如如果Y=X^2,你可能會得到(1,-1)和(1,1)兩個向量,這個時候向量的夾角是90度,它的餘弦是0。如果單說Correlation=1的情況,又想了另外一個比較簡單的方法,其實就兩點:
第一,根據Correlation的定義,X和X自己的Correlation是Cov(X,X)/SD(X)SD(X),其實就是Var(X)/Var(X)=1.第二,只要能證明當Y=aX+b的時候,correlation不變,那麼X和Y的correlation就等於X和它自己的correlation。再根據第一點得出,此時Correlation是1。第二點並不難證,因為b這個常數對Cov和SD都沒有影響,a可以上下約掉。目前還沒想出一個特別完美又簡潔的證明,看看有沒有大神出現,希望問主有一點點幫助。推薦閱讀:
※在進行 OLS 估計時,為了滿足 BLUE 條件,為什麼會有 X 取值要在重複抽樣時固定的前提?
※學生化殘差中的學生化是什麼意思?
※非線性回歸的驗證?
※線性回歸中,殘差的和為什麼等於0?這個假設的依據是什麼?
※線性回歸的相關指數R平方的表達式(見圖)是怎麼來的?