隨機變數的獨立性和相關性有什麼聯繫?相關係數為零能說明什麼?

我知道相關係數為零並不能說明兩個隨機變數獨立,但是能說明什麼問題呢?


相關係數為0是兩變數獨立的必要非充分條件。相關係數反映的是兩變數間的線性關係,但是變數間除了線性關係還有其它關係,這時候相關係數就不能作為一種度量了。

第一行,X,Y坐標展現的點圖線性越強,相關係數絕對值更大。

第二行,更加明顯。

第三行,非線性相關但顯然X,Y是不獨立的。或者:假設x從-1到1,y=x^2,相關係數為0但是非獨立。


以二元為例。兩個隨機變數x和y之間的關係:

1. 獨立:即x和y沒有關係

x取什麼值,對y的取值絲毫不產生影響,反之也成立。

2. 不獨立:即x和y有關係f(x,y)=0,暫且表示成y=f(x)

2.1. 線性關係,即映射f是線性映射,即滿足(1) f(a+b)=f(a)+f(b) (2) f(ca)=cf(a)。

統計模型中存在隨機擾動項e,即y=f(x)+e。相關係數這個指標,是在假定映射關係f是線性映射時,反映一組樣本(x,y)線性關係f的確定性,或信噪(比)。

2.2. 其它關係,即映射f非線性映射,意味著x和y仍然存在某種映射關係,或在幾何上講,存在某種模式(pattern),但這種映射或模式均不為線性關係。

多元以此類推。

綜上,

1. 統計學上常指的「相關性」通常是指「線性相關性」,與獨立性並非對立互補

2. 相關係數衡量一組樣本(x,y)線性關係f的確定性,或信噪(比)。

3. 相關係數為零說明隨機變數之間沒有確定的線性關係,但並不意味著隨機變數之間沒有更為複雜的關係,所以相關係數為零不意味著變數間獨立。


隨機變數的獨立,表明兩變數相關性為0,x並不會隨著y的變化而變化。平時常說的相關係數,一般指線性相關係數,為0表示兩變數沒有線性相關性,但有可能有非線性相關。

具體的論述可以參看下面的截圖:

原文鏈接: [量化學堂-數學知識]相關關係


相關關係一般是由相關係數來度量。而相關係數本身所描述的是兩個隨機變數之間的線性擬合程度(具體公式樓上做了很好工作)。相關係數等於1與兩個隨機變數之間存在線性關係二者之間是充分必要關係。

但是,兩個隨機變數之間如果是平方關係,相關係數會為0.這意味著二者之間沒有線性關係,並不是說二者之間沒有關係。畢竟,知道一個隨機變數的取值,另一個值也可以通過平方關係計算出來。感覺與泰勒展開的線性部分有點瓜葛,具體有興趣的話可以嘗試著推演。

相關性出現的場景:

線性回歸模型裡面的相關係數與偏相關係數。

內生性原因之一:解釋變數與擾動項相關。

線性回歸模型解釋變數之間的多重共線性與相關性之區別。

最後,可以考慮線性模型為什麼在大多數情況下是夠用的?為什麼在大多數情況下線性模型本身就能夠說明問題,並不需要變數之間的具體函數關係?線性模型設定說明什麼問題,真實的函數關係還是變數之間的相關關係?

關於線性回歸模型所刻畫的對象,在此提一些拙見,拋磚引玉。

那二元線性回歸模型來說,兩個隨機變數之間的關係一樓的圖例畫的很清楚:兩個隨機變數在二維坐標繫上的真實描點。線性回歸模型刻畫的是其中的線性成分。例如:坐標繫上的橢圓「關係」中構建(抽象)出存在於其中的線性關係。換言之,存在於真實關係中的線性關係本身才是線性回歸模型所關心並刻畫的對象。

肯定有人會問,從真實關係(橢圓)中抽象出來的線性關係成分有什麼用?為什麼不直接去刻畫真實的關係?關於這一點 @慧航做了很好的回答。

關注可從真實關係中抽象出的線性關係,用另一種說法,關注線性擬合或者擬合出的線性關係,可能才是線性回歸的本質。

如何基於真實關係構建線性關係?一般的方法的是取平均,這一思想進一步發展為最小二乘(這一段歷史很有趣)。但是,如果是圓盤關係,那麼,最小二乘沒有唯一解,這意味著基於圓盤這一真實關係通過最小二乘標準可以獲得不止一條線性關係。

能否可以從真實關係中構建出線性關係?例如圓盤、二次方關係等等。如果沒有線性關係成分是否可以進行線性關係設定?有興趣的話可以自行討論模型設定錯誤的後果。


推薦閱讀:

如何證明無理數的個數比有理數多?
傅立葉變換、拉普拉斯變換、Z變換的聯繫?為什麼要進行這些變換。研究的都是什麼?
哪些書讓你重新認識了數學?
點集拓撲為什麼要這樣定義?具有幾何意義嗎?
(純)數學 phd 的你們和導師 meeting 的時候都聊些什麼?

TAG:數學 | 統計學 | 概率 |