有沒有可能相關係數很高,可是兩組數據其實並沒有關係?(即便從圖上看也是如此)

找兩組數據的相關關係的時候,我們通常都會使用相關係數這個值。但我們也知道相關係數高並不能完全說明兩組數據相關性高。我的問題是能否有兩組數據相關係數很高,但是卻沒有足夠的相關性?

~~~

我想問的是:相關係數和相關性的問題。而不是:相關係數和因果關係的關係。


LZ想問的是「因果關係」和「相關係數」的問題么?

實際上,「相關性」在統計上是定義為「相關係數」的強度。相關係數高,那麼從定義上來說就一定是「相關性」高。但是相關性因果性是不相等的。



我從純統計的角度說一下我的理解,不涉及到因果關係。

相關係數是是指的是樣本之間的關係,樓主後半句實際是指的是兩個總體之間的關係,因此這個問題實際上就是由樣本特徵推斷總體。

由樣本計算出的相關係數很高,是否表明這兩個變數是之間有線性關係。我的理解是,如果樣本量很大,這個推斷的可靠性還是比較大的,但如果樣本量比較小,即使相關係數很高,也不能有較大的把握去說這兩個隨機變數之間就有的線性關係。說實話,我現在對相關係數、統計推斷中的顯著性、多重共線之間的關係還理解的不夠透徹。


不能。相關性是對介於完全無關和函數關係之間的關係的刻畫。相關係數高,表明線性相關程度高,即接近線性函數關係(大前提)。「線性相關」是屬於「相關」這個範疇的(小前提)。所以兩組數據相關係數很高,即表明它們有較強的相關性(結論)


有可能相關係數很高,但是沒有什麼關係.

不過相關係數很高的時候,從圖上看起來不會沒有相關性.因為相關係數就是把這種圖形上的相關性量化了.


統計學上常講的一個例子,父親在小孩出生那年在院子里種了一棵樹,然後樹在長高,小孩也在長高,但是二者無關。


個人感覺,「相關」一詞可以有兩層含義。

一層是相關,一層是因果。因果是強相關的展現形式之一,所以很容易被直接說成「相關」。

今天課上老師講了個例子,說在一調查中發現,某地區傳教士的人數和色情業的繁榮程度這兩組數據的相關係數很高,成高度正相關。但用腳後跟想想,這聽起來似乎就並不相關… 再如樓上更極端的例子,「父親在小孩出生那年在院子里種了一棵樹,然後樹在長高,小孩也在長高」。

其實不論是課上的例子,還是其他知友的例子,都有個共同點:這兩個變數本身並沒有直接關係,但都與第三個變數,或是社會發展程度,或是時間,相關。此時的相關,就僅是相關,而非因果。也就是只有第一層的相關,淺層的相關。


舉個例子

研究發現冰欺凌的銷售量和犯罪率在統計學上呈正相關,但是它們之間有關係嗎?


至少是沒有因果關係的,從這裡我們是得不出冰欺凌的高銷量導致高犯罪率或是犯罪率高導致冰欺凌賣得多這種結論的。


然後繼續研究發現天氣越熱時,冰欺凌賣的越多;天氣越熱,犯罪率越高..

PS:這只是我們講實驗設計時老師隨便舉的例子,例子是否真實請忽略....

我的理解是統計學是個工具,相關係數是一方面,但更重要的為什麼相關吧。


系統提示:你們有67個共同好友,是否添加她為好友。


在兩種情況下有可能。

一種情況是:如果樣本量較小,受取樣偶然因素的影響較大,很可能本來無關的兩類事物,卻計算出較大的相關係數。例如,研究學習與身高有無關係,只選取3~5個人,很可能遇到個子越高學習越好這一偶然現象,這時計算出的相關係數甚至可能接近1.00,但實際上這兩類現象之間並無關係。

另一種情況是:當兩個變數之間的關係受到其他變數的影響時,兩者之間的高強度相關很可能是一種假象。如在美國人中,鞋子的大小與人的言語能力存在一個中等程度的正相關:即穿鞋子越大的人言語能力水平越高,這兩者其實都是受到了「年齡」因素的影響。



推薦閱讀:

正態分布可以生成均勻分布嗎?
最大熵和正態分布的關係是什麼?
計量經濟學中,樣本容量是不是越大越好?
相關係數具有傳遞性嗎?
為什麼樣本量太大時用卡方檢驗做獨立性檢驗會失效?

TAG:金融學 | 統計學 | 統計 | 金融 |