5.9 相關與因果關係

5.9 相關與因果關係

來自專欄數據分析學習與實踐6 人贊了文章

相關並不等於因果

不要把因果關係與相關關係弄混淆了,如果x對於預測變數y起很大的作用,但是並不意味著x導致了y,只能說可能,也可能是y導致了x,或者x與y之間有複雜的關係遠遠比想像的那麼簡單。

例如,冰激凌的售賣數量和海灘的溺水人數相關,模型可以給出合理的預測,但是並不是冰激凌導致了溺水,所以,兩個變數是相關的,但是並不是因果,可能因為第三個因素--溫度導致的。

相同的,有這樣的預測場景,觀察路上的騎自行車的人數來預測下雨,當路上的人比平時的人少,今天可能下雨,這個模型會有一個很合理的預測,不是因為更多騎自行車能夠保持不下雨,這種情況,是因果關係,但在此模型中,是因為下雨導致騎車的人少,x影響y。

理解相關關係很重要,

  1. 兩個變數之間沒有因果關係,
  2. 或者因果關係恰恰相反

儘管如此,如果知道先知道因果機制,那麼,反過來可以擬合好的模型,例如,預測溺水時候加入溫度與遊客人數,但不包括冰激凌銷售量,預測下雨不包括騎行的人數,但是需要記錄前幾天的空氣質量。

混淆變數

相關問題與混淆變數之間關係。

我們用2000-2011年的數據來預測2012的銷量,一個因素是有外來競爭者的加入,另外經濟開始下滑,在模型當中,需要包含競爭者影響和市場經濟的影響,但是很難區分變數之間的相互影響,我們稱之為混淆變數,任何兩個變數之間都有混淆,但一般我們不會處理所有的混淆變數,當然只處理高相關的變數。

混淆並不是預測的真正問題,因為我們能預測,不需要拆解出變數的作用,儘管如此,它成為場景預測的問題,因為場景應該考慮預測變數之間的關係,如果需要對各種預測因子的貢獻進行一些歷史分析,這也是一個問題。

多重共線性與預測

另外一個問題是多重共線性,發生在同樣的信息來自於兩個預測變數。

如果你發現兩個預測變數高度相關,相關係數是1或-1,這種情況,一個變數可以傳遞另外一個變數的信息,例如,鞋號可以通過體重來預測,如果數據中包含了左右兩個腳的尺寸,這樣的預測結論不會太好,但也不至於會太壞。

多重共線性同時也出現在多變數線性組合 之間的相關,例:d4 = 1 - d1 -d2 - d3 中 d4完全可以用其他變數線性表示,這種情況就很難做預測。

如果,如果存在高相關,回歸係數的估計會使得計算困難,一些軟體會給出非常不準確的預測結果,但是一些常用的軟體會給一定的規避,那也要必須小心,軟體只能盡量的避免。

當多重共線性出現,個體之間的回歸係數的不確定關係會變的很大,這是因為他們很難估計,所以,t檢驗來確定回歸係數是不準確的,同時,如果想精確的描述每個預測變數對預測的貢獻是不可能的。

如果在預測新數據的情況下,因變數超出了歷史數據,那麼預測是不準確的,例如,根據回歸模型來預測,有x1和x2之間高度相關,假設x1 在 0-100之間,那麼,x1 > 100 或x1 < 0的預測會不準確,如果因變數超出了歷史數據範圍,那麼就有問題,只是必要條件是存在多重共線性。

如果使用好的統計軟體,你不在乎每個變數對於預測的貢獻,並且預測變數在歷史數據範圍,不必擔心,那你就沒有必要擔心多重共線性。


推薦閱讀:

TAG:邏輯 | 時間序列分析 | 因果關係 |