相關和預測是一回事嗎?X 變數和 Y 變數的相關顯著,能否說明 X 對於 Y 有一定的預測能力?

假設X和Y兩列變數,下面兩種情況是否完全等價?

1. X和Y有顯著相關。

2. 採用leave one out,預測一列Y,發現預測的Y和真實的Y相關顯著。

我想知道,這兩種情況完全等價嗎?還是2比1更強?

所謂更強,是指對兩列變數的關係真實存在的證據更強。比如還是兩列數據X和Y,我如果用他它們擬合出一個模型,再採集一批新的數據x和y,如果模型通過新的x來預測出的y與真實的y相關顯著,那麼我毫無疑問可以說後者對X和Y的關係提供了更強的證據。但是,如果我沒有收集新數據,而是用LOOCV或者n-fold CV呢?


題主的提問有兩層歧義:1. 相關和預測是不是等價,是否所有相關的情形都可以作預測的解讀,反之亦然; 2. 給定樣本,其相關係數顯著是否等價於Leave one out 預測值與觀測值相關顯著。第2層解讀在數學上顯然不成立。Leave one out的預測模型使用的樣本量略少。樣本相關係數=全樣本預測模型的預測值( sigma_y	imesfrac{X}{sigma_x}	imes r )與觀測值 Y 的樣本相關係數。

第1層解讀我認為是對的。許多初學者以為「預」測(=pre-dict)必須順著時間方向,這是錯誤的望文生義。操作化解讀預測這個概念:給定x的取值,對Y的條件分布作個描述。所以,不妨由已知的結果(出土化石)預測未知的原因(古生物)。它和因果是兩碼事。

心理統計中確立因果關係的主要範式是這樣的——操縱(Manipulate)自變數在實驗組與控制組分別鎖定不同水平,同時控制(Control)「所有其它變數」在實驗組與控制組來自同一總體。所謂的「所有其它變數」顯然不包含結果變數,也不包含任何與自變數存在果-因關係的變數。操作上就是用偽隨機數隨機分配,盡量雙盲設計。雙盲設計主要是為了操控的時候不連帶出安慰劑變數在兩組產生差異,除非你就是想研究安慰劑效應。

值得一提的是,「安慰劑效應」被心理學教育學醫學的許多初學者污名化了。通過巧妙設計的安慰手法達到好的療效,本身是件好事,雖然對它的錯誤命名仍然是件壞事。通常儀式感越強,安慰效果越大。比如,注射的效果大於口服,口服食用色素水或者藿香正氣水的效果大於口服純水。


導讀

  • 先更正下問題並且說下結論,嚴格來說有四個不同的問題:
    • 問題及結論:
      • 問題 1:X變數和Y變數的相關性高,能否說明X對於Y有一定的預測能力?
        • 結論 1:X和Y相關性高,理論上可以說X對於Y有一定的預測能力;
      • 問題 2:相關和預測是一回事嗎?

        • 結論 2:相關和預測不是一回事;
      • 已知
        • 情況1:X和Y相關性高;
        • 情況2:用X和Y生成一個預測模型,然後用模型根據X生成出的Y"和Y相關性高。
      • 問題 3:這兩種情況完全等價嗎?
        • 結論 3:這兩個情況不是完全等價,在特定條件下可以是等價的;
      • 問題 4:情況2比情況1對變數的關係真實存在的證據更強嗎?
        • 結論 4:這兩個情況無法在「關係真實存在的證據」上來比較誰強誰弱:
    • 為什麼更正問題描述?
      • 一般我們說相關性都用高低或者強弱來形容,顯著一般用來修飾差異性。
    • 為什麼問題2和問題3、4不同?
      • 預測模型具備「預測能力」是有假設作為前提的,預測模型無法用來代表「預測能力」。
    • 「預測能力」怎麼來衡量?
      • 預測能力實在是一個無法量化的東西。必須說明一點,CV的指標不能代表預測能力。解釋後面會提到。
      • 在這裡根據題干,我們主要關注代表關係真實存在的能力,而不討論「預測能力」。
  • 具體證明見下文。
  • 目錄

    - 我們分為下面幾個子問題來討論,趕時間可以只看核心問題:

    • 核心問題
      • 什麼可以用來證明X和Y存在真實的關係?
      • 什麼條件下這兩個情況等價?
    • 詳細討論
      • 統計指標和預測模型可以用來證明X和Y存在真實的關係嗎?
        • 統計指標的作用是什麼?
        • 預測模型的作用是什麼?
      • 統計指標和預測模型可以比較嗎?
      • 統計指標和預測模型是什麼關係?
        • 相關係數和CV哪個更適合做模型好壞的指標?
        • 正確的比較方式是什麼?
    • 附錄:理解的誤區
      • 什麼是過擬合?
      • 相關係數如何計算?

      • 過擬合和X和Y的相關係數高有直接聯繫嗎?

      • Cross Validation的作用是什麼?目的是什麼?能用來證明X和Y的相關性嗎?

      • 所有統計指標都很有用嗎?
        • 並不是所有的統計指標都是關鍵有價值的,每個統計指標都有適用的條件。

    什麼可以用來證明X和Y存在真實的關係?

    • 首先得確定你想證明什麼關係
      • 是線性相關的關係還是因果關係,還是其他什麼關係,比如還可以證明X和Y是否存在你的預測模型所描述的關係。
      • 統計上沒有什麼檢驗方法是來檢驗「有關係」的,都是來確定是否有「什麼」關係
      • 一般情況下都得設定零假設(Null Hypothesis)和備擇假設(Alternative Hypothesis)

      • 這跟用什麼預測模型沒有聯繫,這種關係描述的是樣本的性質,類似一種統計指標

    • 如果想證明X和Y有線性相關的關係
      • 可以檢驗樣本是否符合t分布
    • 如果想證明的是因果關係
      • 可以用Granger因果檢驗
    • 如果要證明X和Y是否存在預測模型所描述的關係則需要設計對應的檢驗方法
      • 一般需要根據模型訓練出來的關係來假設樣本符合一種什麼樣的分布,然後來證明這個樣本是否符合這種分布
    • 可以通過檢驗方法得出來的p值來判斷代表真實關係的能力
      • 相關性高,可以預見X和Y符合線性分布的可能性就高,那檢驗是否符合t分布的p值低,說明這個分布很有可能描述了X和Y的真實關係。那麼如果我們根據這個樣本建立一個線性的模型,可以說這個線性模型是有一些預測能力的。
      • 假設我們另有一個一般性的模型,這個模型經過充分訓練,也就是說在樣本空間的錯誤率很低,如果經過CV測試,那麼CV的錯誤率也很低,那麼如果我們根據這個模型得出來的分布做檢驗同樣可以預見可以得到很低的p值,那這個分布也很有可能描述了X和Y的真實關係,也可以說這個模型也是有一些預測能力的。
    • 那可以通過兩個p值的大小,來比較這兩個分布誰更能代表X和Y的真實關係嗎?

      • 不能!
    • 為什麼不能比較p值?
      • 因為這是樣本空間,即使證明了符合什麼分布,滿足什麼關係,也只是具有統計上的意義,並不代表真實空間就一定存在這種關係
        • 具體解釋可以參照「統計顯著性」的定義
        • 而模型本身的參數(比如CV得出來的指標)更不能用來自證模型所描述的關係是否符合X和Y的真實的關係
    • 所以,並不能比較情況1和情況2在「關係真實存在的證據」上誰強誰弱。

    什麼條件下這兩個情況等價?

    • 先說結論
      • 兩個情況是否等價取決於2中採用的模型。
    • 那麼問題就是判斷以下兩種情況是否等價:

      1. X和Y相關性高;
      2. 用X預測出的Y"和Y相關性高
    • 不失一般性,拿Pearson相關性作為基礎,重新表述1和2,等號表示的意思為近似相等:
      1. X和Y相關性高意味著,Y=aX+b
      2. 由於採用了一個模型,假設這個模型的函數是f(x),得出來的值為Y"=f(X)。那麼,Y=a"Y"+b"=a"f(X)+b"。
    • 好了,原問題現在轉化為判斷Y=aX+b是否等價於Y=a"f(X)+b"。答案顯而易見:

      • 在Pearson相關性的條件下
      • 如果f(X)為線性模型,那麼兩個情況就是等價的。
      • 如果f(X)不是線性的,那麼就不等價。

    統計指標(包括相關性)和預測模型可以用來證明X和Y存在真實的關係嗎?

    • 結論
      • 統計指標和預測模型都不能用來證明X和Y存在真實的關係

    • 我們從最基本的統計指標的作用和預測模型的作用出發來討論這個問題
    • 統計指標
      • 統計指標是用來描述樣本的性質的
        • 比如Pearson相關性描述的是樣本中X和Y的線性相關程度。
      • 統計指標的局限性
        • 每個統計指標都對應了一個固定的模型
          • 「Pearson相關性」對應的是線性相關的模型
          • 「均值」對應的模型是所有樣本的數值之和除以總數
      • 統計指標說明了什麼?
        • 說明了樣本的性質
        • 那麼Pearson相關係數高說明了什麼?
          • 說明在這個樣本空間里,X和Y的線性相關程度很高
      • 所以統計指標,比如相關性,並不能用來證明X和Y存在真實的關係
    • 模型
      • 模型是用來表達提供的樣本數據之間的關係
      • 模型的局限性
        • 模型建立的基礎在於樣本裡面的關係能通過你的模型來表達

        • 模型再怎麼做也都是基於樣本空間,因為樣本空間才是訓練集,模型的效果是用樣本空間來「估計」真實空間
          • 因此「預測」模型並不代表真的具有預測能力。
            • 再怎麼強調這是「預測」模型,它也不可能代表真實的空間。
            • 再怎麼強調用這模型來做「推斷」並且強調這個「推斷」效果很好「很有把握」,這個「推斷」也是基於的樣本空間,並不能改變其性質。
          • 所以不管怎麼強調「推斷」、「預測」,模型也都是對樣本空間數據的描述,推斷也是基於的這種描述。

        • 不管用LOOCV還是n-fold CV都是測量的模型對樣本空間的描述是否穩定,並不是測量的「推斷」、「預測」效果是否好

          • 那為什麼我們都用這個來衡量模型的推斷、預測的效果呢?
          • 是基於以下的假設

            • 模型對樣本空間的描述很穩定=&>推斷、預測的效果就好
          • 你們可以先想想這種假設一直成立嗎?什麼時候不成立?文末我會給出一個不成立的例子。
        • 因為我們討論的是樣本空間,有可能換一套樣本你的模型表達出來的關係就不正確了,即使用了CV
      • 模型好說明了什麼?
        • 可以說明模型表達出了提供的樣本數據之間的關係
      • 模型也可以訓練出統計指標所描述的關係,畢竟統計指標是由某種模型生成(抽象)出來的
        • 比如線性模型就能訓練出Pearson相關性所描述的關係
      • 所以模型的好壞也並不能用來證明X和Y存在真實的關係
        • 只能說明X和Y在樣本空間里「可能」有這種關係
        • 從模型得出來的規律尚且不能確認是否具有統計意義(下面會討論怎麼確認),就更不能證明其代表真實空間的規律了。

    統計指標和預測模型可以比較嗎?

    • 結論
      • 比較統計指標和預測模型誰更能證明真實的規律毫無意義。
    • 首先這兩者自身都不能確定是否真的反應了真實規律,那怎麼比較他們對真實規律的反饋誰大誰小呢?

      • 他們只是反饋的樣本空間的規律
    • 假設真實空間已知(比如是某已知的分布)也就是說真實空間等於樣本空間,那我們比較真實空間存在的規律就是比較樣本空間存在的規律。
    • 那在樣本空間是否能比較這兩者誰能更好地反應樣本空間的規律呢?

      • 答案是
        • 也不能
      • 這兩者都已經很準確地反應了樣本空間的規律
      • 就像問均值和方差誰對樣本空間描述地更好?卧槽這怎麼比。有什麼意義嗎?
      • 當然我們腦洞足夠大,可以強行比較一發!
      • 比如我們建一個「上帝模型」包括了樣本空間所有的的規律,包括均值、方差、相關性,那可以說這個模型比單純用相關性來描述樣本空間更全面
        • 但比較「相關性」的全面性也沒有任何意義啊。
        • 就像比較馬蹄跟馬誰更像馬?
      • 如果是比較「相關性」跟「上帝模型」對於樣本空間相關性的表達
        • 那兩者是等價的。
      • 如果是比較「相關性」跟「上帝模型」對於樣本空間均值的表達
        • 「相關性」: Excuse me?
      • 如果是比較「相關性」跟「上帝模型」的推斷的效果
        • 單純的「相關性」的數值沒有任何推斷的能力。
    • 綜上,你要比較這兩個東西是件很奇怪的一件事,還是那句話他們的目的不一樣,都是同一個樣本空間的不同方面的表達,硬拉到同一水平線上比較誰更強沒有任何意義。

    統計指標和預測模型是什麼關係?

    • 樣本空間的統計指標同樣可以來驗證模型是否準確穩定

    • Example

      • 計算出X和Y的Pearson相關係數為0.4

      • 如果你的模型訓練出來的Y"跟Y的Error Rate(錯誤率)很低

        • Error Rate(錯誤率)很低意味著Y"跟Y類似,說明X和Y"的相關係數理論上也應該近似於0.4。所以如果不是的話,就說明模型可能有問題。
        • 這樣相關係數就能來驗證生成的模型是否符合樣本

    • 延伸的問題

      • 相關係數和CV哪個更適合做模型好壞的指標?

        • 毫無疑問是CV。

          • 因為相關係數只是描述了一個宏觀的關係,CV可以具體到數據

    • 如果你真的真的非常想比較,非得一較高下,得這麼比較

      • 線性模型和一個較通用的模型(比如神經網路),哪個更能表達樣本數據的關係

        • 這才在同一個水平線上嘛,都是來比較模型。

        • 如果是比較模型的話,CV就派上用場了

          • CV可以用來判斷哪個模型更好

    附錄:理解的誤區

    • 下面是其他幾個容易產生理解偏差的地方,最好能參考一本較官方的統計教材,我只是把我的理解(並不是標準定義)寫在下面:
    • 什麼是過擬合?

      • 模型太大導致雖然對於樣本擬合得非常好,但是在樣本以外的其他的數據上結果很糟。

      • 也就是說模型在樣本上的準確率高但是穩定性差。
    • 相關係數如何計算?

      • 見Pearson相關係數或者Spearman相關係數

    • 過擬合和X和Y的相關係數高有直接聯繫嗎?

      • 沒有任何聯繫。

      • 過擬合描述的是模型,相關係數描述的是樣本。

        • 模型過擬合併不能導致X和Y相關係數高這個結論。

        • 當然模型的好壞會影響到模型的結果Y"跟要預測的結果Y的相關性。

    • Cross Validation的作用是什麼?目的是什麼?能用來證明X和Y的相關性嗎?

      • CV的作用是來衡量模型的穩定性
      • CV的目的是來選模型,證明模型好不好、穩不穩定。
      • 基於這個假設:「模型對樣本空間的描述很穩定=&>推斷效果就好」,可以通過CV得出來的指標來判斷模型的推斷能力是否好。
        • 然而這個假設並不是一直成立。
        • 比如樣本集中在真實空間的某個局部的情況下,這個假設就不成立。
      • 並不能證明X和Y的相關性,X和Y的相關性已經由樣本決定了。

      • 所以LOOCV或者n-fold CV跟這個問題沒有關聯。

    • 所有統計指標都很有用嗎?

      • 並不是所有的統計指標都是關鍵有價值的,每個統計指標都有適用的條件。


    我來自問自答了。首先,謝謝 @徐佳逸來回答我的提問,但是我覺得你可能並沒有真正明白我的意思(可能也和我的表述有關)。我試著總結一下你的回答:你回答的,是不考慮inference的情況下,只對同一批數據做描述性的分析,那麼無論是用相關還是回歸模型,結果當然是等價的(假定我們所說的預測僅考慮線性回歸模型)。而真實的情況是,我們拿到兩組數據,肯定不會局限於描述,而是想通過這組數據,對兩個變數真實的關係作出一定把握性的推斷。我的提問,正是基於這個層面的。

    講清楚了這點,我再重新組織一下我的問題。我實際想問的是,在真實情況下,我如果測量了兩個變數,得到一些數據,計算出他們的相關,假定相關係數是0.4;和我用同樣一批數據,採用leave one out cross validation,得到一批預測數據,然後計算出這批預測數據和真實數據的相關是0.4,這兩種情況,從他們提供的對兩個變數總體相關強弱的證據強弱的角度而言,是不是後一種更強?

    LOOCV(留一法交叉驗證)或者n-fold CV和這個問題當然是有關聯的。因為如果不考慮原樣本內交叉驗證的方式,而是完全再採集一組新的數據作為測試集,發現用訓練集得到的線性模型可以預測測試集。那麼,毫無疑問,這種方式是最強的。為什麼?因為原樣本的相關係數即使很高,也無法迴避比如某些極端值的影響,造成相關係數虛假高的情況(即過擬合);而如果能把根據原樣本擬合出的線性模型用來預測一批獨立的數據,則可以糾正這種過擬合,因為「噪音是隨機的」。所以如果給我兩個結果,一個是相關,另外一個是獨立數據預測,我肯定相信後一種。

    那麼問題來了,我們知道LOOCV其實是一種在沒有獨立數據情況下的無奈選擇,因為LOOCV本身還是存在過擬合的問題。但是,它畢竟是一種形式上的訓練數據對測試數據的預測方式,並且被各個學科廣泛採用。那麼,我想問的是,在沒有獨立數據的情況下(hold out dataset),LOOCV本身,與單純的相關相比,到底能不能提供更強的證據?如果不行的話,n-fold cross validation呢?


    舉兩個特殊情況:

    (1)你得到了一個數據集,包含兩個特徵,它們是相關的,但不是近似線性的(甚至不是冪次關係),你不知道它們具體的關係。你就不一定能擬合得很好。

    (2)你用了某種回歸演算法預測了數據集的標籤,得到 Y_hat,R^2(Y, Y_hat)接近於 1,但是你用的演算法是基於局部平均的(比如決策樹回歸、KNN 回歸),要求數據集局部相關,整體上不相關也可以。

    所以說,考慮到所有機器學習演算法的情況下,這兩個東西沒啥必然聯繫。


    看看牛頓二定律F=MA就知道,F和A是共生共死的關係,並非因果關係。牛頓說質量M一定時, F和M成正比相關,但牛頓從未說過F產生了A。


    先說一下我對題主問題的理解,有以下兩種情況:

    a. cov(x,y)= 0.4

    b. cov(y_predict,y)= 0.4

    先放結論,第一種情況推不出來第二種。大致的分析思路等下再寫。

    在簡化為線性模型的情況下,分兩種情況說:

    a. 由於留一法每次的訓練集不同,訓練出的模型一遍不同。

    b. 假設相同或模型係數相近,那麼可以做如下推理:

    y = 0.4 * y_predict + b1=0.4 *(0.4 * x + b2) + b1 = 0.16 * x + c

    和cov(x,y)= 0.4有很大的出入。

    而且一般來說cv是用來驗證模型的,相關性直接算就行了。


    關鍵點在於你說的是in sample vs out of sample. 如果1指的是correlation,那麼1和2中任何線性模型的in sample predictability of X 是等價的。CV用來控制out of sample performance,所以和in-sample 的linear relationship(correlation)沒有關係。

    所以看你怎麼定義相關性。

    另,為什麼要問這個問題?

    如果目的是(out of sample) prediction的話直接用2;如果目的是通過「相關性」(what ever way you define it)來verify因果的話,重點在於看context選model 然後自己能justify assumption。前者是technical problem, 後者是social science research. 在做CS還是Arts?


    一般的科學研究能做到解釋因果關係就已經不錯了,預測則是科學研究的更高層次(在系R方的解釋策略上可以用預測精度來衡量模型是否有效)。

    但是所有的科學家的野心都是為了預測,如果證據足,科學家們就能能厚著臉皮說,存在因果關係,可以用X預測Y;如果證據不足他們就說只能證明相關關係,用X預測Y不可靠。

    此外,除了係數顯著,能不能用以往理論解釋清楚和模型係數顯著同等重要。


    推薦閱讀:

    普通FPGA工程師怎樣向人工智慧靠攏?
    有哪些職業容易被人工智慧替代,又有哪些行業不易被人工智慧替代?
    大數據平台(分散式系統,如hadoop)和數據挖掘從業者人生髮展前途比較?小弟現在研一,不知道專註哪一個?
    python 機器學習不會很慢嗎?
    如何看待摩根大通利用 AI 機器人執行金融交易?其工作原理是怎樣的?

    TAG:統計學 | 機器學習 | 數據統計 | 數據科學家 |