協方差的意義？

01-07

概率論中協方差Cov(X,Y)=E(X-EX)(Y-EY)具有很重要的意義，比如歸一化後是相關係數，或者除以DX後是線性預測的係數。但是我一直不太理解從它的定義式E(X-EX)(Y-EY)本身來講，這個量描述的是一個什麼意義？為什麼除以DX後能成為最優線性預測AX+B的係數A呢？謝謝

你可以計算一下兩個隨機變數之和的方差就會出現協方差

單個隨機變數的方差表示它分布的分散程度，兩個隨機變數的協方差就可以理解成它們一致的分散程度有多大（實在是不太好表達……）。

你知道相關係數是歸一化後的協方差： $ho = frac{ ext{Cov}(X,Y)} { ext{std}(X) cdot ext{std}(Y)}$ ，

而最優線性預測係數 $A = frac{ ext{Cov}(X,Y)} { ext{std}^2(X)}$ ，

於是就有 $A = ho cdot frac{ ext{std}(Y)}{ ext{std}(X)}$ 。

這可以理解成：如果X和Y完美相關，那麼Y是X的幾倍，Y的標準差就應該也是X的標準差的幾倍。

但X和Y實際上相關係數只有 $ho$ ，Y的標準差中與X相關的就只有 $ho$ 這麼多，那就用它打個折扣吧。

以上是非常感性的理解，要想嚴格證明，還是要推公式。

手動安利

如何通俗易懂地解釋「協方差」與「相關係數」的概念？ - 黎韜的回答 - 知乎

說到概率論，其實很核心的一個部分就是隨機過程（Random Process）。

那什麼是隨機過程呢？

其實就是一些沒有規律的過程。

這麼說其實並不嚴謹，但是可以初步這麼認識。

首先我們來看下什麼叫做規律，或者事物之間的聯繫（注意區別，事物之間一般可以以時間劃分，可以以空間劃分）。

$y=Ax$

如果認為 $y$ 和 $x$ 代表兩件事，那麼 $A$ 就是這兩件事之間的聯繫。

也就是說，兩件事之間的聯繫可以用 $A$ 來表示。

上面這個例子是一個基本的線性表示，也是事物之間最基本的關聯之一。

下面我們說隨機過程，因為隨機，所以我們不能夠像上式一樣來描述事物之間的關係。

其實隨機中隱藏著必然。

為什麼這麼說？

因為造成隨機過程的根本原因是由於其基本組成，和影響因子的多樣化。

舉個例子，基因序列和表達。

由於其基本組成十分豐富，

影響因子如此之多，

我們不能夠定量的描述，

所以我們來研究他們的定性的一些表達（Properties）。

描述隨機過程的統計學基本組成由兩個，

一個叫做矩函數（Moment function）

一個叫做相關函數（Correlation function）

協方差函數就是一個這兩個函數的應用，用來表徵隨機時事件 $x$ ,

在任意時刻，起伏之間的相關程度。

注意，兩個關鍵字：起伏，相關程度。

那我們看看數學公式中如何定義起伏（Fluctuation）？

等於瞬時值，減去，均值。

就是你上面式子中的 $x(t)-E(x)$

那怎樣表示波動之間的關係呢？

就用描述隨機過程的另一個基本函數：相關函數。

也就得到了，你上面的方程。

這也就是為什麼協方差函數的學名叫做：二階混合中心距的原因。

注意，correlation的運算，是比較已有事物之間的互相聯繫:互相關（Cross-Correlation），或者事物內部的互相聯繫：自相關(Auto-Correlation)。

與方差，標準差一樣，都是用來描述已有事物本身的一些屬性。

通過統計量進行了描述，當然也可以進行估計和預測了，這些都太專業，本人並未用到，所以愛莫能助。

對於一維數據來說，方差可以描述離散程度。

多維情況下，拿二維情況來說，如何求該二維量的方差呢，二維數據可以想像成二維平面的一個向量（或一條直線），有N條平行線，N條平行線求出期望也是平行的，方差可以描述與期望平行線的距離離散程度。

但是，二位情況下，不光有距離，還有角度，設有N個不平行向量（或直線），每條線與期望線的夾角用什麼表示呢，相關係數即可。協方差就是綜合表達距離與夾角的一種變數。

在一維情況下，只需要表示離散程度，多維情況下，要表達的狀態就多了點。