協方差的意義?

概率論中協方差Cov(X,Y)=E(X-EX)(Y-EY)具有很重要的意義,比如歸一化後是相關係數,或者除以DX後是線性預測的係數。但是我一直不太理解從它的定義式E(X-EX)(Y-EY)本身來講,這個量描述的是一個什麼意義?為什麼除以DX後能成為最優線性預測AX+B的係數A呢?謝謝


你可以計算一下兩個隨機變數之和的方差就會出現協方差


單個隨機變數的方差表示它分布的分散程度,兩個隨機變數的協方差就可以理解成它們一致的分散程度有多大(實在是不太好表達……)。

你知道相關係數是歸一化後的協方差:
ho = frac{	ext{Cov}(X,Y)} {	ext{std}(X) cdot 	ext{std}(Y)}

而最優線性預測係數A = frac{	ext{Cov}(X,Y)} {	ext{std}^2(X)}

於是就有A = 
ho cdot frac{	ext{std}(Y)}{	ext{std}(X)}

這可以理解成:如果X和Y完美相關,那麼Y是X的幾倍,Y的標準差就應該也是X的標準差的幾倍。

但X和Y實際上相關係數只有
ho,Y的標準差中與X相關的就只有
ho這麼多,那就用它打個折扣吧。

以上是非常感性的理解,要想嚴格證明,還是要推公式。


手動安利

如何通俗易懂地解釋「協方差」與「相關係數」的概念? - 黎韜的回答 - 知乎


說到概率論,其實很核心的一個部分就是隨機過程(Random Process)。

那什麼是隨機過程呢?

其實就是一些沒有規律的過程。

這麼說其實並不嚴謹,但是可以初步這麼認識。

首先我們來看下什麼叫做規律,或者事物之間的聯繫(注意區別,事物之間一般可以以時間劃分,可以以空間劃分)。

y=Ax

如果認為 yx 代表兩件事,那麼 A 就是這兩件事之間的聯繫。

也就是說,兩件事之間的聯繫可以用 A 來表示。

上面這個例子是一個基本的線性表示,也是事物之間最基本的關聯之一。

下面我們說隨機過程,因為隨機,所以我們不能夠像上式一樣來描述事物之間的關係。

其實隨機中隱藏著必然。

為什麼這麼說?

因為造成隨機過程的根本原因是由於其基本組成,和影響因子的多樣化。

舉個例子,基因序列和表達。

由於其基本組成十分豐富,

影響因子如此之多,

我們不能夠定量的描述,

所以我們來研究他們的定性的一些表達(Properties)。

描述隨機過程的統計學基本組成由兩個,

一個叫做矩函數(Moment function)

一個叫做相關函數(Correlation function)

協方差函數就是一個這兩個函數的應用, 用來表徵隨機時事件 x ,

在任意時刻,起伏之間的相關程度。

注意,兩個 關鍵字:起伏相關程度。

那我們看看數學公式中如何定義起伏(Fluctuation)?

等於瞬時值,減去,均值。

就是你上面式子中的 x(t)-E(x)

那怎樣表示波動之間的關係呢?

就用描述隨機過程的另一個基本函數:相關函數。

也就得到了,你上面的方程。

這也就是為什麼協方差函數的學名叫做:二階混合中心距的原因。

注意,correlation的運算,是比較已有事物之間的互相聯繫:互相關(Cross-Correlation),或者事物內部的互相聯繫:自相關(Auto-Correlation)。

與方差,標準差一樣,都是用來描述已有事物本身的一些屬性。

通過統計量進行了描述,當然也可以進行估計和預測了,這些都太專業,本人並未用到,所以愛莫能助。


對於一維數據來說,方差可以描述離散程度。

多維情況下,拿二維情況來說,如何求該二維量的方差呢,二維數據可以想像成二維平面的一個向量(或一條直線),有N條平行線,N條平行線求出期望也是平行的,方差可以描述與期望平行線的距離離散程度。

但是,二位情況下,不光有距離,還有角度,設有N個不平行向量(或直線),每條線與期望線的夾角用什麼表示呢,相關係數即可。協方差就是綜合表達距離與夾角的一種變數。

在一維情況下,只需要表示離散程度,多維情況下,要表達的狀態就多了點。


推薦閱讀:

假如天朝的獨生子女政策改為「首胎為女可生第二胎,首為男則不可」,我國現在的男女比例將會有什麼變化?
已知平均值、標準差、數據總數,如何求這組數據的最大值和最小值?
如何理解結構方程模型?
大偏差技術是什麼?
周志華老師解釋集成學習時用到hoeffding不等式解釋誤差上限【機器學習,172頁】?

TAG:數學 | 概率 | 統計 | 概率論 | 協方差 |