協方差的意義?
概率論中協方差Cov(X,Y)=E(X-EX)(Y-EY)具有很重要的意義,比如歸一化後是相關係數,或者除以DX後是線性預測的係數。但是我一直不太理解從它的定義式E(X-EX)(Y-EY)本身來講,這個量描述的是一個什麼意義?為什麼除以DX後能成為最優線性預測AX+B的係數A呢?謝謝
你可以計算一下兩個隨機變數之和的方差就會出現協方差
單個隨機變數的方差表示它分布的分散程度,兩個隨機變數的協方差就可以理解成它們一致的分散程度有多大(實在是不太好表達……)。
你知道相關係數是歸一化後的協方差:,
而最優線性預測係數,
於是就有。這可以理解成:如果X和Y完美相關,那麼Y是X的幾倍,Y的標準差就應該也是X的標準差的幾倍。但X和Y實際上相關係數只有,Y的標準差中與X相關的就只有這麼多,那就用它打個折扣吧。以上是非常感性的理解,要想嚴格證明,還是要推公式。手動安利如何通俗易懂地解釋「協方差」與「相關係數」的概念? - 黎韜的回答 - 知乎
說到概率論,其實很核心的一個部分就是隨機過程(Random Process)。
那什麼是隨機過程呢?
其實就是一些沒有規律的過程。
這麼說其實並不嚴謹,但是可以初步這麼認識。
首先我們來看下什麼叫做規律,或者事物之間的聯繫(注意區別,事物之間一般可以以時間劃分,可以以空間劃分)。
如果認為 和 代表兩件事,那麼 就是這兩件事之間的聯繫。
也就是說,兩件事之間的聯繫可以用 來表示。
上面這個例子是一個基本的線性表示,也是事物之間最基本的關聯之一。
下面我們說隨機過程,因為隨機,所以我們不能夠像上式一樣來描述事物之間的關係。
其實隨機中隱藏著必然。
為什麼這麼說?
因為造成隨機過程的根本原因是由於其基本組成,和影響因子的多樣化。
舉個例子,基因序列和表達。
由於其基本組成十分豐富,
影響因子如此之多,
我們不能夠定量的描述,
所以我們來研究他們的定性的一些表達(Properties)。
描述隨機過程的統計學基本組成由兩個,
一個叫做矩函數(Moment function)
一個叫做相關函數(Correlation function)
協方差函數就是一個這兩個函數的應用, 用來表徵隨機時事件 ,
在任意時刻,起伏之間的相關程度。
注意,兩個 關鍵字:起伏,相關程度。
那我們看看數學公式中如何定義起伏(Fluctuation)?
等於瞬時值,減去,均值。
就是你上面式子中的
那怎樣表示波動之間的關係呢?
就用描述隨機過程的另一個基本函數:相關函數。
也就得到了,你上面的方程。
這也就是為什麼協方差函數的學名叫做:二階混合中心距的原因。
注意,correlation的運算,是比較已有事物之間的互相聯繫:互相關(Cross-Correlation),或者事物內部的互相聯繫:自相關(Auto-Correlation)。
與方差,標準差一樣,都是用來描述已有事物本身的一些屬性。
通過統計量進行了描述,當然也可以進行估計和預測了,這些都太專業,本人並未用到,所以愛莫能助。
對於一維數據來說,方差可以描述離散程度。 多維情況下,拿二維情況來說,如何求該二維量的方差呢,二維數據可以想像成二維平面的一個向量(或一條直線),有N條平行線,N條平行線求出期望也是平行的,方差可以描述與期望平行線的距離離散程度。 但是,二位情況下,不光有距離,還有角度,設有N個不平行向量(或直線),每條線與期望線的夾角用什麼表示呢,相關係數即可。協方差就是綜合表達距離與夾角的一種變數。在一維情況下,只需要表示離散程度,多維情況下,要表達的狀態就多了點。
推薦閱讀:
※假如天朝的獨生子女政策改為「首胎為女可生第二胎,首為男則不可」,我國現在的男女比例將會有什麼變化?
※已知平均值、標準差、數據總數,如何求這組數據的最大值和最小值?
※如何理解結構方程模型?
※大偏差技術是什麼?
※周志華老師解釋集成學習時用到hoeffding不等式解釋誤差上限【機器學習,172頁】?