互信息(MI,mutual Information)

互信息(MI,mutual Information)

若兩個隨機變數X,Y滿足

P(X,Y)=P(X)P(Y)

則我們說隨機變數X,Y獨立。下面來直觀地理解這個公式,可以發現,如果X,Y獨立,那麼已知X,將不會對Y的分布產生任何影響,即是說P(Y)=P(Y|X),這個結果的證明也很簡單,由貝葉斯公式:

P(Y|X)=P(X,Y)/P(X)=P(X)P(Y)/P(X)=P(Y)

即證。

由此可以看出,獨立性反應了已知X的情況下,Y的分布是否會改變,或者說,在給定隨機變數X之後,能否為Y帶來額外的信息。然而獨立性只能表示出兩個隨機變數之間是否會有關係,但是卻不能刻畫他們的關係大小。下面我們引入互信息,它不僅能說明兩個隨機變數之間是否有關係,也能反應他們之間關係的強弱。我們定義互信息I(X,Y):

I(X;Y)=∫X∫YP(X,Y)logP(X,Y)/P(X)P(Y)

log裡面就是X,Y的聯合分布和邊際分布的比值,如果對所有X,Y,該值等於1,即是說他們獨立的情況下,互信息I(X;Y)=0,即是說這兩個隨機變數引入其中一個,並不能對另一個帶來任何信息,下面我們來稍稍對該式做一個變形

I(X;Y)=∫X∫YP(X,Y)logP(X,Y)/P(X)P(Y)

=∫X∫YP(X,Y)logP(X,Y)/P(X)?∫X∫YP(X,Y)logP(Y)

=∫X∫YP(X)P(Y|X)logP(Y|X)?∫YlogP(Y)∫XP(X,Y)

=∫XP(X)∫YP(Y|X)logP(Y|X)?∫YlogP(Y)P(Y)

=?∫XP(X)H(Y|X=x)+H(Y)

=H(Y)?H(Y|X)

其中,H(Y)是Y的熵,定義為

H(Y)=?∫YP(Y)logP(Y)

衡量的是Y的不確定度,即使說,Y分布得越離散,H(Y)的值越高,而H(Y|X)則表示在已知X的情況下,Y的不確定度,而I(X;Y)則表示由X引入而使Y的不確定度減小的量,因而如果X,Y關係越密切,I(X;Y)越大,I(X;Y最大的取值是H(Y),也就是說,X,Y完全相關,由於X的引入,Y的熵由原來的H(Y)減小了I(X;Y)=H(Y),變成了0,也就是說如果X確定,那麼Y就完全確定了。而當X,Y獨立時,I(X;Y)=0,引入X,並未給Y的確定帶來任何好處。

總結下I(X;Y)的性質:

1)I(X;Y)?0

2)H(X)?H(X|Y)=I(X;Y)=I(Y;X)=H(Y)?H(Y|X)

3)當X,Y獨立時,I(X;Y)=0

4)當X,Y知道一個就能推斷另一個時,I(X;Y)=H(X)=H(Y)


推薦閱讀:

TAG:相關性分析 | 新詞發現 | 演算法 |