熵簡介

08-31

熵簡介

來自專欄數據挖掘

熵是香農在1948年提出來的，是資訊理論最基本的概念之一。假設 $X$ 是一個隨機變數，那麼定義 $X$ 的熵為 $E(X)$ .

$E(X) = sum_{X}P(X)log_2{P(X)}$ .

熵是對一個隨機變數不確定度的衡量。例如給出兩個集合。集合 $S_1 = { 1,2,1,2}$ .集合

$S_2 = {1,1,1,2}$ .直觀上，我們有一個感覺，那就是 $S_2$ 比 $S_1$ 要整齊一點。那麼，如何將這種整齊量化呢，這就是熵定義的意義，它把混亂，整齊這種定義定量化了。知道了一個變數的熵定義之後，我們定義條件熵。

$E(Y|X = k) = sum_Y{P(Y|X=k)log_2(P(Y|X=k))}$

$E(Y|X) = sum_X{P(X)} sum_Y{P(Y|X)}log_2(P(Y|X)) = sum_Xsum_Y(P(X,Y))log_2(P(Y|X))$

接下來我們定義聯合變數的熵

$H(X,Y) = sum_Xsum_YP(X,Y)log_2{frac{P(X,Y)}{P(X)P(Y)}}$

有了這些，我們可以得出多個連續變數的熵，根據鏈式法則

$H(X_1,X_2...X_n) = H(X_1) + H(X_2|X_1) + ... + H(X_n|X_{n-1}...X_1)$

考慮這樣一個情況，假設男生 $A$ 想追女生 $B$ .在完全不知情的情況下，這個男生追上這個妹子的概率是 $1/2$ .假設男生追妹子看成變數 $X$ ，那麼 $X$ 的熵是1.現在假設這個男生提前認識了這個妹子的閨蜜，從而知道了這個妹子的一些喜好，比如偶像是朱一龍等，那麼這個男生追上這個妹子的概率變成了 $3/4$ .熵變成了 $0.81$ .我們可以看到，因為提前知道了某些條件，這個男生追上這個妹子的不確定度變小了。為了衡量這個特點，我們引入互信息的概念。

$I(X,Y) = H(X,Y) - H(X|Y)$ .

用它來衡量變數 $Y$ 對於 $X$ 不確定度的減小作用。通常，如果 $I$ 越大，則說明 $X$ 和 $Y$ 之間關係越密切。