標籤:

熵簡介

熵簡介

來自專欄數據挖掘

熵是香農在1948年提出來的,是資訊理論最基本的概念之一。假設 X 是一個隨機變數,那麼定義 X 的熵為 E(X) .

E(X) = sum_{X}P(X)log_2{P(X)} .

熵是對一個隨機變數不確定度的衡量。例如給出兩個集合。集合 S_1 = { 1,2,1,2} .集合

S_2 = {1,1,1,2} .直觀上,我們有一個感覺,那就是 S_2S_1 要整齊一點。那麼,如何將這種整齊量化呢,這就是熵定義的意義,它把混亂,整齊這種定義定量化了。知道了一個變數的熵定義之後,我們定義條件熵。

E(Y|X = k) = sum_Y{P(Y|X=k)log_2(P(Y|X=k))}

E(Y|X) = sum_X{P(X)} sum_Y{P(Y|X)}log_2(P(Y|X)) = sum_Xsum_Y(P(X,Y))log_2(P(Y|X))

接下來我們定義聯合變數的熵

H(X,Y) = sum_Xsum_YP(X,Y)log_2{frac{P(X,Y)}{P(X)P(Y)}}

有了這些,我們可以得出多個連續變數的熵,根據鏈式法則

H(X_1,X_2...X_n) = H(X_1) + H(X_2|X_1) + ... + H(X_n|X_{n-1}...X_1)

考慮這樣一個情況,假設男生 A 想追女生 B .在完全不知情的情況下,這個男生追上這個妹子的概率是 1/2 .假設男生追妹子看成變數 X ,那麼 X 的熵是1.現在假設這個男生提前認識了這個妹子的閨蜜,從而知道了這個妹子的一些喜好,比如偶像是朱一龍等,那麼這個男生追上這個妹子的概率變成了 3/4 .熵變成了 0.81 .我們可以看到,因為提前知道了某些條件,這個男生追上這個妹子的不確定度變小了。為了衡量這個特點,我們引入互信息的概念。

I(X,Y) = H(X,Y) - H(X|Y) .

用它來衡量 變數Y對於 X 不確定度的減小作用。通常,如果 I 越大,則說明 XY 之間關係越密切。

推薦閱讀:

計算機二級、計算機二級office備考攻略
計算機的輻射知識
軍人職稱外語和計算機考試成績放寬條件及規定
輕易不要升級win10
《自然原理》新時空理論解開物質結構的基礎和工具—最強力程計算中國人工和日本世界最強計算機結果一樣

TAG:計算機 |