信息熵是描述確定的信息的還是描述不確定信息的?

看那個公式好像是描述不確定信息的,,比如一個文字的信息量,一個數字的信息量,,但一個確定數字也能用那個香農公式計算信息熵嗎?比如數字1的信息熵多少?怎麼算?


類比一個你應該很熟悉的概念:方差(Variance)

方差是用來描述不確定的隨機變數的概率分布的離散程度?還是用來描述一個統計樣本的離散程度?事實上兩種度量的概念都有所應用,計算形式上也相似,方差的一種概率是觀察集的統計特徵(數理統計領域),當然這個用樣本方差(Sample Variance)以區分更好;另一種概念則是作為隨機變數的內在(instinct)屬性(概率論領域)。

這兩個領域的對於方差的理解是相一致的。為什麼描述不確定的隨機變數的度量可以借用來描述確定的樣本?或者反過來?進行過模擬實驗的同學應該了解,為什麼大規模的獨立重複實驗得到的結果可以估算概率分布,樣本的生成依據的基本法是隨機變數本身的概率分布,當觀察的樣本足夠大的時候,我們認為這個觀察集的結果可以用來反映隨機變數的概率分布。樣本結果出現的頻率可以表示得到某個值的概率。因為在沒有任何理論知識的前提下,隨機變數的分布不可預料,只能通過樣本的觀察結果來估算概率分布。所以很多無法用理論解釋的現象中所用的概率,也是依據大樣本的觀察結果總結出來的統計特徵。

如果已知一個隨機變數X服從方差為{sigma ^2}的正態分布,那麼理論上X的方差就是{sigma ^2}X的信息熵就是log sqrt {2epi } sigma 。觀察這個隨機變數在真實世界的多次實驗結果構成的數據集X的方差以及熵一般來說不會與X的理論值一致,但隨著實驗次數的增大會越來越接近X的理論值。沒錯,X集合依據隨機變數X生成,但是它們分別有各自對應的方差和信息熵,而且都是有意義的。如果沒有對X的先驗知識,那麼對於X的觀察結果也是可以作為對於X的分布的描述。

那問題回到為什麼熵可以用來描述信息量(這裡暫時不說是確定的變數還是不確定的變數的信息量)?

這裡舉個例子,某特區的特首競選,競選結果比如可以用X表示編號,為什麼說X是有信息量的?因為民眾得到了競選結果的消息,就破除了到底誰當選的疑義,這個破除的疑義的度量就是獲得的信息量。如果完全公正的進行了投票選舉,也就是假設X服從了均勻分布,這時候這個選舉結果也就是X包含的信息量最大。如果歐盟最近已經發表了一份報告稱選舉被干涉(假設真實可信),某位先生將會被欽定去連任特首,那麼這時的分布列中只有某位先生的概率是1,其他都是0,這時X的信息熵為0,這個選舉結果X也就不攜帶任何信息量,因為大家都已經預先知道結果了。

通信過程正是如此,發送方發送一個消息X,如果這個X是可以相對預料的(predictable),那麼通過通信得到的信息量就是小的,如果是不可預料的,也就是不確定度大的(比如均勻分布相對正太分布更不可預料),那麼這個通信過程對於接收方來說接收的到的輸出Y(這裡假設Y=X,不存在雜訊和通信鏈路的其他干擾)就是信息量大的。當然這是一種非常理想的通信情景,實際上還要加上雜訊干擾,那麼輸出的Y不確定度相比於X可能增加或者減小,包含的信息量就變化,所以接到消息本身也是要判斷的。

這個信息量和日常語境中說某人說話特別含蓄所以信息量大/這一集電視劇暗示的情節多所以信息量大的信息量是不一樣的。後者與其說是信息量不如說是編碼效率。

那麼為什麼對於一個確定的量也會有信息熵/信息量?這個問題就像為什麼一個確定的樣本集合也會有方差/散度一樣。因為有些情況下沒有辦法開上帝視角去了解這個真實世界的集合所代表的量在理論上的分布,所以用觀察到的統計特徵去描述這個量的特徵。

總有人說某種語言的信息熵/信息量大,但這些話往往不是什麼語言學家說的,因為語言的用法其實很難通過理論解釋清楚所以使用的並不是概率論上的信息熵概念,而是統計學家通過統計規律計算的熵值,這些結論往往都是通過分析大規模的文字材料樣本得出的。如果說一種語言的熵僅僅由基本書寫單元的個數決定,那大家都知道這是非常不合理的,不用說最廣義的用法,甚至根據語言的使用情景不同,信息熵也會不一樣。

回到你的問題,一個確定的數字『1』有信息熵么?有啊,信息熵為0。就像一個樣本集合里只有一個樣本數據,那這個樣本集合還有方差嗎?有啊,方差為0。只是對於現在這個情景,信息熵和方差沒什麼意義。

那麼對於大規模的樣本,熵就存在很大的意義,比如通過一段文字可以預測這個人/這個語境下的文字產生規律,如果以這樣的文字作為通信的輸入,假設在不存在干擾的信道,對方接收到消息破除了多少疑義,也就是通過輸出得到多少信息量,這個估算就非常有意義。

對於林肯總統的某篇演講可以通過計算信息熵,描述接收、背誦這篇演講,聽眾得到了多少資訊理論意義上的信息量。也可以對比後來一個學習者說出的文字又包含多少信息量。這裡用mathematica示範一下對於確定的文字材料也有信息熵。

至於對於已經確定的統計樣本怎麼算信息熵,可以參考我以前寫的回答R語言計算兩個一維數組之間互信息的代碼,主要是聯合分布概率不會算,H(x,y)? - 知乎用戶的回答 順便還附贈互信息怎麼算。


描述信息量的,如果以確定來量化的話,是指不確定度


信息熵是用來消除不確定的東西,一個事件可能的結果越多它被定下來,所包含的信息量越大


推薦閱讀:

互聯網改變了我們什麼?
國有銀行總行後台IT運維的發展前景?
win7旗艦版為什麼會開機半個小時?
IT人員在銀行以及一些銀行術語的疑惑?
程序員一定會熬夜加班嗎?

TAG:信息技術IT | 信息 | 資訊理論 |