學堂在線《應用資訊理論基礎》學習筆記01
資訊理論
/*#########################################################
學堂在線《應用資訊理論基礎》學習筆記
慕課網址:
http://www.xuetangx.com/courses/course-v1:TsinghuaX+70230063X+sp/about
#########################################################*/
1. 資訊理論的基本概念
1.1. 信息熵
1.1.1. 隨機變數的自信息
我們日常生活中會說一個事情「信息量太大了」,一個人說話「信息量太大了」。那麼作為研究信息的理論——資訊理論——又是怎樣定義「信息量」的呢?讓我們先想一下直覺上的感受,比如:一卡車相同的beatles單曲CD承載的信息量很大嗎,是不是數據量越大信息量越大呢?我們想一想會很輕易地回答「不是的」。那麼信息量的大小怎麼衡量呢?香農是這樣看待信息量:
信息是對不確定性的消除。比如說,夏天預報明天下雪和冬天預報明天下雪哪個「信息量」更大呢?我們在冬天聽到明天下可能並不感到奇怪,也就是消除的不確定性小;在夏天聽到明天下雪則會感到很驚奇,也就是消除的不確定性大,信息量很大。我們發現隨機事件的自信息是一個和隨機事件的概率緊密關聯的一個量,概率越低的隨機事件提供的自信息越大,概率越高的隨機事件提供的自信息越小。如果一個隨機事件的概率為1,那麼很顯然它是一個確定性事件,它能提供的信息量為零,因為沒有任何的不確定性被消除。而隨著事件發生的概率越來越小,它能夠提供的信息量越來越大,當隨機事件概率趨向0時,它的信息量趨向無窮大。還有,很符合直觀感覺的是,當兩個獨立的隨機事件同時出現的時候,它們所提供的信息量則是它們這兩個隨機事件各自信息量的算術和。至此,我們得到了隨機事件的自信息的四個基本性質:
1. 概率越低的隨機事件提供的自信息越大,概率越高的隨機事件提供的自信息越小;
2. 如果一個隨機事件的概率為1,它的信息量為零;
3. 如果一個隨機事件的概率為0,它的信息量無窮大;
4. 當兩個獨立的隨機事件同時出現的時候,它們所提供的信息量則是它們這兩個隨機事件各自信息量的算術和。
也就是:
那麼什麼樣的函數會滿足這個要求呢?我們會發現對數函數
可滿足。其中:
其實我們可以證明這是且是唯一一種可表達的數學形式。由於過於複雜,這裡不予證明了。
我們可以通過例子感受一下這個定義的巧妙: 八個燈泡串聯,其中一個燈絲斷了(紅色的表示燈絲斷了)。
如何用最少的步驟定位出哪一個壞了?使用最巧妙的方法需要用三次二元判定來定位故障。因此,「八個燈泡串聯加電源不亮」這個事件所含有的信息量是log(1/(1/8))比特,也就是3比特,正好等於比較的次數。
1.1.2. 信息熵
我們知道了對於一個隨機事件的信息量如何表達,很自然的,我們會想將這個概念推廣到一個隨機系統上。也就是一個隨機系統有多少信息量呢?一個很自然的想法就是對這個隨機系統所能提供的所有隨機事件的自信息進行統計平均,以這個統計平均來代表這個隨機系統的總體信息量,這也就是信息熵的定義:
又是舉例時間:
例子一:
例子二:
1.1.3. 聯合熵
前面是一個隨機變數的情況,我們可以自然地推廣向高維的情況:
例子:
可見在情況二中,有:
我們思考一下,可能會想到,我們觀察x時,可能會對y的不確定性進行一定上的消除。這引出了條件熵。條件熵可以解決聯合熵和邊緣分布的信息熵之和不等的問題。
1.1.4. 條件熵
由定義可知:
1.1.3.的黑球百球問題得到了進一步解釋:
證明從略。
還有:
這個定理表達了「在已知z事同時觀察x,y」和「在已知z是先觀察x,再進一步觀察y」消除的不確定性是一樣的。可以繼續推廣為:
繼續:
這也就是1.1.3.的黑球百球問題中的情形一。
推薦閱讀: