【資訊理論淺解一】信息和資訊理論是什麼？

02-10

信息這個詞在生活中無處不在，有人稱我們今天所處的正是信息時代。

但其實想要闡述信息是什麼，卻並不容易。僅從哲學層面，信息就可以分為三個層次：

當然，這些也只是從特定的切入角，對信息進行定義。所以不夠完整明確，都得不到公認。這其中一個重要原因就是人類對信息本質的認知還不夠。

但是從資訊理論的角度入手，就能用完備的理論框架和數學定義，對信息進行闡述。這一點對人類非常中重要。

這張照片拍攝於1890年，瑞典首都斯德哥爾摩的5000條電話線。雖然這個時候，工程師已經掌握了相對成熟的有線通信技術，有線電話也日漸普及。但本質上還是處於知其然，不知其所以然的截斷，以下問題當時並沒有人可以回答：

Hartley進行了嘗試，他考慮了以下情況：

Hartley（1888-1970）

不過這個定義並不完善，因為Hartley定義信息量時並沒有考慮不定性問題，即出現概率不相等的情況。有趣的是，Hartley對此解釋說：至於出現不定的情況，是人臆想的心理活動，應由心理學家而不是數學家解釋。

後來到了1948年，Shannon將Hartley的公式擴大到概率不相等的情況，得到了信息熵的公式：

$H(X)=-sum_{n=1}^{N}{p_nmathrm{log}p_n}$

這個看似簡單的公式，成為了資訊理論學科的奠基之作。

這個公式也很好理解，那就是用事件發生的概率 $p_n$ 的大小，來衡量信息量 $f(p_n)$ 的高低。那麼 $p_n$ 和 $f(p_n)$ 之間應該滿足哪些規律呢？

1. $f(p_n)$ 是一個單調減函數，即事件發生的概率越大，信息量越小；反之事件發生的概率越小，則信息量越大；

舉個例子，如果你的朋友告訴你兩件事，一是今天太陽從東邊升起；二是今天外面有霧霾？

在資訊理論中，你朋友告訴你的第一件事情根本沒有信息量，這是因為「太陽從東邊升起」的概率是100%，根本不需要你朋友告訴你，所以他在跟你闡述這件事時，你沒有從中得到任何信息；而第二件事情雖然概率也很高，但並不是一個必然事件，因此你還是能從中獲得一些信息量的。

2. $f(p_n)$ 是非負的。

同樣很好理解，因為某事件最極端也就是不攜帶信息，負數的信息量沒有合理的定義；

3.多隨機事件同時發生存在的總不確定性的量度是可以表示為各事件不確定性的量度的和，例如

$f("mathrm{sun}"mathrm{and}"mathrm{wind}")=f("mathrm{sun}")+f("mathrm{wind}")$

也很好理解，即你從今天有太陽而且颳風中獲得的信息量，等於你從今天有太陽中獲得的信息量和今天颳風中獲得的信息量的和。放到日常生活中，就是這兩件事一起告訴你，同分兩次告訴你，對你了解今天的天氣而言，並沒有什麼區別。

Shannon根據上述三個原則，證明了對於隨機變數 $X$ 存在這樣的表示不確定性的量度的函數 $f(p_1,p_2,...,p_N)$ , 為概率分布 $(p_1,p_2,...,p_N)$ 的函數，只有如下形式：

$f(p_1,p_2,...,p_N)=-sum_{n=1}^{N}{p_nmathrm{log}p_n}$

我們拿現實中的電腦存儲空間舉例。電腦存儲為二進位，即0或1。如果考慮兩者等概率出現，即 $p_1=p_0$ ，那麼可以算出一個01符號，所攜帶的信息量是：

$I=-p_1mathrm{log}p_1-p_0mathrm{log}p_0=mathrm{log}2=1bit$

這便是我們日常中，常見的用于衡量信息量的單位——比特的含義。

資訊理論把統計信息定義為：

「用來消除信息接收者某種認識上的不定性的東西」，並給出了其度量公式：熵和互信息。

根據這些定義，對於工程問題，尤其是通信問題，建立了一些重要的性能界：

同時還建立了一組重要的編碼定理，從理論上指明了為達到上述性能界限應當遵循的信息處理的方法和原則。

資訊理論不僅從定性方面而且也從定量方面深刻地揭示了信息傳遞和處理的規律，使通信的研究從經驗的階段發展到科學高度。

【TIPS】本文回答了下面三個問題中的第一個，之後的兩個問題，後面有時間會更新介紹。

但想一個腦洞，如果沒有資訊理論，我們便無法定量計量發送信號中包含的信息量。那或許今天我們去運營商那裡，購買的就不是多少M多少G的流量（單位bit），而是要很麻煩的分別購買若干語音，若干文字，若干圖片，若干視頻。而資訊理論的出現正是告訴我們，如何統一地去衡量語音、文字、圖片等不同信息類型的信息量。