為什麼信息量不能為負值？

12-31

大家的回答角度千奇百怪，看來這個問題似乎並沒有學術上的確定答案
==============
一般說法說是因為信息只能被賦予不能被奪走，例如你對一件事情不明確，我告訴你答案你就明確了，而不能相反所以信息量不能為負。
但如果相反，你對一件事情很明確，我過來告訴你個假信息然後你就對本來明確的事物糊塗了，這算不算信息被剝奪？我說的假消息算不算信息量為負值？

我想題主所說的非負性大概是香農信息度量的非負性。原則上，香農信息度量是統計概念，它並不用來度量一個確定答案的問題本身的信息量（都有確定答案了，就不需要統計度量了）。例如熵，當一個事件有不同可能結果時，觀察到某一個特定結果所得到的信息量即self-information，而觀察到結果的平均信息量即熵，是self-information的平均。它們都是非負的。而一個人本來知道答案（1+1=2）卻又告訴他錯誤的答案（1+1=3）使他迷惑這件事，在建立適當的概率模型之前，並不能用香農信息量來度量。

首先不管你知道的消息。

自信息量：你告訴我一個有可能假的消息，我本來不知道你會告訴我哪個消息，現在我知道了。你告訴我一個消息所攜帶的自信息量就是log(1/p)，這消除了我對你會告訴我哪個消息的不確定性。

互信息量：你告訴我一個消息後，我對事實消除了多少不確定性。這裡是需要知道你告訴我的消息和事實之間的聯合分布的，也就是說我已經知道了你有多少概率說假消息。所以你告訴我一個消息會消除一定的不確定性。

好了接下來要加入你自己的已知消息了。

比如我知道的信息為X，你告訴我的信息為W。

我本來對事件Y的不確定性（條件熵）H(Y|X)

你告訴了我這個消息以後我對Y的不確定性變成了H(Y|X,W)

總之推一下應該是H(Y|X)&>=H(Y|X,W)

也就是說我在知道X的條件下，告訴我W的消息一定不會增大我對Y的不確定性，也就是即便我知道了一些關於Y的信息，你告訴我有可能為假的消息的平均信息量一定不會減小。

用你題目的話說，我本來對一個事情很明確，你告訴我了一個（假）消息，我並沒有迷糊，而是分析了你說假話的概率，以及你說真話假話與我已知的信息的聯合分布，以及和事情真相的聯合分布，最終得到我對事情的確定程度。而且這個確定程度比你告訴我消息之前更高。

重新整理一下：

首先香農體制下的信息定義保證了信息不能為負，編碼長度同樣不能為負；

題主說提到的情況涉及到假定的分布和真實的分布，錯誤信息的引入可能會使得估計的分布和真實分布產生比較大的差異，而假定的概率分布和真實概率分布之間的差可以用相對熵進行衡量。

信息能憑空消失么

因為，信息值為負的已經不能叫做信息，而被叫做干擾。

香農的理論是很簡樸而典型的，A想要把某個信息a傳遞給B，但傳播信息的信道存在種種異常，比如，A站在山頂喊話「我喜歡你」，結果因為風太大，B只聽到「我喜歡」，雖然信息量丟失，但仍有一部分信息傳達了，那就是「我（A）」和「喜歡（L）」。

第二次，A還對B說，「我喜歡你」，但因為風太大，B聽成了，「我喜歡隔壁老王」。那麼B所得到的信息是什麼呢？「我(A)」和「喜歡(L)」這兩個信息的置信度提高了，而「你(B)」的置信度降低了。

但是當A說，「我喜歡你」，B可能會因為風太大而聽成「老李討厭隔壁老王」么？可能性很低。

更精鍊地說，S為信息的發送端，R為信息的接收端，S想要告訴R，自己喜歡的粽子是甜（A）的還是咸(B)的。因為風太大，R根本聽不到S說的話，所以他只能認為S的甜咸黨屬性是對半開（P(A)=P(B)=0.5)。風小了一些，R隱約地聽到S的聲音，但聽不清是「甜」還是「咸」，所以他多聽了一會兒，他聽了100次，大概有70次是聽到「A」，而30次是聽到「B」。所以他認為B喜歡甜粽子。當然，也有可能S說自己喜歡甜粽子而被R聽成了喜歡咸粽子，但這是小概率事件。

除非，當S使勁喊「我喜歡甜粽子」，有一個傻X非得站在路中間模仿S的聲音，向R喊道，「咸粽子，咸粽子，咸粽子。」

什麼信息能使人失憶、計算機丟失數據、記錄本自燃？我想不出來。

事件的自信息量、事件的條件自信息量、信源的平均自信息量不能為負值，但事件的互信息量可以為負值。

假設我知道a，但你告訴我b。互信息量為負值的情況就是，你不說我還清楚（P(a)較大，因而自信息量I(a)較小），你一說我反倒糊塗了（p(a|b)變小，即p(a|b)&I(a)），因此你說的話給我帶來負信息量（I(a;b)=I(a)-I(a|b)&<0）。

某個具體的反偵察手段、干擾信息帶來的互信息量就是負值，但總體上來說，平均互信息量還是非負的。所以假如我們能夠獲得所有相關信息，去偽存真是可以做到的。

作為一個小學畢業生，我都知道互信息為正是根據平均的情況來的。

具體而言

信息不等式：I （x，y）≥0/

*** 得到X不會擴大Y的可能性，但僅僅對其總和意義的結論成立

*得知X有可能使Y的熵增高。

example：橫軸表示X，豎軸表示Y

1 2

1 0 3/4

2 1/8 1/8

注意，當得知X為1的時候Y的熵減小，當得知X為2的時候Y的熵增加！

by《我的自學文本：資訊理論篇》

事實上，量子信息是可以為負的，詳情參見這篇文章

https://arxiv.org/pdf/quant-ph/0505062.pdf

首先必須明確你對信息的定義的理解。所謂信息量的定義其實很簡單，舉個最最例子，我有8個球，每個上面都有1到8數字中的一個。你隨手拿起一個，我最少要問多少個問題才能準確判斷你手上有拿的是哪個球呢？答案是3次。比如，假如你拿了一個5.

1.數字大於4嗎？你回答「是」。

2.假如第一問題你回答了「是」，下個問題我會問，數字大於6嗎？你回答「否」。

3.假如上個問題你回答了「否」，下個問題我會問，數字大於5嗎？你回答「否」

於是我就知道了你手上球的數字是5。這件事情中，你回答了三次「是否」的問題。

所以，你從8個球中間拿起某一個球這個件事件本身，就拿起了哪個球這個問題，包含了3 bit的信息。你每次正確的回答，都傳達了1 bit的信息。

但是，現在回答你的問題，假如如果在你回答問題的時候，有人搗亂，隨機給出答案給我（你所說的「負」信息）。比如它隨機給我了「是」、」否「、」是「的答案，並且我都聽到了，我們說，這個「干擾」也傳達給了我3 bit的信息，但是，重點是，在整個事件中，我接受了多少信息了？答案是4 bit，其中有1 bit是噪音，或者說是干擾。整個信息的傳遞圖就如下圖所示：

其中，

Hstim = 3 bit，如圖中藍色圓部分，是你給的正確答案；

Htrans = 3 bit，是正確答案傳遞給我的比特數，如圖中橘色圓和藍色圓交界處（圖畫的是一般情況，此例中橘色圓應該完全覆蓋藍色圓，所以交界部分覆蓋整個藍色圓）；

Hnoise = 1 bit，是第三個問題和正確答案不同部分，是圖中橘色圓多出部分；

Hresp = 4 bit，是圖中的橘色圓（本例中應該覆蓋並且大於藍色圓）。

所以，我是否能對「你拿了哪個球」這個問題作出正確決策，並不是信息量計算需要討論的問題。而我接受了多少信息才是信息量計算回答的問題。這麼說來，獲得的干擾並不為負，因為它雖然是噪音，但是依然增加了我獲得的信息量，只是對於我回答你手上拿了多少個球這個問題沒有幫助而已。

下面的回答針對題主的問題描述。

其實歸根到底一句話：信源(發送方)的信息量與接收方無關。

比如說別人告訴我「今天要下雨」，我作為接收方，不管我信不信，也不管我是不是被忽悠，他說的話包含的信息就在那裡，不管是真是假。

再比如。我親眼看到了外面在打雷下雨，但我突然懷疑自己的眼睛壞了，這導致我依然不知道現在是什麼天氣。雖然如此，但天氣的信息依舊擺在那裡，即便我懷疑，天氣本身信息依然是個正數。

其實這是資訊理論重要的原因之一，因為它能從最客觀的角度去度量信源的信息，不需要去考慮我是怎麼想的。

熵不能為負。

信息是用來描述熵的吧。

因為p&<=1

-p*log(p)&>0