一段文字的包含的信息量能不能衡量?

舉例,說一段新聞信息發布,人們可以從中挖掘出很多信息,可以涉及到經濟政治等各個領域的信息,遠超過信息表面的表達的意思,那麼,這個新聞的信息量可以用一個標準來衡量嗎?可以的話又是怎樣衡量的。


信息量的嚴格數學定義就是 log(1/p),其中p是該文本在所有可能出現的文本中的概率,簡單的說就是文本越罕見,信息量就越大。打個比方說,「我爺爺活了九十三」,和「我昨天吃了一泡屎」比起來,雖然字數相同,但是後者的信息量無疑大很多。

你可以把信息量簡單想像為在你知道全空間真實分布的情況下,對某個樣本進行霍夫曼編碼壓縮後所需的比特數(此處的霍夫曼編碼未必是逐位元組的)。當然,我們是不可能知道所有文本的概率分布的,所以要靠段落、句子、短語、詞的分布來近似。(log(1/(p1*p2))=log(1/p1)+log(1/p2))

比如雖然大多數人的名字是三個字,可是有個人的名字,卻可以壓縮成"他",信息量就比較小。


很多Geek會回答說,一段文本的信息量可以用語言模型來度量,信息量等於語言模型給出的概率的對數值的相反數。

不過這裡面其實偷換了概念。上面度量出的信息量,是「文本串」本身的信息量,而這與文本所表達的信息量,以及讀者通過閱讀所能獲取的信息量都不是一回事。比如,一段文字在保持原意的前提下換個說法,文本串本身的信息量會變,但文本所表達的信息量不變;同一段文字讓不同的人來讀,他們得到的收穫也是不同的。

至於後兩者怎麼度量,似乎並沒有什麼定量的方法……


不是有個成語叫「斷章取義」嗎?

你不能假設一句話能被所有人以相同的方式理解呀,就比如「吃了嗎?」不同人地域的人理解就不同,所以說一句話的信息量與說話的人和聽眾的背景,還有他們的相互了解程度也有關的。

而且一些代詞,其信息的表達依賴於上下文,如果截取了整個文本中的一段,代詞的信息量就消失了。

因此必須把所有文本和人的背景都確定,才可以很好的量化某幾句的信息量,而單純給定幾句話是無法定義信息量的。

確定信息量的方法按照Jianchi Chen的答案即可。


其實信息熵是H(Y|X) 。 不同的人的X 不一樣,得到的信息就不一樣。
一萬個人眼中有一萬個哈姆雷特。


當時老師說信息就是你現在還不知道的東西,比如在通話,如果你知道對方要說什麼,這個通話就沒有意義,完全沒有任何


熵的意思就是不確定性,熵越大,不確定性越大
我們在拿到一個信息之前,有一個初始的熵a
拿到信息之後,有一個更新之後的熵b
a-b越大,說明這個的信息量越大
所以用數學語言來表示就是,一個事件的信息增益越大,這個事件的信息量越大,因為它將原來系統的不確定性減少的程度也越大


有門課叫資訊理論~


宇宙演義與生命

谷榮華 2015.2.17.

前言

人體健康是人們關心的話題,人體是宇宙中極特殊的一種能量形態,所以人體健康的存在與宇宙能量的演變是密不可分的,為此我們關心健康也有必要對宇宙能量演變實質進行探索了解。目前多用宇宙大爆炸為依據,如有此事件發生,其實也只能屬於宇宙中的局部事件。如果我們換一種思考方式,把宇宙看成為一個能量變質的聚散宇宙結構,就可形成一種比較切合實際的新宇宙觀。

宇宙是由多元星系構成,就目前人類天文觀察探索,宇宙無邊無際。對億萬個河外星系的探索了解可以增加對我們所處銀河系的演變作參考。

我們所在的銀河系是我們地球生命的搖籃,太陽系是溫床,我們的地球與天地人之間的質能關係巧妙地孕育出了生命。

我們對宇宙產生的認識分為兩個階段,第一階段為弱能質光子期。第二階段為強質能聚合期。這兩個循環周期約需數億光年以上,這個循環可設定為系內為陽,系外為陰,形成若干個陰陽互換宇宙系統關係。這種陰陽能量互換系統關係適用於儒釋道醫思想,與人類哲理休戚相關的解釋。

運動宇宙的前身是什麼,應該有一個說法,目前人類觀察到的宇宙必然有一個前身原始宇宙的演變期。這也許會成為對宇宙探索的多一條探索之路。

原始宇宙是處於-273℃絕對零度以下極寒狀態。

一. 原始宇宙只有充滿弱能光子和對弱能光子具有微阻的真空。原始宇宙可分為兩個階段。

第一階段 弱能光子期

弱能光子期所處的溫度環境約為零下273度以下,這個溫度是分子相對運動停止的溫度,這個時期只有運動著的光子,理論上說靜止的光子是沒有能量的,更沒有原子分子類有質量的元素物質存在,只有每秒鐘運動三十萬公里中極弱的光子能。

對光子的光速認識,人類智慧已經給以時空定義為每秒鐘30萬公里,也就是說真空對光子的運動產生了微阻,有了運動的光子和真空的微阻,便奠定了認知宇宙能的產生和多維宇宙體堅實的基礎。目前對電磁波譜已有千米波到粒子的能量概念,對於電磁波譜能的形成我們是否這樣來分析和解釋。

1. 由於初始光子能運動的出現,便產生了一個重力場,在真空微阻力作用下,產生了光子能波動效應,也就是說光子能的交錯碰撞聚合,使得光子能量增加聚合而導致波動頻率發生改變,光子在宇宙空間是無方向性的,交叉碰撞就使得光頻能量增大而改變宇宙溫度,隨著時光的推移,溫度場從低於負273度逐步上升的改變,聚合的高能粒子形成物質原子場,分子場,當我們生存的地球達到零度以上時,在多種生物條件質能條件成塾時,最終實現了我們現在認知的高能聚合元素物質和生物物質世界。 在20世紀愛因斯坦狹義相對論中質能等價理論的推論,即著名的方程式,式(質能方程)中為E能量,單位電子伏特(eV),m為聚合能物質質量,c為光速;也就是說,一切物質都潛藏著質量乘以光速平方的能量。

這一觀點是否可作為追究對原始宇宙的思考,即平靜寂寞的原始宇宙,由於聚合的高能粒子形成物質能量場,而打破了原始宇宙能量平衡而引發了地球生命對能量現象的物理探索

2.扭曲效應的產生,引導出原生引力場,設想每秒30萬公里速度的光子能,在無邊際的宇宙中運行,隨著時間的推移,每個時間點都會發生偏移,這就產生了扭曲,在上萬光年的光子運動,它已經變成旋窩形,這種天文數字的力表現在星繫上,成熟星系都表現為旋窩狀。另外一個原因是光子能的聚合頻率引起的扭曲效應,也由此產生不同能量光譜光波動能,它們突破了絕對零度的防線,改變了原始宇宙絕對零度狀態使之產生了溫差變化,由此引發宇宙能量演變。

光波的正弦波和負弦波本質上已經反映出光波的引力機理,也表示出光波動能正負能量的共存態,由於重力場和引力場在溫度熱焓函數差波動條件下,這就產生了非定域能狀態,當物質能與電磁波譜能交變時產生了非定域能、這種轉換能就是我們所需要解釋的生命信息能。

3.重力場效應,引力場效應,光子運行時無論多麼弱都有一個重力作用,光子積累能量時都產生了引力,以我們人類生存的銀河系直徑十萬光年來看,以每秒30萬公里的速度運行,估計應有約2650000000000個30萬公里點移,當億億個點移量的存在,使得星系旋窩狀態所形成的自律星系是所擁有重力場和引力場的重要因素之一。宇宙中有了光子生成的重力場和引力場,便可加速物質能的產生,這就具備了無中生有的條件,當有了原始宇宙1.2的假說,便可知原始宇宙中無中生有的便是光子能,光能的聚合行為也就導至產生重力場效應,引力場效應,以及其綜合的初始物理效應,這就是天道之中無中生有一一光波能。光波譜能的存在便有了重力場效應,引力場效應的概念,這對宇宙天體中的星系恆星的產生便有了基礎條件。對我們現代認知的宇宙之迷,生命之迷,帶來了全新的認識。同時也奠定了認知宇宙能的產生和多維宇宙能量體系交變循環堅實的基礎。

4.星系邊緣和星系之間的空間是什麼狀態?這是需要回答的問題。我們可以這樣理解,當光子能聚合成不同頻譜的電磁波譜能時或者之後聚合成物質能時,棄之於星系外太空的便是能使光子相對靜止的嚴寒溫度,即可稱為光子負能量狀態,這種狀態被打破時將是星系發生重大變化時,就象天文觀察到的其他星系變化一樣,即使一個人活一百年你也看不到任何實質的變化。

笫二階段 強能光子期

光子能在聚合過程中,在重力場效應,引力場效應中逐步改變宇宙局部能量場,這種能量改變或稱轉換,對當代科學介來說並不奇怪,奇怪的是古人稱謂陰陽互動,陽長陰衰,陰長陽衰理論,他們在沒有現代科學理論和實驗室條件下怎麼悟出的,這是否是積累知識和靜心修念調動大腦潛意識的結果,佛學中心經揭示的生命修為就是難以至信的生命質能觀。強能光子期打破了早期宇宙平衡,形成了周期性能量轉換過程,這種周期性對於人類來說,千代萬代觀察到的宇宙周期變化也只能是冰山一角。因為我們所處的銀河系陽衰到極限時地球就不存在了,此時又是負能量極盛的體系,此時又進入了下一輪輪迴。

1. 電磁波能譜形成完善期。

現代人類根據不同能量光子總結出了電磁波譜圖,(見參考資料1) 在空間傳播著的交變電磁場,即電磁波。它在真空中的傳播速度約為每秒30萬公里。電磁波包括的範圍很廣。實驗證明,無線電波、紅外線、可見光、紫外線、X射線、γ射線、r射線都是電磁波。光波的頻率比無線電波的頻率要高很多,光波的波長比無線電波的波長短很多;而X射線和γ射線的頻率則更高,波長則更短。為了對各種電磁波有個全面的了解,人們按照波長或頻率、波數、能量的順序把這些電磁波排列起來,這就是電磁波譜。

無數科學家就目前而言,對電磁波譜按照波長或頻率、波數、能量的順序把這些電磁波排列起來是認可的,留給我們思考的是電磁波譜中的波長. 頻率. 波數. 能量是如何形成變數在我們的宇宙中的,很自然會想到波長. 頻率. 波數. 能量增量聚積而導致的綜合認識結果,用陰陽,明暗解釋宇宙星系,就會產生一種某些潛意識開放的古人描繪的陰陽太極圖,即是物質不滅(也可稱為能量不滅)思維圖,也是宇宙無始無終的結論,宇宙只有陽陰起落。對於宇宙的探索,科技越是發達的今天我們越是只能看到更多的星系和星系之間真空和星系之間的陰陽交變。

另外一個突出的天文數字為時光計算的符號光年,一光年的行程,光子會發生什麼變化,光子還在一條直線上嗎?在交錯行程中有碰撞積累嗎?若干旋轉在宇空中的高速光子是否是重力場和引力場的先祖?

2. 物質能形成期。

當光子能聚合到相當的粒子能量時,由於某種量子行為(光子的重力場和引力場)成為了不同質量的原子,目前發現的原子量不同的元素有百餘種,它們以特殊或特定的關係化合. 絡合成宇宙萬物,(無機物和有機物)。順便提及的是宇宙成因是由一個能量極大的質點大爆炸形成是不可能的,因為現代天文學已可以觀察到宇宙深處數萬光年外的星系,只能見到星系能量極盛時發生爆炸,再從新進行周期性能量平衡。所以應多尋找浩瀚宇宙空間星系能量的運行變化規律,這樣可能更為現實一些地從無知回歸到真知。

3. 宇宙中極其特殊的能量形態: 生命。

我們說生命是宇宙中極其特殊的能量形態,其理由是生命是由不同質量的元素組成,我基本上認可生命是物質. 能量. 信息三者之間協調統一的觀點,這三者即物質. 能量. 信息的實質是什麼?物質=物質能,能量=電磁波譜波動能,信息=物質能和電磁波能交變過程產生的信息能,這就是生命極特殊的能量形態。這三種能量在生命體中的統一協調參數是一個天文數字,但人類全力研究很快就會到來,這種考慮基於現代網路信息能的高速發展,它表現的是電磁波譜中微波譜段。

從另外一些角度來看生命能量,太陽光與葉綠素合成的能量促成了植物與元素存在千姿百態。人體存在的本身能量包含原子能,有機和無機分子能,食物提供的化合能,人體運動產生的機械能,太陽提供的紫外一一可見七色光一一紅外電磁波譜能,物質能和電磁波譜能進行交變產生的信息能。這六種能量就是我們人是活著的基本,無論西醫藥,中醫藥還是養身健體,都是為了平衡人體六大能量而不懈的努力。下一個機遇就是人體和生物生態信息能的研發。


以下,求各位答友衡量一下信息量——————————————————————————————————————

我和我的女朋友交往了八年,上個星期,我們結婚了。婚後不到一個月,我就懷孕了,妻子說這個孩子必須要打掉,萬一長大了和我一樣,那就糟糕了。

妻子從小在家人的擁簇中長大,很早的時候她的母親就去世了,父親另娶了姑姑,並且保證不會生二胎。

我覺得她應該還是很討厭別人共享她的東西的,不然她的親生母親不會莫名其妙墮胎那麼多次,可是我太想要個孩子了。

和她再三協商,最後還是決定打掉。我去醫院做了手術,發現醫院的隔壁那家孤兒院牆上長滿了爬山虎,在夕陽下照的很好看。

我買了水果去了孤兒院,畢竟這是我待過三年的地方。把水果分給小朋友,走到三樓的時候,水果已經不剩了,袋子里只有橙子的味道。我拉開走廊上的窗帘,忽然看見窗帘背後站著一個小女孩。

那個女孩長得和我妻子幾乎一模一樣,她抬頭看了看我,突然咧嘴一笑:

「你以為墮胎就能打的掉我么?」


我打出一個「草」字
有人聞到了土腥味兒
有人觸到了露水
有人硬了
有人濕了
就連字面的理解都不一樣,所以一段文字面對不同的接收者,信息量無法衡量


你說的就是Hash演算法嘛,用一段數字來把一段信息抽象出來


比如「我愛你」這句話,一萬個人聽了有一萬種反應,信息量大不大呢?


一切哲學問題都是語言問題


是可以衡量的
衡量一段文字的信息量不僅要關注字元出現的概率,還要關注由於語法語用而帶來的不確定度的縮減(也即信息量的縮減)
沒記錯的話,《數學之美》裡面有談到這個問題,也引用了一個論文,題主可以看看


從資訊理論的某個角度上說,一段文字的信息量可以看做「解析這段文字的真實含義所需的『知識』」

按照題主的描述,應該沒有統一的標準,信息量需要在特定背景下討論。


同意上面答主的背景論,一句話和聽的人的背景有關,比如古詩的用典,典故的理解不一樣,對用典的句子理解都不一樣,更不用說不知道典故的人了,新聞也是一樣的,現在越來越多的流行詞語,其實都是一種用典


吳軍的數學之美裡面有講過這些,題主可以去看看


自己翻大學通信原理書,裡面就有。


推薦閱讀:

正規數(比如 π)中是否包含了宇宙中的所有信息?
如何消除信息不對稱?
如何理解和盡量避免「信息不對稱」?
怎樣把信息轉化成知識?
如果 π 是合取的,「π 包含整個世界」就成立了嗎?

TAG:數學 | 信息 | 文本數據分析 | 資訊理論 | 概率論 |