一個文本里的所有詞不變,順序隨機後,那麼熵改變了多少?如何計算?

這裡的熵指香農的信息熵。如果以詞為單元,重新排序後熵也不變,因為只和頻率有關。但由於word order的存在,語言有一種long-range correlations,如何去掉這個影響呢,或者說這個相關性帶來的信息熵是多少呢?


謝邀。

題目和描述是兩個問題。

@dy.zhao 的回答是正確的,已經解決了題目中的問題。不再贅述。而描述中的問題似乎題主又說得不很清楚,我按照我的理解回答一下,不知道能不能幫到題主。

首先,使用信息熵時必需確定合適的對象。一般來說,要研究何種規模上出現的規律,就要選擇相應規模的對象。以英語為例,如果要研究字母出現的頻率問題,就應該直接以字母本身為對象,26個字母如果平均出現,n個字母的文本的熵應該為nlog_{2}^{26} ,但由於不同字母出現的概率不同,實際文本的熵一定小於它。這個差值H_{1} 就反映了文本中字母出現的集中度。同樣,如果要研究兩個相鄰字母的關聯,就要以兩個字母的組合為對象,n個字母的文本如果字母完全隨機出現,熵有2(n-1)log_{2}^{26} 。而實際上一定會比它小,差值H_{2} 就反映了文本中字母組合的出現規律 。但這裡有個問題,因為不同字母出現的概率是不同的,比如字母Z出現的幾率比字母A少,所以一切含Z的字母組合都會較少出現。如果單純的想知道字母間的聯繫性就應該將這個影響除去,用H_{2}-2H_{1} 才能描述它。同理我們可以計算連續三個、四個以至於n個字母的關聯性。

所以無論題主說的long range correlations到底是多long的range,理論上都是可以計算的。但range越大工作量越大(尤其對於漢語這種基礎對象就成千上萬的語言來說),而且實際意義也變得很模糊。所以信息熵似乎並不是大尺度上研究高級語言差異的好工具,這種事情還是按照比較語言學的研究方法來做為好。


熵沒有改變

對於存在long range correlation的序列而言,ground state是corrleated,打亂之後的序列是小概率高能量事件,所謂的高能量無非就是說它相對於你模型的偏離大了


推薦閱讀:

同樣是數據分析方法,為什麼時間序列分析沒有數據挖掘或機器學習那麼火?
如何深入理解時間序列分析中的平穩性?
計量經濟學、時間序列分析和機器學習三者有什麼區別與聯繫?

TAG: | 自然語言處理 | 統計物理 | 資訊理論 | 時間序列分析 |