一個文本里的所有詞不變，順序隨機後，那麼熵改變了多少？如何計算？

01-02

這裡的熵指香農的信息熵。如果以詞為單元，重新排序後熵也不變，因為只和頻率有關。但由於word order的存在，語言有一種long-range correlations，如何去掉這個影響呢，或者說這個相關性帶來的信息熵是多少呢？

謝邀。

題目和描述是兩個問題。

@dy.zhao 的回答是正確的，已經解決了題目中的問題。不再贅述。而描述中的問題似乎題主又說得不很清楚，我按照我的理解回答一下，不知道能不能幫到題主。

首先，使用信息熵時必需確定合適的對象。一般來說，要研究何種規模上出現的規律，就要選擇相應規模的對象。以英語為例，如果要研究字母出現的頻率問題，就應該直接以字母本身為對象，26個字母如果平均出現， $n$ 個字母的文本的熵應該為 $nlog_{2}^{26}$ ,但由於不同字母出現的概率不同，實際文本的熵一定小於它。這個差值 $H_{1}$ 就反映了文本中字母出現的集中度。同樣，如果要研究兩個相鄰字母的關聯，就要以兩個字母的組合為對象， $n$ 個字母的文本如果字母完全隨機出現，熵有 $2(n-1)log_{2}^{26}$ 。而實際上一定會比它小，差值 $H_{2}$ 就反映了文本中字母組合的出現規律。但這裡有個問題，因為不同字母出現的概率是不同的，比如字母Z出現的幾率比字母A少，所以一切含Z的字母組合都會較少出現。如果單純的想知道字母間的聯繫性就應該將這個影響除去，用 $H_{2}-2H_{1}$ 才能描述它。同理我們可以計算連續三個、四個以至於 $n$ 個字母的關聯性。

所以無論題主說的long range correlations到底是多long的range，理論上都是可以計算的。但range越大工作量越大(尤其對於漢語這種基礎對象就成千上萬的語言來說)，而且實際意義也變得很模糊。所以信息熵似乎並不是大尺度上研究高級語言差異的好工具，這種事情還是按照比較語言學的研究方法來做為好。

熵沒有改變

對於存在long range correlation的序列而言，ground state是corrleated，打亂之後的序列是小概率高能量事件，所謂的高能量無非就是說它相對於你模型的偏離大了