如何從概率公理得到熵的公式?

Probability axioms

Differential entropy

Maximum entropy probability distribution


不失一般性,僅考慮離散型隨機變數X,即

P(X=x_k) = p_k > 0,,

其中k = 1,cdots,Ksum_{k=1}^Kp_k = 1.

隨機變數X的熵H(X)定義為

H(X) =  - sum p_k log(p_k).

下用庫恩塔克條件,求H(X)的最大值.

定義

L({p_k}, lambda) = - sum p_k log(p_k) - lambda(sum p_k - 1),

並寫出偏導數

frac{partial L}{partial p_k} = -log(p_k) - 1 -lambda = 0,

frac{partial L}{partial lambda} = sum p_k - 1 = 0.

由此可求出

hat{p_k} = 1/K (k = 1, cdots, K),

亦即X是均勻分布時,其熵最大(分布所攜帶的信息量最少).


參看統計物理

答案:略


推薦閱讀:

「女性駕駛技術普遍不如男性」是偏見還是確實存在生理差異?
精通 R 是一種怎樣的體驗?
十道四選一的題目全部蒙對的概率怎麼算?
冪律分布背後有沒有一般性的原因?

TAG:統計學 | 資訊理論 | 概率論 |