標籤:

2.8 資訊理論

2.8 資訊理論

來自專欄 機器學習 一種概率視角 學習筆記

2.8.1 熵

H(X)H(p) 代表具有分布 p 的隨機便量 X 的熵,用於度量其不確定性。對於具有 K 個狀態的離散變數,定義為

H(X)	riangleq-sum^K_{k=1}p(X=k)log_2{p(X=k)}	ag{2.107}

通常使用的是 2 為底的 log ,單位是比特,二進位數字的縮寫。如果用 e 為底,單位是奈特。離散分布有最大熵的是均勻分布, H(X)=log_2K ,有最小熵的是狄拉克函數,所有質量都在一個狀態中,熵為 0 。當 Xin{0,1} ,則 p(X=1)=	hetap(X=0)=1-	heta 。因此熵為:

egin{align} H(X)&=-[p(X=1)log_2p(X=1)+p(X=0)log_2p(X=0)]	ag{2.108}\ &=-[	hetalog_2	heta+(1-	heta)log_2(1-	heta)]	ag{2.109} end{align}

這稱為二元熵函數,也寫為 H(	heta)

2.8.2 KL距離

一種衡量兩個概率分布 pq 不相似程度的方法稱為KL距離,或相對熵。定義為:

KL(pVert q)	riangleqsum^K_{k=1}p_klogfrac{p_k}{q_k}	ag{2.110}

用概率密度函數的積分代替加和可重寫為:

KL(pVert q)=sum_kp_klog p_k-sum_kp_klog q_k=-H(p)+H(p,q)	ag{2.111}

其中 H(p,q) 稱為交叉熵,

H(p,q)	riangleq-sum_kp_klog q_k	ag{2.112}

當使用模型q來定義編碼本時,交叉熵是編碼分布為p的數據所需的平均比特數。因為常用的熵 H(p)=H(p,p) 是使用真實模型的預期比特數,於是KL距離是這兩者之間的距離。換句話說,KL距離是編碼數據所需的額外比特的平均數量,因為我們使用分布 q 來編碼數據而不是真實分布 p 。額外的比特,說明 KL(pVert q)ge0 ,而且僅在 q=p 時KL為 0

2.8.3 相互信息

考慮兩個隨機變數 XY 。假如想知道當知道一個變數時能知道另一個變數多少。我們可以計算相關係數,但這只是為實值隨機變數定義的,此外,這是一個非常有限的相關性度量。更一般的方法是確定聯合分布 p(X,Y) 與因式分布 p(X)p(Y) 的相似程度。這被稱為互信息,定義如下:

I(X;Y)	riangleq KL(p(X,Y)Vert p(X)p(Y))=sum_xsum_yp(x,y)logfrac{p(x,y)}{p(x)p(y)}	ag{2.119}

我們有 I(X;Y)ge0 ,當 p(X,Y)=p(X)p(Y) 時取等號。也就是當變數獨立時相互信息為 0 。上式與下式相等:

I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)	ag{2.120}

其中 H(Y|X) 是條件熵,定義為 H(Y|X)=sum_xp(x)H(Y|X=x) 。與MI密切相關的數量是逐點互信息。對於兩個事件(不是隨機變數) xy ,其被定義為:

PMI(x,y)	riangleqlogfrac{p(x,y)}{p(x)p(y)}=logfrac{p(x|y)}{p(x)}=logfrac{p(y|x)}{p(y)}	ag{2.121}

這是衡量這些事件一起發生與偶然發生之間的差異。顯然, XY 的相互信息只是PMI的預期值。可以重寫PMI如下:

PMI(x,y)=logfrac{p(x|y)}{p(x)}=logfrac{p(y|x)}{p(y)}	ag{2.122}

這是我們通過將先驗 p(x) 更新為後驗 p(x|y) ,或等價地將先驗 p(y) 更新到後驗 p(y|x) 中學習的量。

推薦閱讀:

Capsule network--《Dynamic Routing Between Capsules》
EdX-Columbia機器學習課第6講筆記:稀疏線性回歸
機器學習 - EM演算法
吳恩達機器學習第一周課後感

TAG:機器學習 |