2.8 資訊理論
來自專欄 機器學習 一種概率視角 學習筆記
2.8.1 熵
或 代表具有分布 的隨機便量 的熵,用於度量其不確定性。對於具有 個狀態的離散變數,定義為
通常使用的是 為底的 ,單位是比特,二進位數字的縮寫。如果用 為底,單位是奈特。離散分布有最大熵的是均勻分布, ,有最小熵的是狄拉克函數,所有質量都在一個狀態中,熵為 。當 ,則 及 。因此熵為:
這稱為二元熵函數,也寫為 。
2.8.2 KL距離
一種衡量兩個概率分布 和 不相似程度的方法稱為KL距離,或相對熵。定義為:
用概率密度函數的積分代替加和可重寫為:
其中 稱為交叉熵,
當使用模型q來定義編碼本時,交叉熵是編碼分布為p的數據所需的平均比特數。因為常用的熵 是使用真實模型的預期比特數,於是KL距離是這兩者之間的距離。換句話說,KL距離是編碼數據所需的額外比特的平均數量,因為我們使用分布 來編碼數據而不是真實分布 。額外的比特,說明 ,而且僅在 時KL為 。
2.8.3 相互信息
考慮兩個隨機變數 和 。假如想知道當知道一個變數時能知道另一個變數多少。我們可以計算相關係數,但這只是為實值隨機變數定義的,此外,這是一個非常有限的相關性度量。更一般的方法是確定聯合分布 與因式分布 的相似程度。這被稱為互信息,定義如下:
我們有 ,當 時取等號。也就是當變數獨立時相互信息為 。上式與下式相等:
其中 是條件熵,定義為 。與MI密切相關的數量是逐點互信息。對於兩個事件(不是隨機變數) 和 ,其被定義為:
這是衡量這些事件一起發生與偶然發生之間的差異。顯然, 和 的相互信息只是PMI的預期值。可以重寫PMI如下:
這是我們通過將先驗 更新為後驗 ,或等價地將先驗 更新到後驗 中學習的量。
推薦閱讀:
※Capsule network--《Dynamic Routing Between Capsules》
※EdX-Columbia機器學習課第6講筆記:稀疏線性回歸
※機器學習 - EM演算法
※吳恩達機器學習第一周課後感
TAG:機器學習 |