資訊理論學習模型(1)

08-14

資訊理論學習模型(1)

為學習《神經網路與機器學習》第10章內容。

如果把完成一件事比作遠航，那麼物質就是建造船的材料，能量就是發動機，信息就是遠航的方向。

當我們有了出海探索的需要時，我們會發明船；當我們需要探索更遠時，我們發明了發動機；當我們希望有目的地探索時我們發明了羅盤和使全球衛星來指導方向。也許人類的進程也是如此，當物質和能量發展到一定地步時，就需要信息處理來指導如何更有效率地發展。

1.引言

[1]資訊理論是關於通信過程本質的深刻數學理論。

[2]Linsker(1988)提出最大互信息原則：

多層神經網路的突觸連接中，在網路的每個處理階段，當進行信號變換時，為保留的信息量達到最大，要遵從一定的約束條件。

[3]Attneave(1954)提出關於感知系統的資訊理論作用

感知機制的一個主要功能是減少刺激的冗餘。和接受的原始信息相比，以一種更為經濟的方式對信息進行描述或編碼

==================================================

2.熵

[1]

對於一個隨機變數X，它的每一個事件的發生可看作一個消息。

如果隨機變數的X幅度值是連續的，則這個隨機變數帶有無窮的信息。可以看到帶有多少信息指的是隨機變數，而非某個事件。

將X離散化，離散間隔為 $delta_{x}$ ，則X可取的事件為：

當 $delta_{x} ightarrow 0, K ightarrowinfty$ 時，這個隨機變數就是連續的。對於進行分析有用，但在實際的物理生物中具有無限精度的幅度度量是沒有意義的。

對應發生的概率為：

[2]信息增益量

定義觀察到具有概率 $p_{k}$ 的事件 $x_{k}$ 發生後所獲得的信息增益量為：

這裡對數的底是任意的，取為自然對數e時，信息的單位為nat，取為2時，信息的單位為bit。

(1) $I(x_{k})=0, p_{k}=1$

即有一個事件發生的概率為1，其它事件發生概率為0，我們知道這個事件一定的會發生，所以觀察到這個事件發生時，所得到的信息增益為0

(2) $I(x_{k})geq 0$

觀測到某事件發生時，要麼提供了信息，要麼沒有提供信息，不會導致信息損失。

(3) $I(x_{k})>I(x_{i}), 當p_{k}<p_{i}$

即觀測小概率事件發生比大概率發生所獲得的信息增益量大。

[3]信息熵

由 $I(x_{k})$ 的定義可知，它也是隨機變數，對應發生的概率為 $p_{k}$ ，對這個隨機變數求個期望得，

表示每個消息所攜帶的信息的平均量。

熵的限定：

[4]微分熵

(1)由來

上面是離散隨機變數的信息熵，而連續隨機變數的信息熵為無窮大，下面證明：

可以看到 $lim_{delta x ightarrow 0}{log delta x} ightarrow infty$ ，故連續隨機變數的信息熵為無窮大。這其實和連續隨機變數取某個單點值時，概率為0是有聯繫的。

對於連續隨機變數顯然無法使用熵，但可以使用上面定義的微分熵。如比較兩個連續隨機變數的信息熵時，

即比較兩個連續隨機變數的熵，變成比較它們兩個之間的微分熵。且這是合理的。

(2)性質

{1}

{2}

{3}

{2}{3}實際在討論對隨機變數X進行線性變換後，微分熵發生的對應變化。

==================================================

3.最大熵原則

獲得某隨機變數的一些樣本，已知該隨機變數的一些限制條件如均值方差等，那麼這麼應該認為它是哪種概率模型（即服從哪種概率分布）。

[1]最大熵原則：

根據不完整的信息為依據進行推斷時（即樣本和部分先驗信息），應該取滿足分布限制條件的，具有最大熵的概率分布。

[2]最大熵問題

根據最大熵原則，對問題的求解變成了一個最優化問題，稱為最大熵問題，

條件的前兩條是概率的性質，第三條為矩的先驗信息（如均值方差等）

寫成拉格朗日函數，

[3]使用最大熵原則推導一維高斯分布

假設僅已知某隨機變數X的均值 $mu$ 和方差 $sigma ^{2}$ ，依據最大熵原則求X的分布。

對應的微分熵為，

從這個例子可以得到兩個結論，

(1)給定方差，隨機變數取為高斯分布時其微分熵最大。

這麼說最大熵原則總在以高斯分布來擬合任何分布？

(2)服從高斯分布的隨機變數的微分熵僅由方差決定。

==================================================

4.互信息

[1]聯合微分熵

[2]互信息

對於一個神經系統（直接看作映射也行），系統輸入為隨機變數X，輸出為隨機變數Y。h(X)是在經系統觀察得到Y前的X的不確定性，h(X|Y)是在經系統觀察得到Y後的X的不確定性，其差為由Y決定的X不確定性，稱為互信息，

同樣I(Y;X)表示由系統輸入X決定的系統輸出的不確定性。

[3]互信息的性質

(1)非負性。 $I(X;Y)geq 0$

X,Y相互獨立時互信息為0。

(2)對稱性。 $I(X;Y)=I(Y;X)$

(3)不變性。

在可逆的隨機變數變換下，互信息不變。即，

==================================================

5.相對熵

[1]相對熵。KLD

性質：

非負性，

不變性，

[2]相對熵和互信息關係

直接看兩者的公式即可得，

[3]相對熵的熵解釋

最終結論為：

左邊為相對熵，右邊為熵，故稱為相對熵的熵關係

[4]Pythagorean分解

==================================================

6.系詞

[1]

互信息I(X;Y)=0時，X,Y是統計獨立的。但I(X;Y)>0時，知道二者不獨立，但無法知道二者相互的依賴程度，於是提出系詞來度量X,Y之間的統計依存程度。

[2]

性質1

性質2，用系詞表示聯合密度 $p(x,y)$ ，注意這裡是小寫了

結論為

雖然現在還不是很能理解系詞，但從這式子可以看出c(u,v)和獨立性有很大的關係

如果隨機變數X,Y相互獨立則，

[3]互信息和系詞的熵之間的關係，

聯合起來，結論為

==================================================

7.互信息作為最優化的目標函數

至此為香農資訊理論的基本理論內容。接著研究資訊理論在自組織系統中的作用。這裡簡要介紹應用的4種情況，後面再分別詳細說明，對應的小標題後面有(a)(b)(c)(d)。

(a)輸入為X，輸出為Y，經過映射後，希望Y能最大地保留X包含的信息。這是最常見的需求，數據經過變換後，可以讓人類更好地理解數據中的信息，但我們不希望在變換的過程中損失對決策有用的信息。

(b)輸入為 ${X_{a1},...,X_{am}},{X_{b1},...,X_{bm}}$ 是從相鄰但不重疊的圖像區域截取，輸出為兩個標量 $Y_{a},Y_{b}$ 。目的是最大化 $Y_{a}$ 關於 $Y_{b}$ 的信息

(c)輸入為 ${X_{a1},...,X_{am}},{X_{b1},...,X_{bm}}$ 是從兩幅不同但相關的圖像的相應部分截取而來，輸出為兩個標量 $Y_{a},Y_{b}$ 。目的是最小化 $Y_{a}$ 關於 $Y_{b}$ 的信息

(d)輸入和輸出維數相同。目的是最小化Y各分量的相關性。

==================================================

8.最大互信息原則-情況(a)

在輸出端或輸入端加雜訊，查看模型使用最大互信息原則來優化問題時對雜訊的處理能力。

對於現實中的問題採集的數據，都是不可避免地存在雜訊。我們可以建立一個不考慮雜訊的完美模型，但它在遇到含雜訊的現實數據時，預測能力卻很糟糕，於是我們在建立模型時人為地加入雜訊。實際上隨機性導致雜訊的出現，而統計則是處理雜訊有力工具。

[1]在輸出端加雜訊

這是一個沒有隱藏層的單層神經網路。輸出為一個標量。

推導，

$sigma_{Y}^{2}/sigma_{N}^{2}$ 可看作信噪比，假設 $sigma_{N}^{2}$ 固定，則最大化輸出神經元的方差等價於最大化輸入與輸出神經元的互信息。

[2]在輸入端加雜訊

可以看到若令[2]中的 $Sigma omega ^{2}_{i}=1$ ，則[1][2]最大化互信息等價。

[3]無雜訊

即對於一個無雜訊網路，調節權重參數 $omega$ 時，最大化互信息 $I(Y;X)$ 等價於最大化 $h(Y)$

==================================================

9.最大互信息與冗餘減少

[1]

在香農的資訊理論框架中，序和結構代表冗餘。在固有過程中，序和結構越多，冗餘就越多，相對地觀察這個過程獲得的信息量越少。

如某過程每次接收5個相同的字元，如某次為aaaaa，這個序列就是有序且結構化的，知道了第1個字元為a，就知道了後面4個字元都為a，5個位實際只傳遞了一個位的信息。

最大互信息原則使 $I(Y;X)$ 最大，使得輸入為X時，增加輸出Y的確定性。即在經過模型中的映射後，減少X的冗餘，得到一個冗餘更少的Y。

[2]感知系統的建模

資訊理論早期就提出感覺消息的冗餘對感知理解非常有用。

Barlow假設：前期處理的目的是將高冗餘的感覺輸入轉化成更有效的析因碼(factorial code)

Atick and Redlich提出把最小冗餘原則作為感知系統的資訊理論模型的基礎。

模型：輸入通道、重編碼系統、輸出通道

冗餘的度量：

==================================================

10.空間相干特徵-情況(b)

一個未處理的圖像的像素值，形式很複雜（對人類而言就是一個平面數據，人類無法理解），但包含了我們感興趣的景物的豐富信息。每個像素的密集度受內在參數的影響，如深度、反射、表面方向、雜訊、照明度等。

現實中拍照時，從物理的角度來看，相機的感光器以數據的形式直接記錄下光的強度，於是得到一張二維平面像素數據，又可用顯示器直接重現相片；從數學的角度來看，某個物品的圖像是由許多參數（如深度、方向、照明 ...）決定的，按下快門時，實際就是採集這些參數的實際值，然後以這些值為輸入，通過某種映射（自然界內在物理規律決定的映射），得到輸出，這個輸出就是這張圖片的像素值。

如果能夠學習到這個映射，以及其逆映射，就可以使用逆映射由圖片像素值，得到關於該圖片更本質信息（即那些參數的值）。通過改變參數值來修改圖片，而非在像素值層面上來修改，顯然應該是更好地選擇。

[1]Imax原則