資訊理論學習模型(2)
12.獨立分量分析-情況(d)
[1]
基本圖,
為使問題表示更具體形象,重新畫為,
盲源分離問題,
和主分量分析比較類似,我們觀測到的特徵數據,並非是我們關心的問題需要特徵數據,於是假設在觀測的特徵中存在關於問題的更本質的特徵。
也可以寫成這樣,
獨立分量分析(ICA)可看作主分量分析(PCA)的延伸。PCA僅強制到至多二階獨立,而且向量的方向限制為正交,而ICA對於輸出向量Y的所有單個分量限制為獨立的,沒有正交性限制。
[2]假設
(1)統計獨立性。假設源向量S的各分量為統計獨立,但X有S各分量線性組合而成,故X各分量統計相關。
(2)混矩陣維數。假設混合矩陣為方陣
(3)無噪模型。即X=AS,Y=WX過程均無噪,所以這裡都沒有加雜訊項。故過程的唯一隨機源為S
(4)零均值。S為零均值,現實問題即使達不到這個假設,也可以使用 S-E(S)來研究問題
[3]例子
分析僅由觀測向量X能否得到分離源信號S
查看兩種情況時,
(1) 均為高斯分布。則由上面等式不難得到X的分量 的分布。然後畫出二維分布圖。
研究問題時,我們獲得的只有觀測向量X,但根據上圖,我們無法得到關於混合矩陣A有關信息。
(2) 是高斯分布, 是均勻分布。畫出X二維分布圖。
上圖可以得到兩個斜率1,-2它們跟混合矩陣A是有關的。
可見,源分離的源應是非高斯的(分量最多有一個是高斯分布),混合矩陣是非奇異的。
[4]ICA演算法分類。即如何進行參數估計。
(1)根植於最小化互信息的ICA
{1}基於相對熵。下面的14節里講。
{2}基於最大似然估計。15節。
{3}基於最大熵。16節。
(2)根植於最大化非高斯性的ICA
利用負熵。17節。
==================================================
13.自然圖像的稀疏編碼以及與ICA編碼的比較
自然圖像是內在稀疏的,它們可以通過相關的小數目的不同結構單元來描述。
獨立分量分析可以捕捉這些機構單元。
==================================================
14.獨立分量分析的自然梯度學習
對上面的更新式做改進,使之滿足等變異性質,
本質原因是在具有正交坐標系的歐氏空間中梯度是最速下降方向,但神經網路中的參數空間的坐標系不一定是正交的,於是做變換旋轉方向。這在凸優化中很常見。
==================================================
15.獨立分量分析的最大似然估計
[1]
而h(X)與W無關,故最大化對數似然等價於最小化R(W)
[2]==================================================
16.盲源分離的最大熵學習
[1]
ICA的Infomax演算法:
可以看到後面加了一個非線性映射G( )它是對角且可逆的。
BSS最大熵原則思想:
[2]最大熵與極大似然估計的等價性
[3]迭代過程
==================================================
17.獨立分量分析的負熵最大化
[1]負熵的定義
FastICA開發了非高斯的概念,使用負熵來測量某個隨機變數的非高斯性,負熵是基於微分熵的。
一個非高斯隨機變數的X的負熵定義:
但上面的定義的計算是困難的,於是使用逼近:
選擇上面這個負熵作為最大化的目標函數。
[2]FastICA演算法——單一單元版本
使用負熵的逼近作為優化問題,
==================================================
18.相關獨立分量分析
處理信息的兩個重要原則:Infomax處理穿過網路的信息流,Imax處理穿過一對網路輸出的空間相關性。
在有兩個分離的但有相同維數的神經網路可以結合這兩個原則。
Infomax原則部分,
這個原則分別地用於每個網路
Imax原則部分,
這個原則用於成對的網路
將兩個原則合併起來,得到整個系統的目標函數,
迭代,
==================================================
19.速率失真理論和信息瓶頸
[1]速率失真理論
速率失真理論的目的是尋找在某信息流速率下可達到的失真最小期望值。即在信息速率一定下,希望信息失真最小。
[2]信息瓶頸
==================================================
20.數據的最優流形表達
將維數削減視為數據壓縮
推薦閱讀:
※科學故事:概率論的產生
※凱利公式--給天台上徘徊的同學寫一篇科普文
※互動貼:簡單寫寫關於大概率事件如果運用在球賽之外的日常生活中
※說人話,理解貝葉斯概率
※[概率]正態分布的基本性質
TAG:概率論 |