基於確定性信息瓶頸的空間聚類(二)
在上一篇文章中我們對 Susanne Still的演算法進行了一點小小的改動並成功實現了空間聚類,本篇本章將討論Strouse提出的確定性信息瓶頸並將它運用到空間聚類中。
確定性信息瓶頸的motivation
在上一篇文章中我們使用 來作為a measure of compression (Still, 2003),Strouse 認為,在某些情況下,採用 作為compression的measure似乎更為合理(Strouse, 2016)。這裡 表示 的entropy,即壓縮以後的對象所包含的信息。因此,原先的cost function
就被修改為:
,我們發現
這裡 代表給定 的情況下,壓縮以後的變數 的不確定度。我們用一副圖來描述壓縮的過程:
對於IB(信息瓶頸)來說,它允許了更多的random noise,所以才導致了它包含了 ;然而DIB(確定性信息瓶頸)來說,它儘可能地minimize這種不確定度,即 .
同時,我們可以權衡容忍這種不確定度的程度,形成generalized information bottleneck:
我們將會在將來討論這種方法。
迭代演算法的討論
幸運的是,Strouse給出了求解(2)的迭代演算法:
Input: , , ,容限 ,
Output: , , ,cluster centroids的位置 .Initialization: , , m=0.While True:
If we have ,break.
其中起始點的設置與上一篇paper討論的相同,這裡不再贅述。
這裡比較有趣的是 的設置結果,它是一個indicator probability:
這是一個hard clustering。比如,如果第 個點被歸為第 類,那麼 而在第一篇文章中討論的演算法是一個soft clustering,即
實驗結果
實際上,確定性信息瓶頸與上一篇文章里的演算法運行的效果差不多,但是比上一篇演算法的速度快了一到兩個數量級,可以在GitHub上查看我的源代碼。
總結
實際上IB採用的cost function是源自於資訊理論裡面的channel coding with relevance,可以看作是generalized rate distortion theory (Raymond, 頁183);而作者聲稱DIB採用的是source coding with relevance,雖然我還沒有太懂,但是可以查看資訊理論的教材深入了解一下(Raymond, 頁101)。
Reference
- D. Strouse, and D. Schwab, " The information bottleneck and geometric clustering", 2017. arXiv:1712.09657. [online]. Available: https://papers.nips.cc/paper/2361-geometric-clustering-using-the-information-bottleneck-method.pdf
- D. Strouse, and D. Schwab, " The deterministic information bottleneck", 2016. arXiv:1604.00268 . [online]. Available: https://arxiv.org/pdf/1604.00268.pdf
- Raymond W. Yeung. "Information Theory and Network Coding", Springer, 2008
- S. Still, W. Bialek, and L.Bottou, "Geometric Clustering using the Information Bottleneck method", 2003. [online] Available: https://www.princeton.edu/~wbialek/our_papers/still+al_04.pdf
推薦閱讀: