標籤:

一篇新的Capsule論文:優於基準CNN且修正原Capsule的不足

選自arXiv

機器之心編譯

參與:Panda、蔣思源

近日,Geoffrey Hinton 那篇備受關注的 capsule 論文終於公開了,這是 Hinton 對未來人工智慧形態的新探索,得到了人工智慧領域的廣泛關注。而現在基於 Capsule 的新研究成果也已經出現。這裡介紹的就是一篇正處於雙盲評審階段的關於 Capsule 的 ICLR 2018 論文(目前論文作者未知)。機器之心對該論文進行了摘要介紹,論文全文請訪問以下鏈接。

論文地址:https://openreview.net/pdf?id=HJWLfGWRb

論文:使用 EM 路由的矩陣 capsule(MATRIX CAPSULES WITH EM ROUTING)

capsule 是一組神經元,其輸出可表徵同一個實體的不同性質。我們描述了一種 capsule 版本,其中每個 capsule 都有一個 logistic 單元(用來表示一個實體的存在)和一個 4×4 的姿態矩陣(pose matrix)(可以學習表徵該實體與觀看者之間的關係)。某一層的 capsule 會為上一層中許多不同 capsule 構成的姿態矩陣投票(vote),這是通過將它自己的姿態矩陣與視角不變的變換矩陣(viewpoint-invariant transformation matrix)相乘而實現的,可以學習表徵「部分-整體」關係。這些投票中的每一個都會根據分配的係數加權。這些係數使用 EM 演算法迭代式地更新,這樣每一個 capsule 的輸出都會被路由到上一層的一個 capsule,它會收到一組相似投票的集群。這整個系統是通過每個相鄰層對之間的 EM 的展開的 3 次迭代而鑒別式地訓練的。在 smallNORB 基準上,相比於當前最佳的方法,capsule 將測試錯誤的數量降低了 45%。比起我們的基準卷積神經網路,capsule 也表現得更能抵抗白盒對抗攻擊(white box adversarial attack)。

Hinton et al. (2011) 在一個變換自編碼器中使用了一個變換矩陣,它可以將立體圖像對變換成來自稍微不同視角的立體對。但是,這種系統需要由外部提供變換矩陣。最近,按一致性路由(routing-by-agreement)在分割高度重疊的數字上得到了非常好的效果(Sabour et al. (2017)),但這個系統還有一些不足之處,而我們的研究成果已經解決了這些問題:

1. 它使用了姿態向量(pose vector)的長度來表示由一個 capsule 所表示的實體存在的概率。為了讓該長度小於 1,需要一種無原則的非線性(unprincipled non-linearity),這可以防止其成為任何可感知的目標函數,它由迭代式的路由過程(routing procedure)最小化。

2. 它使用了兩個姿態向量之間的角的餘弦來測量它們之間的一致性。和高斯聚類的對數方差不一樣,餘弦並不非常適用於區分相當好的一致性與非常好的一致性。

3. 它使用了長度為 n 的向量,而不是有 n 個元素的矩陣來表示一個姿態,所以其變換矩陣具有 n^2 個參數,而不只是 n 個。

capsule 模型

我們模型的一般架構如圖 1 所示。模型開始時有一個帶有 32 個通道(A=32)的 5×5 卷積層,其步幅(stride)為 2,且帶有 ReLU 非線性激活函數。所有其它層都是 capsule 層,是從主 capsule 層開始的。每一個 capsule 都有一個 4×4 的姿態矩陣和一個 logistic 激活單元。B=32 種主 capsule 類型中每一個的 4×4 姿態都是以該位置為中心的所有更低層 ReLU 的輸出的線性變換。主 capsule 的激活是通過在更低層 ReLU 的同一個集合的加權和上應用 sigmoid 函數而得到的。

主 capsule 之後跟著兩個 3×3 卷積 capsule 層(K=3),其中每一層都帶有 32 種 capsule 類型(C=D=32),步幅分別為 2 和 1。卷積 capsule 的最後一層連接到最後的 capsule 層,該層的每一個輸出類別都有一個 capsule。

圖 1:帶有一個 ReLU 卷積層,後面跟著一個主卷積 capsule 層和兩個其它卷積 capsule 層。

當將最後的卷積 capsule 層連接到最後一層時,我們不想扔掉任何有關該卷積 capsule 的位置的信息,但我們也想利用這個事實:所有同一類型的 capsule 都在不同的位置提取同一個實體。因此我們在同一 capsule 類型的不同位置之間共享變換矩陣,並且會將每個 capsule 的感受野的中心的擴展坐標(行、列)添加到其投票的前兩個元素。我們將這種技術稱為 Coordinate Addition。這應該可以鼓勵共享的最終變換為這兩個元素提供價值,它們能表示該實體相對於該 capsule 的感受野的中心的精細位置(fine position)。

路由過程用在每個相鄰的 capsule 層對之間。對於卷積 capsule,在 L+1 層中的每個 capsule 都會只向 L 層中的感受野中的 capsule 發送反饋。因此,在 L 層中的每個卷積實例都最多從 L+1 層中的每個 capsule 類型接收 kernel_size×kernel_size 個反饋。接近圖像邊界的實例接收更少的反饋,而圖像邊角處的實例僅從從 L+1 層中的每個 capsule 類型接收 1 個反饋。

路由演算法(routing algorithm)會根據 L 層中的 capsule 的激活和投票返回 L+1 層中 capsule 的激活和姿態。V_ich 是從 capsule i(在 L 層帶有激活 a_i)到 L+1 層中 capsule c 的 H 維投票。β_a、β_v 是鑒別式的學習到的,反向溫度(inverse temperature)λ 按每個固定調度的迭代增加。

圖 2:在每次路由迭代後,5 個最終 capsule 中每一個到它們平均投票的距離的直方圖。每個距離點都有其分配的概率的加權。所有三張圖像都是從 smallNORB 測試集選擇的。在卡車和人類樣本中,這個路由過程正確地選擇了這些投票的路徑。飛機樣本是該模型的一個罕見的失敗案例,該模型在第三個路由迭代中將飛機和汽車混淆了。這個直方圖被放大了,只顯示了距離小於 0.05 的投票。

實驗

表 1:我們的 capsule 模型在 smallNORB 上改變不同分量的效果。

表 2:當基準 CNN 與 capsule 模型在相似視角下的誤差率相當時,該基準 CNN 與 capsule 模型在全新視角下的 smallNORB 測試誤差率比較。


推薦閱讀:

Madoko-簡潔而強大的學術寫作工具
法學論文/宋曉明
議論文開頭如何提出論點
SCI初次投稿的cover letter和返回修改意見時的cover letter模板。
觀看:以我觀物??(論文)

TAG:論文 | 一篇 |