大神Hinton的Capsule論文終於公開,神經網路迎來新探索
夏乙 問耕 編譯整理
量子位 出品 | 公眾號 QbitAI
「我的觀點是把它全部拋掉,重頭再來。」
今年9月的一次大會上,大神Geoffrey Hinton再次號召展開一次AI革命。
應該向何處去?實際上最近幾年來,Hinton的大量精力都投入到了對capsule的研究之上。他想做capsule和想要推翻反向傳播,幾乎是出於同一個原因:不像大腦。
capsule的提出,正是為了應對神經網路與大腦的一個不相似之處,也是Hinton這3年來一直在講的「神經網路的一個問題」:結構中層次太少。
Hinton提出,應該在現有神經網路結構的基礎上,加一個capsule的層級,每一層網路的神經元組成capsule,在內部做計算,然後輸出一個壓縮的結果。
到底什麼是capsule?
在去年的AMA中,Hinton就談到過「基於capsule的神經網路」,說他在Google這3年,在這項基礎研究上投入了大量精力。
今年,這項研究似乎有了重大突破。
Hinton上個月在多倫多大學講「卷積神經網路的問題及對策」時,就談到要在現有神經網路結構的基礎上,加一個capsule的層級,每一層網路的神經元組成capsule,在內部做計算,然後輸出一個壓縮的結果。
NIPS剛剛公布的接收論文列表中,也有Sara Sabour、Nicholas Frosst和Geoffrey E Hinton合作的Dynamic Routing Between Capsules。
今年,關心capsule的網友也不少,甚至直接點名Hinton來問:
capsule怎麼樣了?
按照之前的說法,Hinton和谷歌大腦的同事Sara Sabour、Nicholas Frosst合作了一篇論文Dynamic Routing Between Capsules詳細談及,而這篇論文,將作為spotlight在今年12月舉辦的NIPS 2017上發表。
雖說Hinton曾不止一次講他的capsule,但這篇論文一直沒有亮相。
如今這篇外界期待已久的論文終於正式對外發布,地址在此:
https://arxiv.org/abs/1710.09829
論文摘要:
capsule是一組神經元,其活動向量表示特定類型實體(例如對象或對象部分)的實例化參數。我們使用活動向量的長度來表示實體存在的概率及其表示實例化參數的方向。活動capsule在一個層面上通過變換矩陣對更高層capsule的實例化參數進行預測。當多個預測相符時,較高層的capsule就開始活動。本文顯示,經過區別訓練的多層capsule系統在MNIST上實現了最先進的性能,在識別高度重疊的數字時,效果明顯好於卷積神經網路。為了達到這樣的結果,我們用了一個迭代的路由協議機制:一個低層的capsule希望將其輸出發送到一個活動向量具有大標量積、預測來自低層capsule的高層capsule。
Capsule是什麼?
人類視覺系統中,有一個「注視點」的概念,能讓人類在視野範圍內只對極小部分的圖像進行高解析度處理。這篇論文假設一個注視點帶給我們的信息不僅僅是一個識別對象及其屬性,還假設我們的多層視覺系統在每個注視點上都創建了一個類似分析樹的東西,並忽略這些分析樹在多個注視點之間如何協調。
分析樹通常靠動態分配內存來構建,但是這篇論文假設對於單個注視點來說,分析樹是從固定多層神經網路中「雕刻」出來的,就像用石頭刻出雕像一樣。神經網路的每一層會被分成很多組神經元,每一組稱為一個capsule,而分析樹的每個節點對應著一個活躍的「膠囊」。
Capsule的輸入和輸出
Capsule是輸出是一個向量,這篇論文中,在保持它方向不變的情況下應用非線性縮小了它的量級,確保這個非線性輸出不大於1。也正因為capsule的輸出是一個向量,確保了能使用強大的動態路由機制,來確保這個輸出能夠發送到上層合適的parent處。
因為論文作者們希望capsule輸出向量的長度能夠表示這個capsule所代表的實體存在於當前輸入的概率,他們使用了非線性「壓縮」函數來確保端向量長度縮短到接近於0,而長向量的長度略小於1。這篇論文用判別學習來充分利用非線性特徵。
公式
如上面公式所示,vj表示capsule j的輸出,而sj是其輸入。
架構
一個簡單的CapsNet共有3層。兩個卷積層和一個全連接層。卷積層Conv1有256個9×9軍集合,步長為1,激活函數為ReLU。這層把像素強度轉換成局部特徵檢測信息,然後輸入給主Capsules。
第二層(主Capsules)是一個卷積capsule層,32通道卷積8D capsule。
分割重疊數字
論文中的測試表明,CapsNet能夠把重疊在一起的數字,還原成兩個原始數字。
討論
30年來,最先進的語音識別使用具有高斯混合的隱馬爾可夫模型作為輸出分布,這些模型具有致命的代表性限制。
Capsules通過將像素強度轉換為識別片段的實例化參數向量來避免指數低效。Capsules做出了一個非常強的代表性假設:在圖像的每個位置,一個Capsule代表的實體類型至多為一個。
Capsules現在的研究階段,就像本世紀初將RNN應用於語音識別的階段。有非常具有代表性的理由相信這是一個更好的方法,但很多細節還需要接續觀察。
事實上,一個簡單的Capsules系統已經在分割重疊數字時展現出無與倫比的性能,這提醒我們,Capsules是值得探索的方向。
最後再說一次,研讀這篇論文,地址在此:
https://arxiv.org/abs/1710.09829
— 完 —
歡迎大家關注我們的專欄:量子位 - 知乎專欄
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位 QbitAI
?? ? 追蹤AI技術和產品新動態
推薦閱讀:
※大話:人工智慧、大數據、物聯網、雲計算
※技術邊界篇1:腦機介面(BCI)
※如何「科學的比較」機器學習模型表現?
※價值4.2億,中國如何幫挪威造智能深海漁場?
※夢想照進現實 電影里才有的「神器」現已成真
TAG:深度学习DeepLearning | 神经网络 | 人工智能 |