ReNN與Attention機制異同:處理長短時依賴

有朋友問,Attention機制和 ReNN有何區別呀?

今天仔細讀了讀Attention機制的基本方法和思路,總結如下。不足之處,請指正。

ReNN是一種將規則嵌入到神經網路的框架 [1]。其中,神經網路解決局部模式(local-feature map)的識別問題,規則解決全局模式(rule-modulated map)的推理和建模問題,最後結合 local-feature map 和 rule-modulated map 給出推斷。(具體方法參見前續博文)

Attention [2] 最初用於文本翻譯,是一種用於序列分析的機制。首先通過RNN獲取全局模式(context vector),然後模擬人類視覺的方式聚焦到局部模式(Attention ),例如位置、尺度等,最後結合context vector 和 Attention 給出推斷。

兩者都非常相似:

  • 都用在神經網路中
  • 都結合了全局模式和局部模式
  • 目的都是提高最終的推斷精度

然而,這兩者的思想是不一樣的,應用場景也不一樣。

關鍵區別在於全局模式的獲取方式上,Attention 的全局模式是通過神經網路直接獲得,而ReNN的全局模式是基於有明確語義的局部單元建模獲得的。

上述差異導致 ReNN 和 Attention 的應用場景不一樣:

  • ReNN 適用於有豐富知識積累的應用場景(例如圖像目標識別,自然語言處理),用少量數據結合知識即可獲得很好的模型
  • Attention 適用於有大量數據,且無需太寬廣的「long-term dependencies」的應用場景(這是因為,使用神經網路對long-term dependencies 建模依然是非常有挑戰的問題)

[1] H. Wang, 「ReNN: Rule-embedded Neural networks,」 arXiv preprint arXiv: 1801.09856, 2018

[2] Attention based model 是什麼,它解決了什麼問題?


推薦閱讀:

Paper Reading | 讓機器像人類一樣學畫畫?GANs 「全家福」一覽
使用py-faster-rcnn進行目標檢測(object detect)
谷歌大腦發布神經架構搜索新方法:提速1000倍
【Neural Networks and Deep Learning】4.神經網路可以計算任何函數的可視化證明(1)
【Neural Networks and Deep Learning】3.改進神經網路的學習方法(過擬合)

TAG:人工智慧 | 機器學習 | 神經網路 |