記憶網路之Gated End-to-End Memory Networks
記憶網路之Gated End-to-End Memory Networks
今天要介紹的論文「gated end-to-end memory networks」時16年10月份發布的,他是在End-To-End Memory Networks這篇論文的基礎上做了一些修改。因為End-To-End Memory Networks在multi-fact QA、 positional reasoning、 dialog等領域的效果還不是很好,所以本文參考CV領域中HighWay Networks和Residual Networks涉及到的shortcut connections,引入Gated機制,以實現對memory的正則化,從而讓模型可以動態的修改memory。
因為End-To-End Memory Networks已經很熟悉了,所以我們先來介紹一下Highway Networks的想法,其主要是在網路輸出下一層之前引入了一個transform gate T和一個carry Gated C,以讓網路學習什麼、多少信息應該被傳到下一層。我們假設本層網路的輸出為:y=H(x),那麼就加入下面的映射函數:
往往我們會選擇C = 1-T,所以上面的公式可以轉化為:
而殘差網路則可以視為是Highway網路的一種特例,因為其直接把T和C都當做I,所以就相當於y=H(x) + x。但是這裡背後的原理我還沒來得及搞明白,為什麼這樣就可以讓更深的網路很容易就訓練成功,等有時間再看看相關的論文學習下。
然後我們來看一下如何將其融入到End-To-End Memory Networks中,由於其每個hop的功能都可以視為u=H(u),所以對應到上面的公式,u就相當於輸入x,o就相當於輸出y,所以代入上式得:
也就是修改一下原來模型中輸出層的公式即可。然後參數W和b有全局和每個hop獨立兩種方式,後面實驗結果證明,每個hop保持獨立效果會比較好。論文的創新點倒不是很大,只不過是將兩篇論文結合一下,但是看有實驗效果好像還有挺大的提升。最終的模型架構圖如下所示:
實驗結果:
本文所提出的模型不僅僅在bAbI數據集上取得了很好的效果,而且在dialog bAbI對話數據集上也取得了很好的效果。這個數據集應該會在後面的文章中進行介紹,這裡就不贅述了。這裡也貼上兩張實驗結果的圖:
第二張圖揭示得是MemNN與本文提出模型各個hop對每個句子的權重計算,可以看出本文的模型更加集中在最重要的那個句子上面,而MemNN則比較分散,也說明了本文模型效果更好。
推薦閱讀:
※聊聊文本的分散式表示: Distributional Representation和Distributed Representation的區別
※理解樸素貝葉斯分類的拉普拉斯平滑
※隱馬爾可夫模型的預測問題----維特比演算法
※A Dataset for Research on Short-Text Conversation
TAG:深度学习DeepLearning | 自然语言处理 |