2018.5.7論文推薦

05-20

2018.5.7論文推薦

來自專欄學習ML的皮皮蝦

@Godliness.Bo

《DiSAN: Directional Self-Attention Network for RNN/CNN-free Language Understanding》

來源：AAAI 2018

鏈接：https://arxiv.org/pdf/1709.04696v1.pdf

循環神經網路（RNN）和卷積神經網路（CNN）被廣泛用於NLP任務來分別捕獲長期和局部依賴性。注意力機制最近引起了極大的興趣，由於其高度可並行化的計算，顯著減少了訓練時間，並且在建模依賴性方面具有靈活性。作者提出了一種新穎的注意機制，其中來自輸入序列的元素之間的attention是定向和多維的，即在特徵方面。然後輕量級的神經網路「定向自注意網路（DiSAN）」被提出來學習句子嵌入，僅基於提出的注意力而沒有任何RNN /CNN結構。 DiSAN只由一個具有時間順序編碼的定向自我注意塊組成，隨後是一個多維注意力，將該序列壓縮成一個向量表示。儘管這種形式簡單，但DiSAN在預測質量和效率方面都優於複雜的RNN / CNN模型。它在所有句子編碼方法中達到了最佳測試精度，並將斯坦福自然語言推理（SNLI）數據集中最近的最佳結果提高了約1.0％，並顯示了最好的測試精度，在斯坦福大學的情緒樹庫（SST）、涉及構成知識的句子（SICK），TREC問題類型分類和多種類型自然語言推理（MultiNLI）數據集。

該模型的創新點有以下幾點：（1）多維度的：attention將來自源序列的每一對元素都寫成一個向量，其中每個條目是對每個要素計算的注意力; （2）有方向的：它使用一個或多個位置掩碼來模擬兩個元素之間的不對稱注意力。

論文提出了兩種Multi-dimensional Attention模型和一種Directional Self-Attention（DiSA）：

下面的模型圖對比了一般的attention與提出的Multi-dimensional Attention的區別，即，Multi-dimensional Attention中由兼容性函數(compatibility function)計算得出的每個元素的attention分數（alignment score）與輸入是同維向量，而傳統的方法僅生成一個標量。並依此提出了「token2token」 self-attention和「source2token」 self-attention。token2token self-attention目的是為序列中的每個元素生成上下文感知的向量表達，可以建模同個序列中兩個不同元素的依賴關係，並根據這個依賴關係來建立兩個元素間的attention。source2token self-attention目的是壓縮序列為一個向量表達而不是通過一般的max-pooling來完成這一步驟。這裡簡單的將兼容性函數中的query去掉。

DiSA由一個完全連接層組成，其輸入是token的嵌入，一個掩碼token2token多維自我注意塊來探索依賴性和時間順序，以及一個融合門將注意力的輸出和輸入塊融合起來。其中包含了兩個關鍵組成部分positional masks和fusion gate。

最後是本文提出的Directional Self-Attention Network（DiSAN），模型圖中包含了前向與後向的DiSA，最後，source2token self-attention用於將序列壓縮成為一個向量來表徵整個句子。

@江晚晚96

《Learning Structured Natural Language Representations for Semantic Parsing》

原文鏈接： https://arxiv.org/pdf/1704.08387.pdf

代碼鏈接： https://github.com/cheng6076/scanner

研究方向：語義解析

解決問題：為了解決目標輸出的不規範性問題以及提供可解釋的語義聚合過程，本文提出了一個神經語義解析器（neural semantic parser）

貢獻：

給定一個知識庫（knowledge base）K，以及標註有對應的匹配知識庫的語義表達（grounded meaning representation）G或者問題答案（denotation）y的自然語言句子（問題x，要學習得到一個語義解析器，使之可以完成經由一個中間未匹配知識庫的語義表達U，來將x映射到對應的 G 的功能。

創新點：

（1）與其他方法相比，該模型沒有使用外部的解析器（如 dependency parser）以及手工設計的 CCG 文法，而是採用了基於狀態轉移（transition-based）的方法生成謂詞-參數（predicate-argument）形式的中間表達，由此避免了生成不規範形式的語義表達。

（2）與目前語義解析問題中大多數採用的 CKY 類似的自底向上（bottom-up）解析策略相比，本文提出的方法不需要對自然語言的句子結構的進行人為的特徵分解，可以利用大量的非局部特徵。

（3）基於假設匹配知識圖譜後的語義表達與未匹配的語義表達同構（isomorphic）的假設，本文提出的狀態轉移模型的輸出最終可以匹配到某一個知識圖譜。

模型圖：

@zc111

《Adversarial Feature Matching for Text Generation》

來源：ICML 2017

連接：https://arxiv.org/abs/1706.03850

方向：NLG

解決問題： 提高生成質量

創新點：

本篇文章將對抗網路引入到自然文本生成領域中，使生成的文本更加具有現實性。本文提出了一個用LSTM作為生成器，一個CNN網路作為鑒別器的GAN框架。並提出了通過核化差異度量來匹配真實和合成句子的高維潛在特徵分布，以此減輕了對抗訓練崩潰的問題。通過最終的實驗展示了該模型的優良表現，並闡述了該模型可以產生更加真實的文本。

模型圖：

@stonewang

《COMPOSITIONAL ATTENTION NETWORKS FOR MACHINE REASONING》

來源：ICLR2018

方向：machine reasoning

鏈接：https://arxiv.org/pdf/1803.03067.pdf

創新點：提出新的可全微分的attention組合神經網路結構用來完成推理

從計算機結構的原則受到啟發，把推理問題分解為一系列的基於attention的推理模型，每一個推理單元是一個recurrent Memory, Attention, and Composition (MAC) cell，包含兩個分開的流程：control、memory，把這些單元連成一串調節它們之間的交互，從而可以用end-to-end有效地從數據中進行迭代推理。在CLEVR任務數據集上進行的visual reasoning能夠達到new state-of-theart 98.9% accuracy，比以前最好的模型的錯誤率降低一半。並且這種模型的計算效率和數據利用率有著顯著提高。

模型：

MAC網路包括一個input單元，一個core recurrent network，一個output單元。

Input單元把raw image和question轉換為分散式向量表示；

core recurrent network把問題分解為一系列的操作(control)並從image(knowledge

base)中進行檢索，並把得到的結果集中到recurrent memory；

output classifier用question和最終的memory state來計算最後的答案。

一個MAC cell包括control unit、read unit、write unit來同時操作control和memory隱狀態；

Control unit在一步中把任務描述(問題)的一個部分加入到control state中來表示當前要進行的推理操作；

Read unit根據control state從knowledge base(本文是圖片)中抽取信息；

Write unit把檢索到的信息傳入memory state，產生新的中間結果。

The control unit architecture

The read unit architecture

The write unit architecture

@丸子醬Destiny

《DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding》

來源：AAAI 2018

論文鏈接：https://arxiv.org/pdf/1709.04696.pdf

代碼鏈接：https://github.com/shaohua0116/Group-Normalization-Tensorflow

方向：自然語言理解

解決問題：

這篇文章是對 Self-Attention 的另一種應用，作者提出一種新的方向性的 Attention，從而能更加有效地理解語義。

創新點：

循環神經網路（RNN）與卷積神經網路（CNN）被廣泛使用在深度神經網路里來解決不同的自然語言處理（NLP）任務，但是受限於各自的缺點（即，RNN效果較好但參數較多效率較低，CNN效率高參數少但效果欠佳）。所以這篇文章提出了一種Self-attention網路用於生成Sentence Encoding（句子向量化）。在不使用任何RNN和CNN結構的情況下，此網路使用較少的參數同樣可以在多個數據集上達到state-of-the-art的性能。

具體來說這種新穎的注意力機制的話，用於捕捉序列中不同的元素之間的attention信息。而且這種attention是有方向的並且是多維度的。然後，基於這種注意力機制，一個輕量級的網路，"Directional Self-Attention Network (DiSAN)"，被提出用於學習句子的向量（句子向量化）。DiSAN不需要基於任何的RNN或CNN結構而僅僅是注意力機制。DiSAN directional self-attention（用於編碼上下文和方向信息）和multi-dimensional attention（用於將一序列壓縮成一個向量）組成。儘管結構簡單，DiSAN可以在預測效果和時間效率上超過複雜的RNN模型。

模型圖：

@不讀不讀不讀

《PERSONALIZING DIALOGUE AGENTS: I HAVE A DOG, DO YOU HAVE PETS TOO? 》

來源：NIPS2018

鏈接：https://arxiv.org/abs/1801.07243

方向：Dialogue Generation

解決問題：儘管對話研究已經豐富的開展起來了，但無法否認人機間的交流仍然處在起步時期。閑聊模型中普遍存在的問題包括：1、由於訓練是開展在來源於許多不同人的對話數據上的，模型缺乏一個一貫的性格；2、對話缺乏長期記憶；3、產生沒語義回答的趨勢。文章認為出現以上問題的原因在於缺乏好的公開數據。為了改善以上問題，文章提出通過對一些文本描述來給閑聊對話agent賦予一個持久的人物角色，將人物信息存儲在記憶增強神經網路中來產生更具持續人物性格的回答。

Contribution：

1.構建了一個有指定角色個性的閑聊對話數據集：PERSONA-CHAT。

2.使用數據集，將角色信息加入對話的產生中，改善了回復生成的質量。

Model：

上圖是文章中生成方式的結構，文章還另外在數據集上使用了一系列ranking模型。

@new y

《 Learning beyond datasets: Knowledge graph augmented neural networksfor natural language processing》

來源：CoRR

原文鏈接：https://arxiv.org/pdf/1802.05930.pdf

方向：知識圖譜，文本分類

解決問題：

提出一種用於NLP任務的深度學習模型，可以根據任務使用attention機制從知識圖譜中提取相關的先驗知識，證明當深度學習模型以知識圖譜的形式訪問結構化的知識時，可以用少量的標記訓練數據進行訓練，從而降低傳統的深度學習模型對特定訓練數據的依賴。

創新點：

實體和關係的向量是通過DKRL模型（一種結合文本描述的知識圖譜表示學習模型）計算得到，其思路為目標實體是源實體與關係實體表示的相加。文本中實體和關係的數目很大，為每一個實體和關係分別計算權重開銷不菲。為了減少attention空間，本文利用k-means演算法對實體和關係向量進行聚類，並引入了基於卷積的模型來學習知識圖譜實體和關係集的表示，然後將計算實體和關係表示的模型與文本分類的LSTM模塊進行聯合訓練。

模型圖：

@戰先生

《Multi-channel Encoder for Neural Machine Translation》

來源：AAAI2018

原文鏈接：link

方向：神經機器翻譯

創新點：

基於attention的編碼器解碼器具有有效的神經機器翻譯結構(NMT)，它通常依賴於遞歸神經網路(RNN)來構建在解碼過程中被專註的讀者所調用的塊。儘管編碼RNN採用了門控機制，但編碼器的這種設計在源句上產生了相對均勻的組合。另一方面，常常希望解碼器能在不同的層次上使用不同層次的源語句，以適應其自身的語言結構。在此基礎上，本文提出了多通道編碼器，提高了神經機器翻譯的編碼器和注意機制。為了使編碼器能夠在不同的層次上表示句子，在RNN的隱藏狀態旁邊，本文使用原始的單詞嵌入不含合成的原始編碼，並在神經圖圖機器中設計一個特殊的外部存儲器，用於更複雜的合成。開發了一種可自動學習不同編碼組件權重的門控注釋機制。在大量的中文翻譯任務上的實驗表明，MCE提高了翻譯質量。

模型圖：