2018.4.23論文推薦

@Godliness.Bo

  • 《Long-Term Memory Networks for Question Answering》

來源:ACL2017

論文鏈接:arxiv.org/pdf/1707.0196

在自然語言處理領域中,問答是一項重要且艱巨的任務,因為許多基本的自然語言處理任務可以轉換為問答任務。最近提出的幾種深度神經網路架構,它們使用記憶和推理組件來記憶和推理文本信息,並生成問題答案。然而,這樣的模型的主要缺點是它們只能生成單個詞的答案。另外,他們需要大量的訓練數據來生成準確的答案。該文介紹了長期記憶網路(LTMN),它包含一個外部存儲器模塊和一個LSTM模塊,以便理解輸入數據並生成多詞的答案。LTMN模型可以使用反向傳播進行端對端訓練,並且需要最少的監督。作者在兩個合成數據集(基於Facebook的bAbI數據集)和真實斯坦福問答數據集上測試模型,並顯示它可以實現最先進的性能。

該模型的創新點有以下幾點:(1)提出了一個有效的一般問題回答的神經網路架構,即為問題生成多字的答案。該架構結合了MemN2N和LSTM的最佳方面,可以進行端到端的訓練;(2)所提出的架構採用分散式表示學習技術(例如paragraph2vec)來學慣用於句子或事實類型,問題和單詞以及它們之間關係的向量表示。學習到的embeddings有助於提高框架所產生答案的準確性;(3)基於Facebook的bAbI數據集生成一個新的綜合數據集,其中包含多個辭彙答案,稱之為多詞回答bAbI數據集;(4)在兩個合成數據集(單字答案bAbI數據集和多字答案bAbI數據集)以及真實世界斯坦福問答數據集上測試了提出的體系結構,結果清楚地表明了提出的問答架構的優點。

LTMN結合了端到端存儲器網路和基於LSTM的遞歸神經網路的最佳方面。它由input module、question module、memory module和answer module四個模塊組成。輸入模塊將原始文本數據(即句子)編碼成向量表示。同樣,問題模塊也將問題編碼成向量表示。 輸入和問題模塊可以使用相同或不同的編碼方法。給定輸入句子的表示,記憶模塊計算問題表示和句子表示之間的匹配概率,然後輸出句子表示和匹配概率的加權和。使用這個加權和矢量和問題表示,答案模塊最終生成問題的答案。

模型圖:

  • 《Distributed Representations of Sentences and Documents》

來源:ICML2014

鏈接:arxiv.org/pdf/1405.4053

許多機器學習演算法要求將輸入表示為固定長度的特徵向量。當涉及到文本時,最常見的固定長度特徵之一就是詞袋模型。儘管它們很受歡迎,但詞袋模型有兩個主要弱點:它們失去了單詞的排序,並且也忽略了單詞的語義。例如,「強大」,「強壯」和「巴黎」意思差很多。該文提出段落向量,一種無監督的演算法,通過可變長度的文本(如句子,段落和文檔)學習固定長度的特徵表示。該演算法通過一個密集的向量來表示每個文檔,這個向量被訓練來預測文檔中的詞。它的構造使該文的演算法有可能克服bag-of-words模型的弱點。實證結果表明,段落向量優於文本表示模型以及其他文本表示技術。最後,作者在幾個文本分類和情感分析任務上實現了最新的最新成果。

該模型的創新點有,它適用於任何長度的文本:句子,段落和文檔;它不需要任務特定的單詞加權函數調整,也不需要依賴分析樹。

論文提出了兩個模型。PV-DM以最大化目標單詞輸出概率為目標,使用隨機梯度下降方法達到收斂。在輸入層增加了paragraph vector,新增的paragraph vector可以簡單的被看作是增加了一個新的單詞作為輸入,每當預測一個單詞時,就使用該單詞所在段落的paragraph vector作為新增輸入。然後使用得到的模型預測最終的paragraph vectors,此時單詞矢量和其他參數保持不變,仍然使用梯度下降方法,採用隨機抽樣,使得所有語境(所有語境僅指當前paragraph包含的語境)下出現對應paragraph的平均概率最大。模型圖如下:

PV-DBOW以paragraph vector作為輸入,然後從該vector對應的paragraph中隨機採樣單詞序列(語境)作為輸出。和skip-gram類似,該方法減少了輸入層的參數量。模型圖如下:

@江晚晚96

  • 《PERSONALIZING DIALOGUE AGENTS: I HAVE A DOG, DO YOU HAVE PETS TOO?》

來源:NIPS 2018

論文鏈接:arxiv.org/pdf/1801.0724

方向:DS

解決問題:

論文根據一個名為PERSONA-CHAT 的對話數據集來訓練基於 Profile 的聊天機器人,該數據集包含超過 16 萬條對話。致力解決三個問題:聊天機器人缺乏一致性格特徵;聊天機器人缺乏長期記憶;聊天機器人經常給出模糊的回應,例如 I dont know。

貢獻:

(1)對話生成的過程中,代理生成的一致性;

(2)對話的長期記憶;

(3)對話的通用回復

本文通過提出的seq2seq+mererynetwork模型來說明所提出的多代理模型的優越性,通過實驗結果說明,在生成過程中選擇不同的代理,對模型有著更好的作用。本文為了訓練該模型,還開放了一個persona-chat數據集,為訓練有性格的代理提供可能。

模型圖:

  • 《DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding》

來源:ICLR2018

論文鏈接:arxiv.org/pdf/1709.0469

代碼鏈接:github.com/taoshen58/Di

方向:語義理解

解決問題:

這篇文章是對 Self-Attention 的另一種應用,作者提出一種新的方向性的 Attention,從而能更加有效地理解語義。

貢獻:

RNN與CNN被廣泛使用在NLP任務中用於分別捕捉長期(long-term)和本地(local)的依賴關係(dependencies)。注意力機制(Attention Mechanism)最近吸引了大量的關注因為它的可並行化的計算,較少的模型訓練時間和長期/本地依賴捕捉的靈活性。

本文提出一種新穎的注意力機制,用於捕捉序列中不同的元素之間的attention信息。而且這種attention是有方向的並且是多維度的。然後,基於這種注意力機制,一個輕量級的網路,"Directional Self-Attention Network (DiSAN)",被提出用於學習句子的向量(句子向量化)。DiSAN不需要基於任何的RNN或CNN結構而僅僅是注意力機制。DiSAN由directional self-attention(用於編碼上下文和方向信息)和multi-dimensional attention(用於將一序列壓縮成一個向量)組成。

儘管結構簡單,DiSAN可以在預測效果和時間效率上超過複雜的RNN模型。DiSAN在Stanford Natural Language Inference (SNLI) 數據集上可以達到最好的效果。並且在Stanford Sentiment Treebank (SST)數據集上可以達到state-of-the-art效果。同時,文章還在其他基準數據集上達到state-of-the-art水平,包括Multi-Genre natural language inference (MultiNLI), SentencesInvolving Compositional Knowledge (SICK), Customer Review, MPQA, TREC

question-type classification 和 Subjectivity (SUBJ) 數據集。

模型圖:

@丸子醬Destiny

  • 《Knowledge Graph Embedding with Iterative Guidance from Soft Rules》

來源:AAAI 2018

論文鏈接:xueshu.baidu.com/s?

代碼鏈接github.com/iieir-km/RUG

方向:知識圖譜

解決問題:將知識圖譜嵌入連續向量空間並與邏輯規則相結合

創新點: 以前的大多數嘗試都是一次性注入邏輯規則,忽略了嵌入學習和邏輯推理之間的交互性。他們只專註於硬性規則,這些硬性規則始終保持不變並且通常需要大量的手動工作才能創建或驗證。在本文中,我們提出了規則引導嵌入(RUGE),這是一種用軟規則的迭代引導的知識圖譜嵌入的新範式。 RUGE使嵌入模型可以同時學習1)在給定知識圖譜中直接觀察到的標記三元組,2)其標籤將被迭代預測的未標記三元組,3)具有從知識圖譜自動提取的各種置信水平的軟規則。在學習過程中,RUGE迭代查詢規則以獲得未標記三元組的軟標籤,並集成這些新標記的三元組來更新嵌入模型。通過這種迭代過程,體現在邏輯規則中的知識可以更好地轉移到學習的嵌入中。

所以本文的主要突破是:

1)通過反覆注入規則知識,RUGE實現了對最先進基線的顯著和一致的改進;

2)儘管存在不確定性,但自動提取的軟規則即使是用具有中等置信水平的軟體對知識圖譜嵌入也是非常有利的。

模型圖:

  • 《Time Expression Analysis and Recognition Using Syntactic Token Types and General Heuristic Rules》

來源:ACL2017

論文鏈接:sentic.net/time-express

方向:時間信息抽取

解決問題:從文本中抽取時間信息的問題

創新點:從自由文本中提取時間表達式是許多應用程序的基本任務。本文在分析來自四個不同數據集的時間表達式中,發現只有一小部分辭彙用於表達時間信息,而時間表達式中的單詞表現出類似的句法行為。基於這些發現,本文提出了一種名為SynTime1的方法來抽取時間表達式。具體而言,就是定義了三個主要的句法標記類型,即時間標記、修飾詞和數字,用這些將與時間相關的標記正則表達式分組。在類型上,我們設計一般的啟發式規則來識別時間表達式。SynTime首先識別來自原始文本的時間標記,然後在周圍搜索修飾符和數字以形成時間段,最後將時間段合併到時間表達式中。作為一個輕量級的基於規則的標記器,SynTime實時運行,只需添加來自不同域和不同文本類型的文本關鍵字即可輕鬆擴展。所以總體來說,還是很方便的。

模型圖:

1. SynTime的布局:

2. SynTime的總體概觀:

@戰先生

  • 《Knowledge-based Word Sense Disambiguation using Topic Models 》

來源:AAAI2018

論文鏈接:cs.cmu.edu/~dchaplot/pa

方向:詞義消歧

解決問題:

詞義消歧是自然語言處理中的一個開放性問題,任何給定文本中的所有單詞都需要在不使用任何標記數據的情況下消除歧義。通常,WSD系統會將目標詞周圍的句子或單詞窗口作為消除歧義的上下文,但同時會存在的問題是它們的計算複雜度隨著上下文的大小呈指數級增長。在本文中,提出了一個利用主題模型的形式主義來設計一個WSD系統,來增加詞義消歧的精確度。

創新點:

在本文中,提出了一種基於KB的WSD演算法,用於全字WSD任務,該演算法將整個文檔作為一個單詞的上下文,而不是大多數WSD系統所使用的當前語句。為了對WSD的整個文檔進行建模,文中利用了主題模型的形式主義,特別是潛在的Dirichlet分配(LDA)。方法是LDA的一個變體,其中文檔的主題比例被一個文檔的synset比例所取代。使用一種非均勻的先驗分布來模擬在一個同步集合中單詞的頻率。此外,還通過在繪製文檔的synset比例之前使用一個logisticnormal來建模synset之間的關係。

模型圖:

  • Question-Answering with Grammatically-Interpretable Representations

來源:AAAI2018

學術鏈接:xueshu.baidu.com/s?

方向:QA

解決問題:

摘要關係分類是自然語言處理中一個重要的問題,尤其是知識圖的完成和問題的回答。現有的依賴於遠程監控的關係分類方法假設一個包含實體對的句子包都描述了實體對的關係。這樣的方法,在包層上進行分類,不能識別一個關係和一個句子之間的映射,並且很大程度上受到了雜訊標籤問題的困擾。本文提出了一種基於雜訊數據的句子級關係分類模型。該模型有兩個模塊:實例選擇器和關係分類器。實例選擇器選擇高質量的句子,強化學習,將所選的句子輸入到關係分類器中,關係分類器使句子水平預測,並為實例選擇器提供獎勵。這兩個模塊是聯合訓練的,以優化實例選擇和關係分類過程。

創新:

1)本文提出了一種新的關係分類模型,它由一個實例選擇器和一個關係分類器組成。這種形式化使模型能夠在被清理的數據的句子層面上提取關係。

2)將實例選擇作為一個強化學習問題,使模型能夠在沒有顯式的語句級注釋的情況下執行實例選擇,而只是在關係分類器中有一個弱的監督信號。

模型圖:

@zc111

  • 《PERSONALIZING DIALOGUE AGENTS: I HAVE A DOG, DO YOU HAVE PETS TOO?》

來源:Facebook AI

論文鏈接:arxiv.org/pdf/1801.0724

方向:NLG

解決問題:生成中對話的一致性以及多樣性

創新點:

本篇文章主要目的是為了解決三個問題:(1)對話上生成的過程中,代理生成的一致性;(2)對話的長期記憶;(3)對話的通用回復這三個問題。本文通過提出的seq2seq+merery network模型來說明所提出的多代理模型的優越性,通過實驗結果說明,在生成過程中選擇不同的代理,對模型有著更好的作用。本文為了訓練該模型,還開放了一個persona-chat數據集,為訓練有性格的代理提供可能。

模型圖:

  • 《Toward Controlled Generation of Text》

來源:ICML 2017

論文鏈接:arxiv.org/pdf/1703.0095

方向:NLG

解決問題:可控的文本生成

創新點:

本篇文章提出了一個將seq2seVAE模型與attribute discriminator結合的聯合模型,以完成的生成文本屬性的可控生成(例如如:sentiment, tense)。本文通過實驗證明,所用的鑒別器對於VAE模型有著增強的作用,從而完成不可控制seq2seq模型的可控操作。

模型圖:

@不讀不讀不讀

  • 《A Deep Generative Framework for Paraphrase Generation》

來源:AAAI 2018

論文鏈接:arxiv.org/pdf/1709.0507

方向:paragraph generation

解決問題:釋義生成是許多NLP任務中的一個重要問題,但在之前的工作中卻鮮有與此相關的,而更多是釋義檢測的工作。導致這一結果的原因是潛在自然語言生成問題的困難。但現在深度學習模型已經引領了強大的文本生成模型可以解決這一問題。

貢獻:

1.文章提出了一個利用LSTM+VAE模型搭建端到端的深度生成框架來自動生成釋義。

2.文章在新發布的數據集上進行了試驗評估,為後來的方法建立了新的baseline。

模型:

文章中所用VAE與原本VAE的改變在於生成部分並不僅與z有關,而是與原本輸入的句子也有關。

模型具體如上圖,左端是VAE的輸入端,由兩個LSTM編碼器構成。第一個將原句轉化為其向量表示,這一表示與其釋義一起被送入下一個LSTM編碼器,其結果通過一個前饋神經網路來產生VAE編碼端的variance參數。圖右端為VAE的解碼部分,使用隱編碼z以及句子編碼作為輸入,重建釋義句子。

  • 《Table-to-text Generation by Structure-aware Seq2seq Learning》

來源:AAAI 2018

論文鏈接:arxiv.org/pdf/1711.0972

方向:table-to-text generation

解決問題:為結構化表格生成自然語言描述是結構化數據生成文本的一項重要任務。然而,以前的工作是在有限的預定義模式中對結構化數據進行建模。文章提出了一種結構感知的seq2seq生成框架來對內容以及表格結構進行建模。

貢獻:

1.文章提出了一個端到端的結構感知架構,將欄位信息編碼為結構化表格的表示。

2.提出了欄位門控編碼器和雙重注意力機制,用於在結構化表格內容和欄位信息之間進行local和global address。

模型圖:


推薦閱讀:

Joint Extraction of Entities and RelationsBased on a Novel Tagging Scheme
深度學習在自然語言處理中的應用(論文梳理)
NN4NLP課程筆記(一)
NLP選題:6大研究方向助你開啟科研之路
序列標註任務的常見套路

TAG:自然語言處理 |