2018.4.9論文推薦

05-12

@Godliness.Bo

《Bi-Directional Attention Flow for Machine Comprehension》

來源：ICLR 2017 原文鏈接

機器理解（MC），根據給定的上下文段落的回答問題，需要對上下文和問題之間的複雜關係進行建模。最近，attention機制已經成功擴展到MC。典型地，這些方法使用attention關註上下文的一小部分，並用固定大小的向量進行總結，暫時地連接attention，和/或者常形成單向注意力。這篇論文介紹了Bi-Directional Attention Flow（BiDAF）網路，這是一個多級分層過程，它使用不同級別的粒度來表示上下文，並使VB用BiDAF來獲得無需早期匯總的query-aware上下文表示。實驗評估顯示，模型在斯坦福問答數據集（SQUAD）和CNN / DailyMail完形填空測試中達到了最好的結果。

作者對attention機製做出了改進：（1）沒有把 context 編碼成固定大小的 vector，而是讓 vector 可以流動，減少早期加權和的信息損失；（2）Memory-less，在每一個時刻，僅僅對 query 和當前時刻的 context paragraph 進行計算，並不直接依賴上一時刻的 attention，這使得後面的 attention 計算不會受到之前錯誤的 attention 信息的影響；（3）計算了

query-to-context（Q2C）和context-to-query（C2Q）兩個方向的 attention 信息，認為 C2Q 和 Q2C 實際上能夠相互補充。

BiDAFP網路包括六層。Character Embedding Layer：利用character-level CNNs將每個詞映射到一個高維向量空間；Word Embedding Layer：利用GloVe將每個詞映射到一個高維向量空間，然後把character embedding和word embedding拼接起來，通過兩層Highway

Network處理後得到passage矩陣和query矩陣，在輸入到後面的層；Contextual Embedding

Layer：將前兩步拼接得到的結果利用Bi-LSTM進行編碼，以獲得contextual embedding，分別得到passage矩陣H和query矩陣U；Attention Flow Layer：連接query和context向量並為context中的每個單詞生成一組query-aware特徵向量；Modeling Layer：使用RNN來掃描context；Output Layer：給query提供一個答案。

《CapsuleGAN：Generative Adversarial Capsule Network》

原文鏈接

這篇論文提出了生成對抗膠囊網路（CapsuleGAN），該框架使用膠囊網路（CapsNets）代替標準卷積神經網路（CNN）作為生成對抗網路（GAN）設置內的鑒別器，同時建模圖像數據。作者為CapsNet鑒別器設計和更新GAN目標函數提供指南，其中包含CapsNet邊際損失，用於培訓CapsuleGAN模型。該文證明CapsuleGAN在建模MNIST和CIFAR-10數據集上的圖像數據分布時，在生成對抗度量和半監督圖像分類評估上勝過了卷積-GAN。

該文的創新點為：提出生成對抗膠囊網路（CapsuleGAN）作為在GAN框架內合併膠囊的框架。特別是，CapsNets被用作框架中的鑒別器，而不是常規使用的CNN。

Generative Adversarial Networks：

Capsule Networks：

Generative Adversarial Capsule Networks:

@江晚晚96

《Evidence Aggregation For Answer Re-ranking in Open-domain Question Answering》

來源：ICLR2018 原文鏈接

方向：QA

創新點：

一般回答開放領域問題的方法是：首先搜索與問題相關的段落，然後應用閱讀理解模型來抽取答案。現有的方法通常獨立地從單個段落中提取答案。但是有些問題需要不同來源的證據集合，以正確回答。本文提出了兩個利用多個段落來產生答案的模型。兩種方法都使用答案重新排序方法，對現有最先進的QA模型生成的答案候選進行重新排序。答案重排有兩種方法，即基於強度的重新排序和基於覆蓋的重新排序，以利用來自不同段落的證據集合來更好地確定答案。提出的模型在三個公開的開放域QA數據集上取得了目前最好的結果。

貢獻：

1）提出了一個基於重新排序的框架，以利用來自開放領域QA中多個段落的證據，還提出了兩個重排方法，基於強度的重新排序和基於覆蓋範圍的重新排序，可以在現有的開放域QA數據集中進行證據聚合。

2）模型在三個不同的數據集Quasar-T,SearchQA和TriviaQA上，與之前的最佳結果相比，都取得了高達8％的F1改進。

模型圖：

《 $R^{3}$ : Reinforced Ranker-Reader for Open-Domain Question Answering》

來源：AAAI2018 原文鏈接

方向：QA

研究問題：

處理開放域QA。對於提出的問題，訪問大型語料庫（例如維基百科）獲取答案而不是預先選擇的段落。這個設置更加複雜，因為它需要信息檢索組件大規模地搜索相關段落，並結合閱讀理解模型來「讀取」這些數據以生成問題的答案。這種設置的性能遠遠落後於封閉域的性能。

創新點：

提出了一種基於兩種演算法創新的新型開放域QA系統，稱為增強型排序器-讀取器( $R^{3}$ )。首先，提出了一個帶有Ranker組件的開放域QA的新流水線，該流水線學習根據提取給定問題的答案的可能性對檢索到的段落進行排名。其次，提出了一種新的方法，它根據強化學習，聯合訓練Ranker和答案抽取Reader模型。實驗結果表明該方法顯著提高了多個開放域QA數據集的最好結果。

貢獻：

（1）本文提出了一種新的處理開放域QA的方法，它明確地分離了預測一個段落提供答案的可能性的任務，並閱讀這些段落以提取正確的答案。

（2）具體而言，模型為一個由兩部分組成的端到端框架：一個Ranker和一個Reader（即RC模型）。 Ranker選擇最有可能包含答案的段落，並將其傳遞給Reader，Reader從該段落中讀取和提取。Reader使用SGD / backprop進行訓練，以最大化包含正確答案（如果存在）的跨度的可能性。 Ranker使用REINFORCE進行訓練，獎勵取決於讀者如何從排名高的段落中提取答案。對Ranker的優化是通過最終答案預測的目標來確定的，這個目標提供了一個強有力的信號來區分與問題在辭彙上相似但在語義上不同的段落。

模型圖：

@zc111

《How to Make Context More Useful? An Empirical Study on Context-Aware Neural Conversational Models》

來源：ACL 2018 原文鏈接

方向：DIS

解決問題：seq2seq模型在多輪對話中的應用

創新點：

本篇文章主要是seq2seq模型在多輪對話領域中的應用，本文做了許多的對比實驗，提出了在該模型的encoder生成context過程中，採用分級構成的方式要優於不分級直接進encoder的方式。並對分級模型計算context向量進行了四種不同的對比實驗，分別問求和、級聯、RNN序列建模以及加權的RNN序列建模，並驗證了加權的分級的Wseq模型取得了最好的實驗效果。

模型圖：

《Adversarial Learning for Neural Dialogue Generation》

來源：EMNLP 原文鏈接

方向：NLG

解決問題：開放領域的對話生成

創新點：

本篇文章通過圖靈測試的啟發，將對抗訓練引入到開放領域的自然語言生成當中。本篇文章將生成任務當成一個強化學習的任務，聯合了兩個系統：一個通過seq2seq的生成系統和一個鑒別回復是更像人生成的還是機器生成的系統，然後通過這個鑒別系統給系統一個獎勵或者懲罰來完成對話任務。

演算法圖：

@不讀不讀不讀

《Leveraging Knowledge Bases in LSTMs》

來源：acl2017 原文鏈接

方向：Machine Reading

解決問題：解決了傳統方法中用離散特徵表示知識庫的知識存在特徵生成效果差而且特徵工程偏特定任務的缺點。論文以回答要不要加入背景知識以及加入那些知識為導向，說明了恰當加入知識庫知識的重要性。

貢獻：

1.文章選擇用連續向量表示方法來表示知識庫。

2.文章基於BiLSTM網路提出KBLSTM，結合attention機制在做任務時有效地融合知識庫中的知識。KBLSTM有三個要點：（1）檢索和當前詞相關的集合V（2）attention動態建模語義相關性（3）sentinel vector S決定是否要加入背景知識

模型圖：

《Open-World Knowledge Graph Completion》

來源：AAAI2018 原文鏈接

方向：KGC

解決問題：知識庫補全問題

傳統的知識庫補全問題要求實體和關係都在知識圖譜中存在，但真對圖譜外部的新實體就無法加入，且對於弱連接無法進行好的預測。文章針對外部實體提出了一個新模型。

貢獻：

1、提出了一個針對外部實體的模型：ConMask，使用依賴於關係來刪去無關辭彙來減少給定實體描述中的雜訊，並使用全卷積神經網路將相關文本融合為依賴於關係的實體嵌入。

2、發布了兩個由DBPedia和Wikipedia構建的新知識圖完成數據集用語KGC評估。

模型圖：

@戰先生

《An Unsupervised Model with Attention Autoencoders for Question Retrieval》

來源：AAAI2018 原文鏈接

方向：問題檢索 QA

解決問題：

社區問答(CQA）系統可以幫助在一個社區創建的討論論壇中自動化尋找新的問題的好答案的過程。該系統首先在論壇中檢索類似的問題(即問題檢索)，然後在回答這些類似問題的答案中確定帖子(即答案選擇)。問題檢索的挑戰在於，兩個自然語言句子往往用不同但語義相關的詞語表達相似的意思，從而導致語義上的差異。本文提出了一種新的無監督框架，來計算兩個問題之間的語義匹配，只依賴於CQA論壇中大量未標註的數據

創新點：

1）以往的研究主要集中在對訓練數據和手工特徵工程的監控模型上。在本文中提出了一個不受監督的框架來計算問題相似度，只依賴於CQA論壇中大量未標註的數據。關注核心的文本語義相似度，避免使用任何元數據分析(例如用戶配置文件和問題類別)。

2）模型應用詞法錯配信息來有效地捕捉兩個問題之間的表面匹配。最後的匹配分數是基於問題表示、辭彙錯誤匹配信息和搜索引擎產生的初始等級來計算的。模型具有強大的語義表示匹配能力，同時捕獲了表面辭彙匹配。

3）本文的RAMN整合了深層語義表徵、淺層辭彙錯誤匹配信息以及外部搜索引擎產生的初始等級。第一次，我們建議注意自動編碼器產生問題的語義表示。

本文利用詞法上的不匹配來捕捉兩個問題之間的表面匹配，這兩個問題是由一個問題中的每個單詞的重要性衍生而來的。

模型圖：

《Knowledge Enhanced Hybrid Neural Network for Text Matching》

來源：AAAI2018 原文鏈接

方向：文本匹配

解決問題：長文本的語義匹配

創新點：

本文提出一個知識增強的混合神經網路(KEHNN)來利用先驗知識進行匹配。在給定文本對的情況下，KEHNN利用一個知識門將先驗知識所承載的語義信息融合到單詞的表示中，並為每個單詞生成一個增強的知識表示。知識門是一個非線性單元，它控制從單詞中保留多少信息，以及從先驗知識流到表示的多少信息。通過這種方法，過濾掉無關單詞的雜訊，並加強相關辭彙的有用信息。然後，模型形成三個通道，從多個角度進行匹配。每個通道通過相似矩陣對一對文本的相互作用進行建模。第一個通道匹配單詞上的文本對。它通過字嵌入來計算相似矩陣。第二通道在句子的局部結構上進行匹配。它通過雙向遞歸神經網路來構造相似矩陣。在最後一個信道中，利用另一個BiGRU處理的知識增強表示來進一步捕獲序列結構，從而構造相似矩陣。由於先驗知識表示文本對的全局語義，因此該通道從全局上下文的角度執行匹配。這三個通道然後利用卷積神經網路(CNN)來提取矩陣中匹配元素的成分關係，作為匹配的高級特徵。最後以多層感知器(MLP)作為匹配分數合成了這些特徵。匹配的架構讓兩個對象在開始時相遇，並從多個角度測量它們的匹配度，從而充分地模擬了兩個對象的交互。

模型圖：

@丸子醬Destiny

《Large Scaled Relation Extraction with Reinforcement Learning》

來源：AAAI 2018 原文鏈接

方向：關係抽取

解決問題：利用強化學習進行實體關係抽取

創新點：

以前的模型依賴於手動標記的監督數據集。然而，人的注釋是昂貴的，並且限制了關係數量和數據大小，這很難擴展到大的領域。為了進行大規模的關係提取，我們利用現有的知識庫來啟發式地與文本進行對齊，而不依賴於人的注釋並且易於擴展。然而，使用遠程監督數據進行關係提取面臨著一個新的挑戰：遠程監督數據集中的句子沒有直接標記，並且並非所有提到實體對的句子都能表示它們之間的關係。為了解決這個問題，我們提出了一個具有強化學習的新模型。實體對的關係作為遠程監督，藉助強化學習方法引導關係提取器的訓練。使它不僅僅可以對Bag(Entity pair)進行分類，還可以對句子進行分類。

模型圖：

1.強化學習的過程：

2.關係提取器的結構：

《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》

來源：ACL2017 原文鏈接

方向：信息抽取

解決問題：實體和關係的聯合抽取任務

創新點：

提出了一種jointly的方法把命名實體識別和關係抽取串到一起：通過一種新的標註策略（tagging scheme）把抽取任務轉換為標註任務，然後使用深度學習技術通過一個端到端的建模（end-to-end tagging model）來抽取出結果。

模型圖：

1.標註方法：

模型的輸入一句非結構化的文本，輸出為一個預定關係類型的三元組。為了實現該任務，作者首先提出了一種新的標註模式，將信息抽取任務轉化為序列標註任務。如下圖所示：

2.End-to-end模型：

@stonewang

《A Knowledge-Grounded Neural Conversation Model》

來源：AAAI 2017 原文鏈接

方向：conversation

創新點：在常見seq2seq對話模型中引入了背景知識

神經網路模型已經能夠進行很自然的對話交互了。然而，這些模型並沒有包含其他形式的真實信息或背景實體來增強在任務導向型應用中的服務水平。該論文提出一種新穎的，完全由數據驅動的，基於背景知識（knowledge-grounded）的神經對話模型，在沒有槽位填充下產生內容更加豐富的應答。該方法是在一般seq2seq框架基礎上，在多任務的學習中結合對話和非對話數據。核心思想是在回復時不僅以對話記錄作為條件，也吸收了相關的額外事實信息。其思想是只需要使用一種方法（例如簡單的命名實體匹配等）在對話上下文中引入額外信息，這就提高了該模型在開放域中的多樣性和可適用性。

（1）首先有一個可用的world facts，這是一個每行為一條詞目的集合（例如百科，評論），並以命名實體作為關鍵詞進行索引；

（2）然後在給定的source sequence S中，識別S的「focus」（即特徵詞）。這些foucs可以被用於關鍵詞匹配或更先進的方法中，例如實體鏈（entity linking）或命名實體識別。這樣query就可以檢索到所有上下文相關的facts： F = {f1, f2, f3, ….., fk}；

（3）最後將對話對和相關的facts都喂到神經架構中去訓練。

模型圖：

《Learning to Compose Neural Networks for Question Answering》

來源：NAACL 2016 原文鏈接

方向：QA

創新點：提出了自動組裝的可用於圖片和結構化知識庫QA的動態神經模型網路

雖然已經有人對問題引入句法分析來識別出究竟在問什麼，但是沒有擺脫手寫規則。本文提出的模型可以使用自然語言串來自動地從可組裝模型集合中選出模型組成神經網路布局，同時對組成的神經網路的參數進行學習，只需要（world，question，answer）三元組作為監督，其中的world為知識庫。在對所選的神經網路布局打分時用到了強化學習中的策略梯度。模型可分為聯合訓練的兩個部分：

一、layout model :

用句法分析和語義分析為問句產生一個神經網路布局來表示問句的意圖

（a）把輸入的句子解析為依存句法樹

（b）將句法樹的片段分配給合適的邏輯組件

（c）將邏輯片段組裝為完整的layout

二、execution model:

在知識庫上面執行邏輯查詢，用layout model得到的模型對結構化知識庫進行邏輯查詢，選出備選答案中分數最高的

模型圖：