2018.3.26論文推薦

2018.3.26論文推薦

來自專欄 學習ML的皮皮蝦

@Godliness.Bo

  • 《Question Generation for Question Answering》

來源:EMNLP 2017

鏈接arxiv.org/pdf/1706.0202

該論文介紹了如何使用神經網路從給定的段落生成問題,其中大規模QA對可以自動從社區QA網站抓取並處理,並用作訓練數據。該文的貢獻有兩個方面:首先,提出了兩種問題生成方法,一種是使用卷積神經網路(CNN)的基於檢索(retrieval-based)的方法,另一種是使用遞歸神經網路(RNN)的基於生成(generation-based)的方法; 其次,論文展示了如何利用生成的問題來改進現有的問題回答系統。作者在三個基準數據集上評估了他們的問題生成方法對答案句子選擇任務的作用,包括SQuAD,MS MARCO和WikiQA。實驗結果表明,通過使用生成的問題作為額外的信號,對QA系統可以實現顯著的質量改進。

該論文的創新點有兩個:(1)所有被用作問題生成訓練數據的問題模板(question pattern)都可以自動從大規模CQA問題集中提取出來,無需任何眾包工作。(2)這也是問題產生任務第一次直接在端到端的QA任務中整合和評估,並且顯示出了顯著的進步。

Question Generation(QG)系統包括以下四個方面:Question Pattern Mining,從大規模的人工標註的CQA問題集里抽取頻繁使用的問題模板;Question Pattern Prediction,利用基於檢索和基於生成的方法從給定的段落中預測出top-N個問題模板;Question Topic Selection,根據預測出的問題模板,從給定的段落中選出主題詞;Question Ranking,對根據一系列特徵生成的問題進行排序。同時利用對偶學習的思想,將問題生成的方法整合到QA系統答案的選擇排序中,對QA系統有了顯著提升。

  • 《Attentive Recurrent Tensor Model for Community Question Answering》

來源:PaperWeekly

鏈接arxiv.org/pdf/1801.0679

社區問答困難的一個主要挑戰是句子表徵之間辭彙和語義的鴻溝。減少這種差距的一些解決方案包括向深層模型引入額外的參數或增加外部人工製作的特徵。該論文提出了一個新穎的注意循環張量網路來解決社區問答中的辭彙和語義鴻溝。作者引入token-level(字元級)和phrase-level(短語級)的attention機制,使用可訓練參數將輸入序列映射到輸出。此外,作者使用張量參數來引入向量空間中的問題、答案和外部特徵之間的三方交互。引入簡化的L2正則化張量矩陣,來使訓練過程平滑優化。論文所提出的模型在答案句子選擇(TrecQA和WikiQA數據集)的任務上達到了最先進的性能,同時在最佳答案選擇(Yahoo!L4)和答案觸發任務(WikiQA)上的表現優於現有技術。

該論文的創新點有以下三個:(1)提出了一個新穎的phrase-level和token-level的attention機制的recurrent tensor model(RTM);(2)RTM使用L2正則化的張量矩陣來計算CQA任務的問題、答案和外部特徵之間的三方交互;(3)所提出的想法對於句子匹配是相當普遍的,並且可以應用於各種NLP分類任務。

RTM模型使用biLSTMs來生成文本QA對的向量編碼,構造了phrase-level和token-level的attention機制,並使用了51個人工特徵,包括了lexical and semantic features、neural features和readability等之前沒有考慮的特徵;定義了張量矩陣M來合併問題和答案、問題和外部特徵、答案和外部特徵的關係,並用merge layer來整合向量。

@江晚晚96

  • 《Long Text Generation via Adversarial Training with Leaked Information》

來源: AAAI2018 arxiv.org/pdf/1709.0862

方向:NLG

解決問題:使用生成對抗網路GAN自動生成連貫且有意義的長文本。

創新點:提出了一個稱為LeakGAN的新演算法框架來解決非信息性和稀疏性問題。 它借鑒最新的分層強化學習從判別器向生成器提供更豐富的信息。該模型允許判別網路將其自己的高級提取特徵泄露給生成網路,以進一步幫助指導。生成器通過一個額外的MANAGER模塊將這些信息信號整合到所有生成步驟中,採用當前生成單詞的提取特徵並輸出一個潛在向量來指導WORKER模塊進行下一個單詞生成。在沒有任何監督情況下,LeakGAN可以通過MANAGER和WORKER之間的相互作用才能隱含地學習句子結構。

模型圖

  • 《A Question-Focused Multi-Factor Attention Network for Question Answering》

來源:AAAI2018 arxiv.org/pdf/1801.0829

方向:QA

解決問題:本文提出了一種端到端的、從問題出發的、多因素注意力網路,用來完成基於文檔的問題回答任務。這個模型可以從多個句子中收集分散的證據,用於答案的生成。

創新點:大多數已有的解決方法,關注在問題和段落的關係,通過尋找相似的上下文來抽取文本作為答案。然而,這類方法將分布在多個句子中的相關事實關聯起來的能力很小,也沒有明確地關注問題和答案類型。

(1)本篇論文提出了一種新穎的端到端的以問題為中心的多因素注意力網路來提取答案,使用基於張量的變換多因素注意力編碼匯總有意義的事實。當回答需要更深入理解的問題時,如多句子推理,共同參考解析等等,這是特別有效的。

(2)為了包含細粒度的答案類型信息,論文提出了一個最大注意力問題匯總機制,該機制學習識別問題的有意義的部分。

模型圖

@zc111

  • 《A Bi-model based RNN Semantic Frame Parsing Model for Intent Detection and Slot Filling》

來源:NAACL 2018 aceept paper 原文鏈接

方向:NLU

解決問題:slot-filling and intent detection

創新點:本篇文章,著眼與slot-filling和intent detection兩個NLU領域的重要任務。在傳統的方法中,通常是將這兩個任務分開進行通過兩個encoder-decoder模型來完成,取得了一些良好的結果。而本文通過將這兩個任務合併,創新提出了兩個聯合的模型(一個decoder的模型和無docoder的模型),並在AITS語料中取得了一定的提升。

模型圖:

Onedocoder:

Nodecoder:

  • 《Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory》

來源:AAAI 2017 arxiv.org/pdf/1704.0107

方向:NLG

解決問題:情感生成

創新點:paper把resp的emotion信息embed到一個高維的向量,提出了三種不同的方法來deploy這向量:

1. emotion category embedding。計算resp的情緒類別,並將該類別轉為高維向量v跟decoder部分的word embedding放在同一級嵌入到seq2seq中;

2. internal memory。將1得到的情緒向量v在生成時逐步遞減,最後降為0;

3. external memory。將decoder部分的詞典分為不相交的通用和情緒詞典,根據預先計算的情緒顯示控制每個step輸出的word。

模型圖:

@stonewang

  • 《Feudal Reinforcement Learning for Dialogue Management in Large Domains》

來源:NAACL2018

方向:dialogue

解決問題:解決大領域中對話策略的優化問題

創新點:提出一種新的強化學習方法feudal reinforcement learning來解決大領域中對話策略的優化問題。

在對話管理系統中使用傳統的強化學習,由於受到維度的限制不能拓展到大領域中。本文提出了基於feudal reinforcement learning的對話管理器結構,被包含在領域本體中的結構信息用於抽象對話狀態空間,在每個步驟中使用抽象狀態的不同部分作出決策。這與插槽之間的信息共享機制相結合,增加了大型域的可擴展性。把決策分成兩步,第一步是主策略,選出原始動作的一個子集:第二步從上步得到的子集中選出一個動作。在Deep-Q Networks中使用該對話管理器,在不增加任何獎勵信號的前提下,在一些對話領域中表現有所提高。

  • 《N2N LEARNING: NETWORK TO NETWORK COMPRESSION VIA POLICY GRADIENT REINFORCEMENT LEARNING》

來源:ICLR2018

方向:神經網路

解決問題:在保證性能的前提下縮小神經網路規模

創新點:提出了使用策略梯度強化學習在保證性能的前提下壓縮神經網路的方法,以及利用遷移學習加快網路壓縮速度的方法。

儘管更大規模的神經網路架構不斷提高計算機視覺任務的表現,但在實際使用這些網路時受到硬體和速度限制的阻礙。這就需要在保證性能的前提下對網路的規模加以限制。傳統的模型壓縮方法試圖通過手動修改結構或使用預定義的啟發式來解決這個問題。由於所有被縮小的結構的空間都很大,通過這種方式調整深度神經網路的結構是一項艱巨的任務。在本文中,通過引入一種使用強化學習的以數據驅動方式學習簡化網路體系結構的原理方法來解決這個問題。用一個比較大的教師網路作為輸入,從『教師』網路中得到的被壓縮的的學生網路作為輸出。在第一階段,一個循環的策略網路積極地從較大的「教師」模型中刪除層。在第二階段,另一個循環的策略網路會小心地減少每個剩餘層的規模。然後用基於準確度和網路的壓縮的分數來得到獎來評估得到的網路。使用這個獎勵信號和策略梯度來訓練策略,尋找一個局部最優的學生網路。對於ResNet34模型,可以實現超過10倍的壓縮率,同時保持與輸入的教師網路相似的性能。還提供了一個有價值的遷移學習結果,表明經過預先訓練的「教師」網路的策略可以用於在較大的「教師」網路上快速訓練。

@丸子醬Destiny

  • A Hybrid CNN-RNN Alignment Model for Phrase-Aware Sentence Classification》

本文主要是有機地將一個聚焦片語的CNN模型和面向序列的RNN模型相結合解決的問題就是從語義層面對 sentense 進行分類,取得良好的效果,文章創新點在於模型的結合使用,模型叫做『Gated Representation Alignment』 (GRA)。本文的對齊機制也比較新穎,也是提升有效性的關鍵,它允許RNN有選擇地將短語信息包括在逐詞的句子表示中,並且在沒有意識到句法結構的情況下做到這一點。

模型圖

如圖所示,整個模型由三個部分構成,第一個部分是通過CNN得到短語的表示,這裡採用三個不同大小的卷積核[2,3,4],卷積得到2-gram, 3-gram,4-gram的表示,這裡用P來表示。第二部分是通過雙向的RNN得到句子的表示(狀態),這裡用S表示。最後一部分,以求平均的方式得到句子的最終表示,然後softmax得到句子的類別。

  • 《Reinforcement Learning for Relation Classification from Noisy Data》

本文來自AAAI2018,作者是清華大學計算機系博士馮珺。本文的創新點主要是將強化學習應用於關係抽取任務中,取得了不錯的效果。遠程監督方法認為若在某個知識庫里兩個實體間有某種關係,那麼非結構化文本里所有包含這兩個實體的的句子都會表示這種關係,這種方法可以高效自動標註數據,但會帶來比較嚴重的噪音問題。之前的工作用multi-instance learning的思想來解決實例的噪音問題,它們的訓練和測試都是在bag level上進行的,這樣的方式有一定效果但會受到兩個限制:第一是不能在sentence-level上進行預測;第二是對所有句子都是錯誤的bag比較敏感。

所以本文為了解決這兩個問題,提出了一個由一個instance selector和relation classifier新型關係分類模型,其中instance selector用於從sentence bag中篩選高質量的sentence,然後relation classifier在sentence-level上進行預測。

模型圖

如圖所示,左邊是基於強化學習的instance selector,右邊是經典的基於CNN的relation classifier。instance selector根據policy function對noisy data逐個進行篩選,對每個樣本都可以執行「選」或「不選」兩種action,篩選完畢之後會形成一個新的數據集cleaned data作為relation classifier的輸入,RC會評估這個數據集的好壞計算出reward返回給IS,並利用這個cleaned data更新自己的參數,再使用 policy gradient 來更新 policy function 的參數,這裡的 reward 採用的是數據集中所有樣本的平均 likelihood。

@new y

  • 《Zero-Shot Learning via Class-Conditioned Deep Generative Models》

來源:AAAI 2018 arxiv.org/pdf/1711.0582

方向:遷移學習,零次學習,深度生成模型,變分自動編碼器

解決問題:利用以類別相關的隱空間分布為先驗的變分自動編碼器(VAE)為訓練集中未出現的類別的樣本學習特徵表示及分配標籤

創新點

1、以往成果將類別信息表示為語義嵌入形式的一個點,而本模型將類別表示為隱空間分布,並且以此作為輸入編碼的先驗條件

2、驗證了直導(inductive)和轉導(transductive)兩種情況下的零次學習(Zero-shot learning),其中直導部分沒有未出現類別的樣本,並且在損失函數增加了「最大化邊緣」部分,以促進類別之間的區分;轉導部分有部分未出現類別但未標註的樣本,並且在損失函數中增加了僅利用了未標註樣本的正則項。

3、在實驗中將模型向小樣本學習(Few-Shot Learning)做了擴展,並通過結果可視化與ZSL做了比較。

  • 《Meta Multi-Task Learning for Sequence Modeling》

來源:AAAI 2018 arxiv.org/pdf/1802.0896

方向:序列建模,多任務學習

解決問題:使用元網路來學習不同序列建模任務中語義組合的元信息,為多任務學習提出一種函數級的共享方案,從而解決了常規多任務序列建模中不同位置語義組合函數單一以及語義組合函數與任務相關的問題。

創新點

1、通過「元網路」來生成每一步的隱層參數,有別於傳統多任務的特徵級共享,實現了函數級的共享。

2、不同於常規多任務序列建模模型(共享信息作為任務相關隱層的輸入,從而任務相關隱層的定義未改變),通過元網路使LSTM中的每一步的隱層參數都不同,從而更好地建模語義信息。

3、元網路可以視為語義組合的先驗信息,結合基本LSTM的後驗信息,能夠更好地實現任務遷移,每對一個新任務進行學習,都可充分利用之前任務的信息。

@戰先生

  • Entity Linking for Queries by Searching Wikipedia Sentences

來源:EMNLP2017 arxiv.org/pdf/1704.0278

方向:NLU

解決問題:解決了實體鏈接的開放域查詢問題。引入了一種新的方法來生成候選實體,通過搜索維基百科中的句子來查詢,然後提取的注釋實體作為候選人。實現了一個回歸模型來對最終輸出進行排序。

創新點:提出了一種簡單而有效的方法來鏈接查詢中的實體。關鍵的思想是搜索類似於維基百科文章中的查詢的語句,並直接使用類似語句中的注釋實體作為候選實體進行查詢。然後,採用了一組豐富的功能,如鏈接概率、上下文匹配,字嵌入,和關聯的候選實體以及實體之間的關係,排列候選人回歸基礎的框架下。優點在於兩個方面,這有助於排名過程和最後的鏈接結果。首先,通過過濾查詢中的不相關實體,可以大大減少候選實體的數量。其次,可以在除了來自維基百科的所有物品的靜態linkprobability獲得查詢敏感的先驗概率。

方法包括三個主要階段:句子搜索、候選生成和候選排序。首先,在所有維基百科文章中搜索查詢以獲得類似的句子。第二,從這些句子中提取人注釋的實體。在查詢中保留相應錨文本的實體作為候選對象,並將其他實體作為相關實體對待。最後,使用基於回歸的模型對候選實體進行排序。

模型圖

  • 《Bilateral Multi-Perspective Matching for Natural Language Sentences》

來源:EMNLP 2017 arxiv.org/pdf/1702.0381

方向:NLU

解決問題

自然語言句子匹配是各種任務的基本技術。以前的方法要麼匹配單個方向的語句,要麼僅應用單個粒度(逐字或句子)匹配。會在在編碼過程中兩個句子之間沒有顯式的交互作用,這可能會丟失一些重要的信息。或者在匹配過程中忽略了反向的方向的匹配。為解決此問題,提出了一個雙邊多視角匹配模型。

創新點

本文提出了一個多邊雙視角匹配模型。該模型考慮到兩個句子P和Q,所以模型對於兩個句子每個方向都進行了匹配。模型首先用BiLSTM編碼器編碼它們。接下來,將兩個被編碼的句子,在每個匹配的方向上,P與Q和Q對P的兩個方向進行匹配,每一個句子的每一個時間步,從多個角度匹配另一個句子的所有時間步。然後,利用另一個BiLSTM層將匹配結果聚合為固定長度匹配向量。最後,在匹配向量的基礎上,通過一個完全連通的層進行決策。

模型圖


推薦閱讀:

吃瓜社報名 | 猿輔導MSMARCO冠軍團隊:用MARS網路模型解決機器閱讀任務
2018.4.9論文推薦
tensorflow用高級api實現文本分類初嘗試
<<Deep Semantic Role Labeling with Self-Attention>>閱讀筆記
<Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN>閱讀筆記

TAG:自然語言處理 |