2018.5.28論文推薦

10-14

2018.5.28論文推薦

來自專欄學習ML的皮皮蝦7 人贊了文章

@Godliness.Bo

《Learning sentence embeddings using Recursive Networks》

鏈接：https://arxiv.org/pdf/1805.08353.pdf

學習句子向量的普遍化是一項極具挑戰性的任務。該論文比較了學習phrase embeddings的三種方法：1）使用LSTMs，2）使用循環網路，3）使用短語的POS信息的循環網路的變體。作者在詞定義的字典上訓練他們的模型，以獲得與Felix等人相似的逆向字典應用程序。為了查看作者提出的embeddings方式是否可以轉移到新的任務中，他們還對爛番茄數據集進行了訓練和測試。

這篇論文的貢獻是：（1）使用word embeddings在逆向字典應用上；（2）在一個放大的無監督數據集上訓練模型，並隨機化了句子中的單詞。

論文中比較了三個模型，LSTM、Recursive neural network (RNN) with

shared weights和RNN with unique weights。

LSTM

句子中的詞是反向輸入到LSTM網路中，使用網路最後一層最後一個時間步的狀態作為句子的向量表示。

Recursive neural network (RNN) with shared weights

在遞歸網路中，使用syntaxnet解析器來形成分析樹。上圖為兩個句子的分析樹，enjoy（VB ROOT）為父節點，其它為孩子節點。

在上圖的模型圖中，使用了共享參數W。

RNN with unique weights

該模型和上一個模型的差別是這個模型不同位置POS詞的W不同並且每一個節點的輸出都乘上了一個W。為了考慮句子中negative word的影響，該模型由所有embeddings的加權和組成，權重由當前節點及其直接子節點（如果有的話）決定。參數w的模型圖和演算法如下：

所有模型的loss使用交叉熵，通過實驗證明RNN with shared weight有最好的效果。

@江晚晚96

《LSTM-Based Deep Learning Models for Non-factoid Answer Selection》

論文鏈接：http://xueshu.baidu.com/s?wd=paperuri%3A%28857845fb97c57b80bd1c392f58d6b160%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fabs%2F1511.04108&ie=utf-8&sc_us=5682816648893988533

來源：ICLR2016

方向：QA

解決問題：答案選擇

貢獻：

本文針對答案選擇任務應用了通用深度學習（DL）框架，該框架不依賴於手動定義的特徵或語言工具。基本框架是建立基於雙向長期短期記憶（biLSTM）模型的問題和答案的嵌入，並通過餘弦相似度來衡量它們的接近程度。

在兩個方面進一步擴展這個基本模型。一個方向是通過將卷積神經網路與基本框架相結合，為問題和答案定義更複合的表示。另一個方向是利用簡單而有效的注意力機制來根據問題上下文生成答案表示。模型由兩個數據集檢驗，包括TREC-QA和InsuranceQA。

模型：

1、QA-LSTM

雙向長期短期記憶（biLSTM）：單向LSTM不能利用來自未來token的上下文信息。雙向LSTM通過在兩個方向上處理序列來利用先前和未來的上下文，並生成兩個獨立的LSTM輸出向量序列。一個處理正向輸入序列方向，而另一個處理反向輸入。每個時間步的輸出是來自兩個方向的兩個輸出向量的連接。

QA-LSTM： BiLSTM為問題和答案獨立生成分散式表示，然後利用餘弦相似度來測量它們的距離。將訓練目標定義hinge loss。

其中a +是ground truth答案，a-是從整個答案空間中隨機選取的一個不正確答案，M是常量margin。有三種簡單的方法根據詞級biLSTM輸出生成問題和答案的表示：

(1)average pooling; （2）max pooling;（3）兩個方向上最後一個向量的連接。

2、QA-LSTM / CNN

模型1僅通過簡單操作（如最大或平均pooling）生成問題和答案表示。在這個模型中，我們在biLSTM輸出基礎上加入CNN結構，以便給出問題和答案的更多複合表示。對於biLSTM輸出向量中大小為m的每個窗口，卷積濾波器將生成：

3、基於注意力的QA-LSTM

當雙向LSTM模型必須在問題和答案上長距離傳播依賴關係時，隱藏向量的固定寬度成為瓶頸。通過動態調整問題答案的更多信息部分，可以使用注意力機制來緩解這種弱點。這一策略已被用於許多其他自然語言處理任務中。在average或mean pooling之前，每個biLSTM輸出向量將乘以softmax權重，該權重由biLSTM的問題嵌入確定。具體來說，給定在時間t時答案側的biLSTM的輸出向量ha（t）和問題嵌入oq，每個答案標記的更新向量h a（t）如下獲得：

@zc111

《MOJITALK: Generating Emotional Responses at Scale》

來源：ACL 2018

連接：https://arxiv.org/pdf/1711.04090.pdf

方向：NLG

解決問題： 情感生成

創新點：

本篇文章的提出了情感生成領域缺少大規模的帶有標籤語料的問題，通過將評論中的emoji表情作為情感標籤，以CVAE模型作為生成模型，完成情感生成的任務。本文的主要貢獻有三點：

1. 從Twitter數據中提取的問答含有emoji標籤的對話對，構成了大規模的公開數據集；

2. 使用了emoji情感標籤指導情感對話的生成；

3. 應用了幾種最新的生成模型訓練情感回復生成系統，並通過實驗分析所提模型具有在情感生成發麵具有良好的性能。

模型圖：

@丸子醬Destiny

《A Unified Model for Extractive and Abstractive Summarization using Inconsistency Loss》

論文來源：ACL2018

原文鏈接：https://arxiv.org/pdf/1805.06266.pdf

研究方向：摘要生成

解決問題：

本文提出了一個統一的模型，結合了抽取和抽象總結的強度。一方面，一個簡單的抽取模型可以獲得ROUGE分數較高但可讀性較差的sentence-level attention。另一方面，一個更複雜的抽象模型可以獲得word-level動態attention，以生成更具可讀性的段落。在我們的模型中,sentence-level attention被用來調節word-level attention，從而減少了參與句子少的辭彙的產生。此外，還引入了新的不一致性損失函數來懲罰兩個attention層之間的不一致性。

通過端到端培訓我們的模型，其中包括抽取模型和抽象模型的不一致性損失和原始損失，本文實現了最先進的ROUGE分數，同時作為CNN /Daily Mail數據集中最具信息量和可讀性的摘要。

模型圖：

1.抽取器的體系結構

2.解碼機制中的抽象器

@stonewang

《A Weakly Supervised Method for Topic

Segmentation and Labeling in Goal-oriented Dialogues via Reinforcement Learning》

來源：IJCAI 2018

方向：Goal-oriented Dialogue

鏈接：http://coai.cs.tsinghua.edu.cn/hml/media/files/IJCAI18TopicSegment0429.pdf

創新點：提出一種在目的導向型對話中識別語句中的topic邊界並分配topic標籤的強化學習方法。

Goal-oriented消費服務對話存在三個共同的問題：informality, local topic continuity, and global topic structure。

Table 1：一個消費對話例子，同一種顏色表示同一個主題

本文提出一種強化學習的策略梯度方法來解決這三個問題。主題分割打標籤可以看做是一個序列決策問題，連續的給句子分配topic，先前句子的topic會影響現在的和以後的決策。定義一個中間獎勵來促使局部話題更具有連貫性，當所有序列標註完成後，通過使用支持更大的片段內相似度和更小的片段間相似度的延遲獎勵來構建全局主題。

為了解決非正式的問題，使用多層LSTM（HLSTM）進行狀態表示，捕捉詞級和句子級的依賴，HLSTM可以更好地概括所有的歷史信息而不是僅使用詞/短語相似性。這種上下文的理解能力不僅解決了非正式的問題，也從內容的角度來解決局部主題連續性的問題。兩個網路的難點，狀態表示網路（SRN）、策略網路（PN），用沒有標註的數據訓練是個挑戰，另外策略網路進行主題打標籤時僅使用設計的獎勵。

先用一系列關鍵詞作為先驗知識來進行有雜訊的的標註，來對SRN和PN進行預訓練，SRN是個包含詞級LSTM和句子級LSTM的多層LSTM。PN用局部主題獎勵和全局主題構建的累積獎勵來對含雜訊的主題標記進行提煉。提煉出來的數據再次用來訓練SRN得到更好的狀態表示，得到PN的更好的策略，直到收斂。

@new y

《Improving Knowledge Graph Embedding Using Simple Constraints》

來源：NAACL 2018

原文鏈接：https://arxiv.org/pdf/1805.02408.pdf

方向：知識圖譜

解決問題：

在知識圖譜的embedding空間結構中引入先驗知識，以學習預測性能更加的embedding結構的同時不降低計算效率和可擴展性。

創新點：

本文基於ComplEx複數KG embedding模型做改進，在知識圖譜embedding中引入兩種簡單的約束，其一是實體表示的非負約束，將實體embedding限制在[0,1]d的超立方體中，其次是關係間的近似蘊含，用一個參數表示有序關係對之間由前推出後這樣的蘊含關係的置信程度。在cost函數的設計上，使用三元組三個元素embedding的點積的實部作為三元組評分，通過實驗驗證，證明在不需要引入一階邏輯規則的情況下，僅通過在KG embedding上做簡單約束，就可改善embedding。

@不讀不讀不讀

《Hierarchical Attention Transfer Network for Cross-domain Sentiment Classification 》

來源：AAAI2018

鏈接：https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/16873/16149

方向：Sentiment Classification

解決問題：跨域情感分類旨在利用源域中的有用信息來幫助在沒有或很少監督信息的目標域中進行情感分類。現有的跨域情感分類方法不能自動捕捉非關鍵詞。為了解決這個問題，文章提出了一個用於跨域情感分類的分層注意轉移網路（HATN）。

貢獻：

1.提出了一種分層關注轉移機制，它可以通過同時自動捕獲樞紐和非樞紐來跨領域轉移對情緒的關注。此外，它可以說明在分層關注中可以轉移什麼，這使得領域之間的表示更加可以解釋。

2.經驗上來說，提出的HATN方法可以顯著地勝過最先進的方法。

模型：

HATN目標就是在域之間transfer attentions for emotions。定義了兩個層級attention networks，第一個叫做P-net，目的是識別源和目的域之間的共有的樞紐詞；第二個叫做NP-net，目的是捕捉到跨域的非樞紐詞，通過隱藏所有的樞紐詞來實現。文章通過替換padding word來實現隱藏操作。

其中P-net的目標是捕捉到樞紐詞（1.在情感分類中是重要的情感詞；2.在領域間共享）首先把源域中的有標記數據送入P-net中，同時把剩下所有域中的所有數據送入P-net來給他們貼上域的標籤。然後執行基於對抗訓練的域分類，使得分類器在兩個域的表示之間不加以區分，以此來保證P-net的表示既是領域共享的又是對於情感分類任務有用的。

而NP-net目標是捕捉兩個的非樞紐詞（1.對於情感分類任務有用；2.是特定領域獨特的詞）首先講隱藏過樞紐詞的源域數據送入NP-net來進行情感分類，同時所有領域中轉化過的數據都送入NP-net來作為樞紐點預測的+/-數據。通過這種方式，NP網路可以發現特定領域的特徵，將樞軸作為一個橋樑，並捕獲預計與支點密切相關的非樞軸。

@戰先生

《An End-to-end Approach for Handling Unknown Slot Values in Dialogue State Tracking》

來源：ACL2018

鏈接：

http://xueshu.baidu.com/s?wd=paperuri%3A%288791e03ac2d5fd837dec5a896a5713db%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fabs%2F1805.01555v1&ie=utf-8&sc_us=8445392673959212232

方向： dialogue state tracking

解決問題：關注了對話狀態跟蹤(DST)處理未知的槽值的問題。

創新點：

本文關提出了一個經常會出現但很少被研究DST的問題，關於處理未知的slot值的處理。本文描述了一種基於指針網路(PtrNet)的E2E體系結構，該體系結構不包含SLU,但能夠有效地提取未知slot值，同時在標準的DSTC2基準上仍能獲得最新的精度。

模型：