seq2seq文本摘要:Autoencoder

seq2seq文本摘要:Autoencoder

來自專欄 NLP自然語言處理1 人贊了文章

今天分享的paper是ACL2018年的 Autoencoder as Assistant Supervisor: Improving Text Representation for Chinese Social Media Text Summarization, 作者都是來自北京大學。

綜述

目前大多數抽象摘要(abstractive text summarization)是基於seq2seq模型的, Seq2Seq本質上是一個encoder-decoder的模型,encoder部分將輸入的序列變換成某一種向量表示,然後decoder將這種表示轉化成輸出序列。

本文是針對社交媒體數據(social median)的自動摘要, 作為一個基於RNN的seq2seq模型,是很難將這種長句子輸入序列壓縮成精準的向量去表示(encoder部分),主要原因是梯度消失(gradient vanishing)和梯度爆炸問題(gradient exploding)。

本文旨在研究提高encoder部分的效力,通過在訓練模型階段增加一個對摘要結果的Autoencoder去監督seq2seq模型的學習。

模型綜述

下圖是本文模型的overview,很好理解。

在training階段,不僅encoder了訓練數據的source data為中間表示Zt,同時Autoencoder了對應的summary句子為Zs,因為相比原文,摘要更短,容易被encoder並保留完整信息。然後將Zt,Zs都傳到LSTM decoder去產生摘要。

在testing階段,只用了seq2seq模型。

注意encoder皆為Bi-LSTM encoder.

Supervision with Autoencoder

本文實現Autoencoder的監督學習方法是減少Zt和Zs的距離,損失函數是:

d(Zt,Zs)是距離公式; λ (0.3)是平衡損失函數的權重參數; N是hidden unit的數量,去限制距離公式的量級

距離公式為:

對抗學習Adversarial Learning

為什麼要引入對抗學習,公式(1)中的參數 λ 是個可調節的權重參數,去衡量encoder的監督強度,原文和摘要越相關,監督學習的強度應該越強,λ 越大。為了能夠動態地決定這個λ 參數,引入了對抗學習。

本文把Autoencoder結果作為標準表示(gold representations),seq2seq結果作為虛假表示(fake representation),訓練一個辨別器(discriminator)去辨別(discriminate)這兩個表示。與此同時,監督學習一邊縮小這兩個表示的距離,使它們越來越相近,阻止辨別器區分它們。所以當辨別器可以區分兩者時,降低λ,反之增加λ 。

辨別器目標函數如下:

監督學習的目標函數(阻止辨別器成功識別):

損失函數和模型訓練

本文有很多目標函數去優化模型,第一部分是seq2seq和autoencoder的交叉熵損失(cross entropy loss),公式如下:

第二部分是監督學習的損失函數,見公式(1)

第三部分是對抗學習的損失函數,見公式(3),(4)

模型的訓練是用了Adam optimization方法(Kingma and Ba, 2014)

實驗

數據集: LCSTS(Hu et al. 2015), 該數據集有超過2.4百萬條來自微博的新聞數據,具體信息不介紹

評價方法(evaluation metrics):Rouge score,其中包括Rouge-1,Rouge-2, Rouge-L, 不介紹

實驗結果

baseline介紹:

RNN:seq2seq, GRU encoder和decoder

RNN-cont: RNN基礎上加了注意力機制(Attention mechanism)

RNN-dist:基於注意力分散的神經網路(distraction-based neural model), 加入注意力機制在不同的文本中

Copyet: 加入"拷貝機制" (copy mechanism)

SRB: seq2seq的decoder變形

DRGD: decoder變形

文章最後給了一個例子,可以看出+superAE的效果是很可觀的

Link

Autoencoder as Assistant Supervisor: Improving Text Representation for Chinese Social Media Text Summarization

推薦

每周分享熱門paper

weixin.qq.com/r/fyjO1pL (二維碼自動識別)

推薦閱讀:

六種人體姿態估計的深度學習模型和代碼總結
理解機器學習模型的指標:準確率、精度和召回率等
機器學習演算法模型五要素
Google 使用機器學習來製作音樂
深度學習玩轉農業補貼精細化管理

TAG:論文 | 自然語言處理 | 機器學習 |