《Style Transfer in Text: Exploration and Evaluation》閱讀筆記

標題:《Style Transfer in Text: Exploration and Evaluation》

論文來源:AAAI 2018

原文鏈接:原文鏈接

聲明:轉載請註明出處:學習ML的皮皮蝦-知乎專欄

Introduction

風格轉換(Style Transfer)是人工智慧許多子領域的一個重要問題,而語言風格轉換的發展滯後,主要面臨三個挑戰:

一是缺乏平行語料來對風格轉換提供標註數據作為參考

二是缺乏可靠的評估指標

三是如何從文本中分離出風格

本文提出兩個模型在缺乏平行語料訓練數據的情況下,進行風格轉換。模型的關鍵是使用對抗網路來讓模型分別獨立的學習文本表示和風格表示。另外由於缺乏有效的評價指標, 本文提出兩個新的評價風格轉換的指標:轉換強度和內容保存。本文將提出的模型應用在兩個風格轉換任務上:paper-news title轉換和positive-negative review 轉換。

結果表明, 本文提出的評價方法與人類的判斷高度相關, 提出的模型不僅能夠生成相似文本的句子,而且與autoencoder相比有更高的風格轉換強度。

Contribution

本文的貢獻有三點:

1、構成一個論文-新聞標題的數據集方便語言風格轉換研究。

2、為風格轉換提出兩個評估指標, 轉換強度和內容保存,評價指標與人類的主觀判斷高度相關。

3、提出兩個在沒有平行語料庫的情況下實現風格轉換的模型。

Model

本文提出了兩個基於seq2seq的風格轉換模型:

第一個模型是使用多解碼器的seq2seq模型。每個解碼器獨立生成一種對應的文本風格。

第二個模型是引入了style embedding的seq2seq模型。style embedding加到文本表示上,一個解碼器訓練生成不同風格的文本。

本文提出的兩個模型

本文中的兩個模型, 左邊為多解碼器模型, 右邊為style embedding模型。

內容 c 表示編碼器的輸出。一個對抗性網路用於確保內容c中沒有風格表示形式。多層感知器 (MLP) 和 Softmax 構成了分類器用來區分輸入X的風格。。

編碼器

RNN的變體 (GRU) 。GRU單元包含下列的組件:

s j 是在j時刻的GRU的activation ; h j 是計算候選activation 的中間狀態. r j 是一個重置門,用於控制將多少之前的activation 重置為候選activation mzj 是更新門,基於以前的activation 和候選activation ,控制更新多少現在的activation 。E 是將輸入詞轉換為向量表示的詞嵌入矩陣E , W , U , W r ,U r , W z , U z 是模型參數。使用 Θe 來表示編碼器的所有參數,然後編碼器可以抽象為:

解碼器

解碼器也是使用GRU。輸出序列的概率

i 代表輸入序列, j 輸出輸出序列。生成每個標誌的概率P可以用softmax來計算。

seq2seq 模型的損失函數將訓練數據的最小化負對數概率。其M 表示訓練數據的大小,

Θe 和Θd 分別是編碼器和解碼器的參數。

多解碼器模型

該多解碼器模型就像有幾個解碼器的auto-encoder。這個模型的挑戰是如何使用輸入X生成文本表示 c 。在原始的auto-encoder 模型,編碼器的生成表示包含文本和風格信息。我們使用一個類似Chen et al. (2017) 提出的分離多任務學習的共享和私有特徵的對抗網路,來分離文本表示 c 與風格。對抗性網路由兩部分組成。第一部分是鑒別器,旨在對編碼器給定表示的x的風格分類。損失函數將訓練數據中的風格標籤的負對數概率最小化:

Θc 是多層感知器(MLP) 用於預測風格標籤的參數 。第二部分是對抗網路的生成器,通過最大化預測風格標籤的熵,使分類器無法分辨輸入x的風格,如下公式

Θe 是編碼器的參數,N 是風格的數量。注意,對抗網路的兩部分更新不同參數集。它們一起工作以確保編碼器的輸出不包含風格信息。

當編碼器被訓練以產生文本表示時,多解碼器被訓練接收編碼器產生的表示,並且生成不同的風格。每個解碼器的損失函數和(7)類似,並且總的生成損失是每個解碼器的生成損失之和

多解碼器模型的最終損失函數由三部分之和組成:兩部分來自對抗網路和一部分來自seq2seq生成。

Style-embedding 模型

在這個模型中,編碼器和對抗網路與多解碼器模型相同。不同之處在於加入了style embeddings Eepsilon R^{Ntimes ds}N 表示風格數量和 d s是風格的維度。並且只使用一個解碼器將文本表示和嵌入的風格串起來生成不同類型的風格。

損失函數如下, L_{gen2} 是seq2seq生成的損失函數。總損失類似於(11)的多解碼器模型, L_{adv1},和 L_{adv2} 與上面的相同

參數估計

我們使用Adadelta 的初始學習速率0.0001和批次大小128來訓練所有模型.最佳的參數根據對驗證數據的困難性決定, paper-news使用最大50次任務和訓練10次為積極消極的任務。

多解碼器模型要使用相應的風格的數據,交替地訓練多個解碼器。style-embedding模型,本文隨機地打亂了訓練數據。用編解碼部分聯合訓練的style-embedding。

Evaluation

1、轉換強度

用來評估風格是否被轉換,使用LSTM-sigmoid分類器實現。定義如下:

轉換強度的準確度定義為 frac{N_{right}}{N_{total}} N_{total} 是測試數據的總數 , N_{right} 是風格正常轉換的數目。

2、內容保存

訓練100% 的轉移強度的模型是很容易的。但是也要保證內容一致。內容保存可以計算源文本和目標文本之間的相似性。內容保留率被定義為源句vs和目標句vt之間的餘弦距離。語句嵌入包含在(17) 中定義的單詞嵌入的最大、最小、平均pooling。

對於詞嵌入, 我們使用預訓練的Glove。GloVe: Global Vectors for Word Representation

Jeffrey Pennington(EMNLP,2014)本文使用維度100。

Experiments

數據集

兩個非平行語料paper-news title數據集和positive-negative review數據集。第一個數據集的論文從ACM 等學術網站上爬取,新聞標題來自UC Irvine Machine Learning Repository 的科學技術目錄。

第二個數據集使用2016年發布的亞馬遜產品評論數據。隨機選擇40萬積極和40萬消極評論組成我們的數據集。

對於兩個數據集, 我們將它們分成三部分: 訓練、驗證和測試數據。驗證和測試數據是2000句子, 其餘是訓練數據。

本文忽略了超過20個詞的句子,並將所有字元轉換為小寫的所有字元。我們也將所有數字替換為特殊字元串 " NUM" 。表1匯總了有關數據集的一些統計信息.

結果和分析

圖 2:

auto-encoder、多解碼器模型和 style embedding對兩個任務的結果, paper-news title風格轉換(左)和positive-negative review風格轉換 (右)。同一模型的不同節點表示不同的超參數。

Paper-News Title中 auto-encoder 能夠恢復大部分內容, 但幾乎沒有轉換強度。提出的兩個模型都能達到相當高的分。多解碼器模型在轉換強度上表現更好, 而style-embedding模型對內容保存效果更好,範圍更廣。

Positive-Negative評論轉換,對於style-embedding模型, 它涵蓋廣泛。多解碼器模型表現更好,有較高的轉換強度,並取得了更高的內容保存。

圖 3: 內容保存與人評價的評分相關性。為更好的可視化,將高斯雜訊添加到人的評估中。部分放大圖顯示在右邊。

人類判斷比較

選取的3個人用隨機抽樣獲得的200 個paper-news轉換對來用{0,1,2}打分,2表示兩個句子非常相似;1表示兩個句子有點相似;0表示兩個句子不類似。每個轉換對對來自不同人的分數取平均產生最終的人類判斷分數。然後 ,計算人的判斷分數和我們的內容保留度量之間的Spearman』s coefficient。相關評分為 0.5656, p 值為<0.0001, 人的判斷分數和內容保存高相關性。

模型性能

圖2。我們可以看到, 轉移強度和內容保存是負相關的。這表明在同一模型中,要獲得更多的樣式更改, 必須丟失一些內容。

auto-encoder斜率更陡,這表明我們的模型更好的平衡了轉換強度和內容保存。

內容保存的下限

通過從兩個數據集中隨機抽取2000句來估計內容保存度量的下限,估計下界在paper-news t標題上是0.609 ,positive-negative評論上是0.863。模型表現遠高於下界 。

定性研究

auto-encoder幾乎總是產生與輸入相同的輸出。其他兩種模式往往生成替換幾個重要單詞或短語的結果,但保留大部分內容。這兩種模型在 positive-negative風格轉換上表現得很好, paper-news轉換上表現不太好。

Conclusion

本文研究了在沒有平行語料情況下的風格轉換問題。本文提出了兩種模型和兩個評價指標來推進這一領域的研究。此外,本文還構建兩個數據集: paper-news題數據集和 positive-negative評論數據集。實驗表明, 所提出的模型可用於在沒有平行語料下的風格轉換, 而所提出的評價指標與人的主觀判斷密切相關。在未來, 我們計劃提出更全面的評估指標 (包括句子流暢度) 和通過對人的評價研究,更好地推進風格轉移的研究。

推薦閱讀:

Neural Machine Translation by Jointly Learning to Align and Translate
《Recent Advances on Neural Headline Generation》閱讀筆記

TAG:自然语言处理 |