Paper List for Style Transfer
Papers of Non-parallel (Unpaired) Data
把style和content 隱式分開,建立起non-style的content representation
- Style Transfer from Non-Parallel Text by Cross-Alignment, NIPS-2017, Tianxiao Shen,
[paper], [code]
總結:相當不錯的論文,值得再次深入研讀!!這篇文章主要是為了建立一個shared latent content space Z。最簡單的VAE可能會建模進去全部的信息(我的理解是不能過濾style的信息),所以用了對抗訓練的方法。一種是直接在Z上對抗,一種是在各自的decoder端的時候進行professor forcing(teacher forcing和self-feed)的對抗。後者進行了cross-align的過程,所以模型也叫做Cross-aligned auto-encoder training。
- Style Transfer in Text: Exploration and Evaluation, Zhenxin Fu from PKU, AAAI-2018
[paper], [code]
總結:這篇文章主要關注點在於如何一個不包含style的content representation。類似於多任務學習,用了一種對抗訓練的方式提取出content representation,再接著提出兩個模型如何基於content representation進行decode。模型一是過兩個decoder,模型二是過將style embedding拼接到content vector上,再過同一個decoder。
- Style Transfer Through Back-Translation. Shrimai Prabhumoye. ACL-2018
[paper]
總結:這篇文章用了一個很巧妙的方法得到了一個不包含style的content vector。作者先把帶style1的句子通過一個預訓練好的英翻法的機器翻譯,得到style1的法語句子,再通過法翻英系統,把encoder端的隱藏層表示拿出來(命名為z)。作者說由於這兩個翻譯系統是在non-style的文本上訓練的,所以z應該是non-style的content表示,從而再根據content的表示z過兩個不同的deocder端,得到不同style的文本。最後,為了確保兩個decoder端的確decode出了不同style的文本,還加了一個分類器一塊兒訓練。用了Gumbel-softmax解決了由於decoder端離散輸出作為分類器輸入的問題。
把style和content 顯式分開,直接刪掉帶有style的詞
- Delete, Retrieve, Generate: A Simple Approach to Sentiment and Style Transfer, Juncen Li, ACL-2018, NAACL-2018
[paper] [code&data]
一作是微信李俊岑。思路是先刪去src句子中的情緒詞,留下content,再根據從語料里Retrieve和src的句子content相似但是sentiment相反的句子,並從中抽取出相反情緒的詞x『,再根據content和x』生成句子。文章提出了多種Generate方式,從簡單的基於模板到RNN。實驗階段也比較詳細,人工為測試集寫了答案,並人工判分(算是包含最多的人工打分paper)
- Unpaired Sentiment-to-Sentiment Translation: A Cycled Reinforcement Learning Approach, Jingjing Xu from PKU, ACL-2018
[paper],[code]
總結:只做文本情緒風格轉換,重點突出在如何「保留content」。不同於其他paper都是重點關注如何建立起一個不包含的style的content表示,這篇文章中心是:先顯式得去掉情緒詞(跟Juncen Li思想相同但方法不同),再用不帶情緒詞的sequence生成目標情緒的文本。由於這兩步中間的信息傳遞是離散的sequence,所以用強化學習去訓練。
其他paper
- Fighting Offensive Language on Social Media with Unsupervised Text Style Transfer, Cicero Nogueira dos Santos, ACL-2018,
[paper]
總結:文本去暴力化。把style1->style2->style1(其中->表示一個encoder-decoder,style1表示暴力文本,style2表示正常文本)。乍一看跟我之前提到的對偶學習(dual-learning)很像,but我覺得文章有一個很重要的bug,那就是銜接style2的sequence是離散的,文中居然沒有提到任何的強化學習orGumbel-softmax來解決這個問題,這樣子後面一個encoder-decoder的梯度根本傳不到前面吧??(難道是ACL短文質量不行?)
- Unsupervised Text Style Transfer using Language Models as Discriminators, Zichao Yang, Arxiv,
[paper]
總結:把傳統的GAN的判別器D從二分類模型改為一個語言模型,給生成器G更多的反饋信息(更好訓練得到一個fluent的句子)。 此外,用了Gumbel-softmax解決G、D之間離散的問題。G是encoder-encoder框架,在encoder後走了一個decoder計算重構誤差,最後將重構誤差和語言模型誤差加起來一起優化G。
- SHAPED: Shared-Private Encoder-Decoder for Text Style Adaptation, NAACL-2018,
[paper]
總結:文本領域風格遷移,用類似於多任務學習的框架做的(分別用shared encoder來建立起兩個領域的公共空間,用兩個private encoder建立領域獨立的空間。decoder端也類似。)新Idea:復旦大學邱錫鵬的關於GAN用在多任務學習,對抗學出private space和share space,從而保證兩個空間不相交。(參考論文Adversarial Multi-task Learning for Text Classification Adversarial Multi-Criteria Learning for Chinese Word Segmentation )。受到這兩篇文章的啟發,我們也可以在領域遷移的shared-encoder和private-encoder之間也加上一個對抗學習,保證學到的shared-encoder真的是不包含private domain信息的表示。
- Toward Controlled Generation of Text, ICML-2017, [paper], [code]
Unpaired Dataset
- Positive<->Negative
情緒風格轉換Yelp Review Dataset (Yelp)[Amazon Review Dataset]
- Gender transfer把帶有性別傾向的句子轉化為另外一個性別傾向的句子,
- Political slanttransfer不同政治黨派說話風格以上兩個都來自:Style Transfer in Text: Exploration and Evaluation, AAAI-2018, [paper], [code&dataset].
Paired (Parallel) Dataset
- Formal <->Informal [dataset]: 正規用語和非正規用語的轉換,注意是pair的!!而且訓練數據很大,有100K [paper]: Dear Sir or Madam, May I introduce the YAFC Corpus: Corpus, Benchmarks and Metrics for Formality Style Transfer, NAACL-HLT 2018
- 莎士比亞風格<->正常文本風格Shakespearizing Modern Language Using Copy-Enriched Sequence to Sequence Models, EMNLP-2017 Workshop, [paper][code&dataset]
Workshop
- Stylistic Variation, EMNLP-2017, [link]
- Stylistic Variation, NAACL-HLT-2018, [link]
推薦閱讀:
※<<Deep Semantic Role Labeling with Self-Attention>>閱讀筆記
※學習筆記CB004:提問、檢索、回答、NLPIR
※基於知識庫的問答:seq2seq模型實踐
※一篇通俗易懂的word2vec