目前 AI 研究界里「文本風格遷移」有什麼重大成果?
目前自然語言生成(NLG)領域的研究還不太實用,所以希望像人一樣先理解句子,再改寫句子是不太現實的。那麼能否用機器翻譯的方法,不理解句子也能實現句子的轉換?這也是挺有局限的。機器翻譯需要使用使用大量的對齊語料進行監督學習,應該是不會有人專門標註這樣的語料的。不過在某些特定領域,可以通過一些巧妙的數據挖掘方式來獲取語料。例如根據新聞報道自動生成評論或摘要等,這樣的題目現在很多人在做。以前我們組主要是做抽取式的摘要,現在也在嘗試用seq2seq做生成。所以,假如你把新聞語料和新聞評論的關係也當做「風格轉換」的話,那麼答案還是存在的。
針對 @Yun Zhou 的質疑和評論我再補充一下。
1. 「其實由於TACL的存在,搞NLP的不應該受deadline很大影響…」
我們組的確有發表過TACL若干文章。粗略看了一下大概3篇。但是,TACL的審查體驗很糟糕。
舉一個栗子。我們組Karthik同學在2015年,也就是TACL剛推廣不久時投稿了一篇。結果出現了要作者多次發郵件催editor / reviewer給review的情況。整個過程持續了半年。更為可笑的是,EMNLP 2015的投稿日期在提交TACL之後,但TACL的結果在EMNLP出結果之後才拿到。
因此我們組在可以避免的情況下是不會選擇TACL的。
2. 「也不知道對BLEU在自己任務設定下的自信都從哪裡來的 ...... 所以就只算一個BLEU去評價」 「必須有能夠反映內容保留度的指標。」 「以NLP專會的審稿標準來評判,僅這一點已經足夠給拒稿了。」
BLEU score存在缺陷這是同行都了解的事實。但「使用BLEU評測」並不是反映一個工作好與壞的標準。如果是,NLP會議應該拒稿所有機器翻譯和機器摘要的論文。
我相信大部分論文(無論是ML / NLP / CV)的目標並不是為了提出某一評測指標的替代品。實驗任務和評測標準的選擇是為了嘗試客觀的衡量不同模型和方法之間的差距。關於這一點,我們在論文裡面寫的很清楚:
We demonstrate the effectiveness of our method on tasks that permit quantitative evaluation, such as sentiment transfer, word substitution decipherment and word reorder.
也就是說,「是否能夠量化的評估」是我們的第一選擇。
事實上我們也討論過其他任務的可能性,比如唐詩和宋詞之間、絕句和律詩之間的體裁轉換。因為缺乏量化和比較客觀的評估方式,被老闆們否定了。
3. 「誰決定要填文本風格遷移這個大坑,誰就要拿出足夠令人信服的實驗評價方式。 不嚴謹的做法會帶壞很多後來跟進的小朋友們。」
還是之前的話: 機器翻譯、機器摘要 和 對話系統 這些領域都存在「如何正確評估系統」的開放問題,但是這不妨礙研究者對這些領域做出貢獻。這些年很多有建設性的工作,包括一些best paper都是這幾個領域中出來的。
利益相關。寫這些不是為了鼓吹我組、Jonas或者Tianxiao的工作有多少可取之處。包括作者和教授本人都認為工作還有太多不完善的地方 -- 「It is incomplete work」。
作為reviewer也很多次了,我想表達的無非就是一點:
It is easy to criticise and reject other peoples work.
It is hard to appreciate others work.
請保持客觀,同時尊重他人的工作。以上。
-----
反對 @Yun Zhou 的回答。本人是該回答提到的文章的作者之一。所謂「投稿時避開了容易被行家批判一番的NLP專會」 純屬無稽之談。
該回答中提到了兩篇論文。第一篇論文中的理論證明部分已經超出了NLP領域會議的常規審查範圍。文章的作者Jonas和Tommi是machine learning組的成員,該文章投給 ICML 審查都可以被理解為「避開行家審查」 我也是無fua可說了。
關於第二篇的工作我更加要澄清一下。該工作在改進過程中已經錯過了NLP領域今年度最後一個主會EMNLP的deadline,最終選擇投稿給NIPS。與 @Yun Zhou 的說法恰恰相反,文章如果投到NLP反而有很大的把握被accept(老闆原話)。
最後,每一篇文章都是作者(特別是第一作者)的辛勤工作。請尊重他人的工作成果。在不了解事實的情況下,請不要造謠。
-----
個人也不是很認同「目前還沒人找到足以區分文字表達風格和內容語義的數學表達方式」這一說法。就我所知,在圖像領域也並沒有所謂的區分風格(style)和內容(content)的數學表達。
文本遷移確實不像圖像領域那麼火。一部分原因是文本的訓練比圖像困難許多,因為文本是離散數據,不能end-to-end求導並且更新模型參數。
從方法上看,目前圖像和文本遷移都是通過對抗網路(adversarial network)試圖match data distribution。雖然實驗效果看上去都很不錯,但缺少像GAN原文中那樣的理論支持。
個人更期待像GAN或者Wasserstein GAN論文中的理論進展。
推薦閱讀:
※概率圖模型簡單概述
※斯坦福CS224N深度學習自然語言處理(二)
※從CNN視角看在自然語言處理上的應用
※完結篇|一文搞懂k近鄰(k-NN)演算法(二)
※揭開知識庫問答KB-QA的面紗9·動態模型篇