機器給你劃重點,聽說很靠譜哦!—生成式關鍵短語識別 | 論文訪談間 #16

「論文訪談間」是由 PaperWeekly 和中國中文信息學會青工委聯合發起的論文報道欄目,旨在讓國內優質論文得到更多關注和認可。

論文作者 | Rui Meng, Sanqiang Zhao, Daqing He, Peter Brusilovsky, Yu Chi(匹茲堡大學)

特約記者 | 鍾世敏(西華大學)

關鍵短語(關鍵詞)是對一段長文本內容的高度摘要,往往只包含若干個詞語。關鍵短語識別廣泛的應用於信息檢索,文本摘要,文本分類,觀點挖掘等任務中。例如:信息檢索任務中,需要提取搜索語句中的關鍵短語,再根據關鍵詞及其擴展辭彙進行檢索。而在觀點挖掘任務中往往需要發掘評論語句中的有用信息,簡短精要的關鍵短語則能有效的概括文本中所隱藏的重點信息。

傳統的關鍵短語提取演算法一般分為以下兩步:

Step1: 首先得到一個候選關鍵短語列表。通常使用 n-grams 或者名詞短語(通過 POS tagging+正則表達式匹配得到)作為候選短語。

Step2: 計算每一個候選短語的重要度得分並取得分較高的候選短語作為關鍵短語。其中重要度的計算通常採用人工構造的特徵結合有監督或者無監督的機器學習方法。

而以上關鍵詞提取方法往往存在 2 個重要問題,首先這種方法只能從原文中「挑詞」,不能提取出那些沒有完整的出現在源文本中的短語(absent keyphrase),因此許多關鍵詞的同義或者近義表達都無法召回。

下表給出了在四個公開數據集中 present keyphrase 與 absent keyphrase 出現的比例,可以看出 absent keyphrase 在真實數據中是十分常見的。

其次在使用機器學習演算法對關鍵短語進行重要度打分排序時,普通的基於統計的特徵(比如 TF-IDF)並不能有效的反映文本的語義信息。

ACL 2017 的文章——Deep Keyphrase Generation 提出了結合複製機制(copying mechanism)的 RNN 關鍵短語生成模型一定程度上解決了這些問題,模型分別在 6 個數據集上均取得了很好的效果。

接下來我們來看一下這篇文章的思路和模型框架。

不同於先前的抽取式方法,這篇文章將關鍵詞識別定義為一個生成式問題,即在輸出時將每一個關鍵短語也看做一個詞序列(sequence of words), 一個詞一個詞的生成。而sequence-to-sequence(seq2seq)learning正適合解決這樣的端到端的學習。

目前seq2seq只適用於單一序列到單一序列的學習,然而一段文本中會有好多個關鍵短語,因此在預處理過程中需要先將一個一對多的數據轉化成多個一對一數據。

模型採用了典型的 encoder-decoder 框架:

? Encoder(a bidirectional RNN):用 RNN 將源文本的語義信息壓縮為一個 hidden vector,其中也使用了注意力機制。

? Decoder(a forward RNN):將 hidden vector 解壓縮成關鍵序列,具體就是通過 beam search 生成一系列的關鍵詞短語。不同於一般 seq2seq 應用中只關心一個得分最高的序列,這裡在搜索過程中需要將得分最高的 k 個序列都保存下來。

以上就是 seq2seq 模型的基本構造。在一般的 RNN 模型中,為了控制參數數量以及保證詞向量質量,通常只會考慮在數據中出現頻率較高的詞,將大量的長尾詞替換為 unknown。因此很多重要的低頻辭彙並不會出現在詞典中,模型也就不能生成包含這些詞的序列。為了解決此問題作者引入了與注意力機制相類似的複製機制:

? Copying Mechanism

在 RNN 之外引入一個 pointer network,去計算原文本中的每一個詞應該被 copy 到輸出的概率。在加入 copying mechanism 之後,每一個預測詞 yt 的概率由兩部分來決定,一部分是通過原模型框架 decoder 部分得到的預測詞yt的生成概率,另一部分是從源文本中複製這個詞的概率。

詳情請參考 Jiatao Gu 的 Incorporating Copying Mechanism in Sequence-to-Sequence Learning

實驗部分,作者在大規模學術論文數據(已公開)上進行訓練,分別在三個不同的任務上對模型(RNN,CopyRNN)做了評估:

? Predicting Present Keyphrase

為了與先前的抽取演算法比較,限定 RNN 只輸出在原文本中出現的關鍵短語(present keyphrase)。CopyRNN 大幅度優於 baselines 和 RNN 模型,表明拷貝機制在從原文中「抽取」關鍵辭彙時起到了關鍵作用。

? Predicting Absent Keyphrase

這個實驗是看兩個模型是否能夠有效的「猜到」那些在原文中沒有出現的關鍵短語。這裡我們看到兩個模型的性能差距小於上一個實驗,但拷貝機制仍然有所貢獻,可能是由於 absent Keyphrase 中的個別詞也會出現在原文本中,拷貝機制可以作為額外的注意力增強這些詞被預測的概率。

? Transferring the Model to News Domain

最後,由於本文模型都只是在學術文本上訓練的,這裡作者希望知道換到其他領域的文本(新聞,評論等)上模型是否還能很好的識別關鍵詞。在新聞數據 DUC2001 上的實驗結果顯示 CopyRNN 在完全陌生的語料上仍能鎖定部分關鍵詞,其中包含許多人名地名等生僻辭彙:

對話作者

很久之前就關注過關鍵詞識別問題(一直做 Information Science,所以經常接觸學術數據),但一直沒有想到好的方法去改進。直到 15 年看到 FAIR 的那篇 Abstractive Sentence Summarization,意識到關鍵詞其實也是一個個短摘要,也許也能夠通過類似的生成式方法去實現。

然後就開始漫長的抓數據、做實驗、寫paper的過程。在做了半年多後才第一次看到相對靠譜的輸出結果,在這之前對於這個方法是不是走得通其實是完全沒有底氣。最後結果還不錯,更開心的是在做的過程中學習到了很多,希望這個故事能給科研同僚們一絲激勵。

最後關於關鍵短語識別這個任務,感覺可以提升的空間還很大(F-score 最高還不到 0.35),也有非常多的問題和應用等待解決,希望有興趣的童鞋可以一起行動起來。

歡迎點擊查看論文:Deep Keyphrase Generation

關於中國中文信息學會青工委

中國中文信息學會青年工作委員會是中國中文信息學會的下屬學術組織,專門面向全國中文信息處理領域的青年學者和學生開展工作。

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

微信公眾號:PaperWeekly

新浪微博:@PaperWeekly

推薦閱讀:

TAG:自动生成 | 机器学习 |