[Paper Reading] 基於文檔主題結構的關鍵詞抽取方法研究

寫在前面:

本文知乎大V清華大學劉知遠博士的博士論文。因為最近有個短線項目涉及到這方面,向大牛學習一下。

簡述

針對文檔主題結構在關鍵詞抽取中的重要作用,從四個方面提出考慮文檔主題結構的關鍵詞抽取方法:

  1. 基於文檔內部信息構建主題的關鍵詞抽取。
  2. 基於隱含主題模型構建主題的關鍵詞抽。
  3. 綜合利用隱含主題模型和文檔結構的關鍵詞抽取。
  4. 基於文檔與關鍵詞主題一致性的關鍵詞抽取。

作者:劉知遠

單位:清華大學

關鍵詞:語言網路; 自然語言處理; 關鍵詞抽取; 文檔主題

鏈接nlp.csai.tsinghua.edu.cn

問題:如何對文檔進行關鍵字主題提取?

主體內容

(寫來寫去,發現基本主體內容,就是劉博士在回答中提及的。)

一些思考:

1 可見TFIDF+詞性標註基本上可以滿足絕大部分的中文場景下的需求了,再過於追求複雜的演算法意義不大了。

2 我的需求的從更短文本中提取關鍵字,而越是短文本TF越不重要了。IDF是根據具體應用場景的語料庫來的,可針對手中的語料庫自己生成一份。(幸好手中有現成的搜索引擎千億級別的idf詞典,省了不少事。)

3 除了以上幾點,還可以利用手中特有的信息,來進行關鍵詞提取。如點擊日誌。

已知一個用戶的搜索query和在展現了眾多的title中的點擊結果。因此可以訓練出一個輸入為(query,title)的ctr預估模型。這樣的話,可以利用這個模型來計算這個短文本和其中每個分詞的匹配程度,以此來輔助篩選關鍵字。

當然, 這裡還沒有考慮分詞相似詞和向上歸類的問題,不過這個問題應該劃為下一階段問題。先搞定眼下。

最後,感謝劉博士所做的探索和經驗的提供。

推薦閱讀:

360搜索推廣效果怎麼樣?
風雲再起!360搜索在資訊端+視頻搜索領域奪魁
好書一起讀(72):用好搜索引擎
3個搜索高端技巧,你知道嗎
使用ElasticSearch搭建動態排序引擎

TAG:自然语言处理 | 搜索引擎 |