[Paper Reading] 基於文檔主題結構的關鍵詞抽取方法研究
01-29
寫在前面:
本文知乎大V清華大學劉知遠博士的博士論文。因為最近有個短線項目涉及到這方面,向大牛學習一下。
簡述:
針對文檔主題結構在關鍵詞抽取中的重要作用,從四個方面提出考慮文檔主題結構的關鍵詞抽取方法:
- 基於文檔內部信息構建主題的關鍵詞抽取。
- 基於隱含主題模型構建主題的關鍵詞抽。
- 綜合利用隱含主題模型和文檔結構的關鍵詞抽取。
- 基於文檔與關鍵詞主題一致性的關鍵詞抽取。
作者:劉知遠
單位:清華大學
關鍵詞:語言網路; 自然語言處理; 關鍵詞抽取; 文檔主題
鏈接:http://nlp.csai.tsinghua.edu.cn/~lzy/publications/phd_thesis.pdf
問題:如何對文檔進行關鍵字主題提取?
主體內容:
(寫來寫去,發現基本主體內容,就是劉博士在回答中提及的。)
一些思考:
1 可見TFIDF+詞性標註基本上可以滿足絕大部分的中文場景下的需求了,再過於追求複雜的演算法意義不大了。
2 我的需求的從更短文本中提取關鍵字,而越是短文本TF越不重要了。IDF是根據具體應用場景的語料庫來的,可針對手中的語料庫自己生成一份。(幸好手中有現成的搜索引擎千億級別的idf詞典,省了不少事。)
3 除了以上幾點,還可以利用手中特有的信息,來進行關鍵詞提取。如點擊日誌。
已知一個用戶的搜索query和在展現了眾多的title中的點擊結果。因此可以訓練出一個輸入為(query,title)的ctr預估模型。這樣的話,可以利用這個模型來計算這個短文本和其中每個分詞的匹配程度,以此來輔助篩選關鍵字。
當然, 這裡還沒有考慮分詞相似詞和向上歸類的問題,不過這個問題應該劃為下一階段問題。先搞定眼下。
最後,感謝劉博士所做的探索和經驗的提供。
推薦閱讀:
※360搜索推廣效果怎麼樣?
※風雲再起!360搜索在資訊端+視頻搜索領域奪魁
※好書一起讀(72):用好搜索引擎
※3個搜索高端技巧,你知道嗎
※使用ElasticSearch搭建動態排序引擎