[Paper Reading] 基於文檔主題結構的關鍵詞抽取方法研究

01-29

寫在前面：

本文知乎大V清華大學劉知遠博士的博士論文。因為最近有個短線項目涉及到這方面，向大牛學習一下。

針對文檔主題結構在關鍵詞抽取中的重要作用，從四個方面提出考慮文檔主題結構的關鍵詞抽取方法：

作者：劉知遠

單位：清華大學

關鍵詞：語言網路；自然語言處理；關鍵詞抽取；文檔主題

鏈接：http://nlp.csai.tsinghua.edu.cn/~lzy/publications/phd_thesis.pdf

問題：如何對文檔進行關鍵字主題提取？

（寫來寫去，發現基本主體內容，就是劉博士在回答中提及的。）

1 可見TFIDF+詞性標註基本上可以滿足絕大部分的中文場景下的需求了，再過於追求複雜的演算法意義不大了。

2 我的需求的從更短文本中提取關鍵字，而越是短文本TF越不重要了。IDF是根據具體應用場景的語料庫來的，可針對手中的語料庫自己生成一份。（幸好手中有現成的搜索引擎千億級別的idf詞典，省了不少事。）

3 除了以上幾點，還可以利用手中特有的信息，來進行關鍵詞提取。如點擊日誌。

已知一個用戶的搜索query和在展現了眾多的title中的點擊結果。因此可以訓練出一個輸入為(query,title)的ctr預估模型。這樣的話，可以利用這個模型來計算這個短文本和其中每個分詞的匹配程度，以此來輔助篩選關鍵字。

當然，這裡還沒有考慮分詞相似詞和向上歸類的問題，不過這個問題應該劃為下一階段問題。先搞定眼下。

最後，感謝劉博士所做的探索和經驗的提供。