如何使用「爬蟲/數據挖掘」自動尋找某「話題」的「父話題」?

在網路爬蟲、自然語言處理中,我如何去尋找/定位父話題?

比如一篇文章《無臂考生今年再戰高考》,我如何能定位/找到「無臂」的父話題「殘疾/殘疾人」? 或者說此篇文章的父話題/關鍵詞,如「殘疾人高考」


謝邀,我只是NLP方面的初學者。

首先貼一個乾貨:
Python 網頁爬蟲 文本處理 科學計算 機器學習 數據挖掘兵器譜

然後你的需求轉變為技術性語言就是:如何通過數據挖掘手段給文本打標籤?

可以通過分類和聚類兩方面下手,比如構造一棵話題樹(知乎就有),然後通過一系列的分類演算法來學習文本分類,這樣以後就可以通過分析文本中的特徵來預測類目。

當然在做這件事情之前,還有個大前提是要找一種方法把自然語言符號化

現在工業界玩的比較多的就是來自 Google 專家設計的詞向量模型 word2vec,使用了 deep-learning 技術將 term 表示為向量,由此計算 term 之間的相似度,最終實現對 term 聚類。還有一些高級功能,我本人也還在學習深入階段,暫時還沒接觸到。


推薦閱讀:

推薦系統中的推薦理由實現,有什麼好的思路嗎?
自然語言處理的master和PhD比較是完全沒有優勢嗎?
什麼是Word2Vec模型?它如何實現?
在不考慮語音輸入的前提下,訊飛輸入法和搜狗輸入法哪個更好?

TAG:演算法 | 數據挖掘 | 自然語言處理 | 爬蟲計算機網路 | 大數據 |