如何使用「爬蟲/數據挖掘」自動尋找某「話題」的「父話題」？

12-28

在網路爬蟲、自然語言處理中，我如何去尋找/定位父話題？

比如一篇文章《無臂考生今年再戰高考》，我如何能定位/找到「無臂」的父話題「殘疾/殘疾人」？或者說此篇文章的父話題/關鍵詞，如「殘疾人高考」

謝邀，我只是NLP方面的初學者。

首先貼一個乾貨：
Python 網頁爬蟲文本處理科學計算機器學習數據挖掘兵器譜

然後你的需求轉變為技術性語言就是：如何通過數據挖掘手段給文本打標籤？

可以通過分類和聚類兩方面下手，比如構造一棵話題樹（知乎就有），然後通過一系列的分類演算法來學習文本分類，這樣以後就可以通過分析文本中的特徵來預測類目。

當然在做這件事情之前，還有個大前提是要找一種方法把自然語言符號化。

現在工業界玩的比較多的就是來自 Google 專家設計的詞向量模型 word2vec，使用了 deep-learning 技術將 term 表示為向量，由此計算 term 之間的相似度，最終實現對 term 聚類。還有一些高級功能，我本人也還在學習深入階段，暫時還沒接觸到。