如何使用「爬蟲/數據挖掘」自動尋找某「話題」的「父話題」?
12-28
在網路爬蟲、自然語言處理中,我如何去尋找/定位父話題?
比如一篇文章《無臂考生今年再戰高考》,我如何能定位/找到「無臂」的父話題「殘疾/殘疾人」? 或者說此篇文章的父話題/關鍵詞,如「殘疾人高考」
謝邀,我只是NLP方面的初學者。
首先貼一個乾貨:
Python 網頁爬蟲 文本處理 科學計算 機器學習 數據挖掘兵器譜
然後你的需求轉變為技術性語言就是:如何通過數據挖掘手段給文本打標籤?
可以通過分類和聚類兩方面下手,比如構造一棵話題樹(知乎就有),然後通過一系列的分類演算法來學習文本分類,這樣以後就可以通過分析文本中的特徵來預測類目。
當然在做這件事情之前,還有個大前提是要找一種方法把自然語言符號化。
現在工業界玩的比較多的就是來自 Google 專家設計的詞向量模型 word2vec,使用了 deep-learning 技術將 term 表示為向量,由此計算 term 之間的相似度,最終實現對 term 聚類。還有一些高級功能,我本人也還在學習深入階段,暫時還沒接觸到。
推薦閱讀:
※推薦系統中的推薦理由實現,有什麼好的思路嗎?
※自然語言處理的master和PhD比較是完全沒有優勢嗎?
※什麼是Word2Vec模型?它如何實現?
※在不考慮語音輸入的前提下,訊飛輸入法和搜狗輸入法哪個更好?