像微博這種短文本的分析,用什麼方法提取特徵比較好呢?
01-06
一般是用詞袋模型+隱含主題模型來完成。
在短文本的主題模型有一些研究工作,我沒有全面做過調研,自己了解的包括:
1. KDD 2014上來自Twitter團隊的Large-Scale High-Precision Topic Modeling on Twitter,對Twitter數據上進行主題模型建模做了大量定製化工作。
2. WWW 2008上的Learning to classify short and sparse text web with hidden topics from large-scale data collections,專門研究如何用主題模型幫助解決短文本類分類的稀疏性問題。
3. ECIR 2011上的Comparing twitter and traditional media using topic models提出TwitterLDA,假設每條短文本只屬於一個隱含主題,屬於專門針對短文本隱含主題建模所做的合理性假設。
以上信息僅供參考,希望有用。不說具體任務就談抽feature都是耍流氓
不知道你想分析什麼,就說新浪微博,可以分析的東西太多了,比如分類、聚類,還有人做過微博的情感、地域、性別、傳播等各方面的分析。
另外,看了樓上說的word2vec,貌似一個很不錯的開源工具。針對短文本(NLP)建立特徵向量,然後做數據挖掘,這種事情我就做過,效果還不錯!
補充:之前抓取過自己註冊至今發布的所有微博,統計並提取了top20的關鍵詞,結果還挺有意思的…(當然,我沒有抓取別人的→_→)同意一樓,lad+詞袋模型靠譜
在話題分類上效果不錯
嘗試word2vec,不知道有沒有人將word2vec用於短文本處理上。
推薦閱讀: