像微博這種短文本的分析,用什麼方法提取特徵比較好呢?


一般是用詞袋模型+隱含主題模型來完成。

在短文本的主題模型有一些研究工作,我沒有全面做過調研,自己了解的包括:

1. KDD 2014上來自Twitter團隊的Large-Scale High-Precision Topic Modeling on Twitter,對Twitter數據上進行主題模型建模做了大量定製化工作。

2. WWW 2008上的Learning to classify short and sparse text web with hidden topics from large-scale data collections,專門研究如何用主題模型幫助解決短文本類分類的稀疏性問題。

3. ECIR 2011上的Comparing twitter and traditional media using topic models提出TwitterLDA,假設每條短文本只屬於一個隱含主題,屬於專門針對短文本隱含主題建模所做的合理性假設。

以上信息僅供參考,希望有用。


不說具體任務就談抽feature都是耍流氓


不知道你想分析什麼,就說新浪微博,可以分析的東西太多了,比如分類、聚類,還有人做過微博的情感、地域、性別、傳播等各方面的分析。

另外,看了樓上說的word2vec,貌似一個很不錯的開源工具。針對短文本(NLP)建立特徵向量,然後做數據挖掘,這種事情我就做過,效果還不錯!

補充:之前抓取過自己註冊至今發布的所有微博,統計並提取了top20的關鍵詞,結果還挺有意思的…(當然,我沒有抓取別人的→_→)


同意一樓,lad+詞袋模型靠譜

在話題分類上效果不錯


嘗試word2vec,不知道有沒有人將word2vec用於短文本處理上。


推薦閱讀:

有哪些利用高維空間及特性解決低維空間的問題的方法和例子?

TAG:微博 | 文本挖掘 | 聚類 | 特徵提取 |