學習文本挖掘,如何入門?

第一次提問,希望有人回答,嘿嘿。

本人一直從事數據分析和挖掘相關的工作,現在想學一下文本挖掘,語義分析這一塊。我目前的狀況是,統計學背景,平時寫sql取數,然後用sas做一些分析,跑模型的話用clementine。我想知道:

1.學這一塊的話需要涉及哪些知識

2.有哪些比較好的書可以參考

3.是不是需要學一門語言,感覺sas好像不是很支持這一塊,R會不會好一些,還是需要JAVA、Python這種,還是悲催的C++

由於不是很了解,暫時就問這3點了。希望有人回答~~謝謝啦~~


課程:https://class.coursera.org/nlangp-001/class/index

書:信息檢索導論=Introduction to information retrieval/(美)曼寧(Christopher D. Manning),(美)Prabhakar Raghavan, (德)Hinrich Schutze著;王斌譯.—北京:人民郵電出版社,2010

我用Java


這本綜述不錯,很全面http://www.amazon.com/Mining-Text-Data-Charu-Aggarwal/dp/1461432227/ref=sr_1_1?ie=UTF8qid=1435160429sr=8-1keywords=mining+text+data

作者的Coursera的課程https://class.coursera.org/textanalytics-001


我們學校用的是SPSS Modler, 專業版自帶text mining。 這個幾乎不需要懂編程語言,教材就是IBM自己的pdf版本user guide。搜索:ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/15.0/en/Users_Guide_For_Text_Analytics.pdf


sas miner (eg)


推薦閱讀:

構建用於文本聚類的空間向量模型時,應該如何作特徵選擇?
數據特徵的歸一化,是對整個矩陣還是對每一維特徵?
中文情感分析 (Sentiment Analysis) 的難點在哪?現在做得比較好的有哪幾家?
文本情感分析有什麼好資料、網站、工具推薦呢?
Tagxedo個性化詞雲的繪圖思路是什麼?

TAG:學習 | 數據挖掘 | 數據分析 | 文本挖掘 | 專業書籍推薦 |