學習文本挖掘,如何入門?
01-08
第一次提問,希望有人回答,嘿嘿。
本人一直從事數據分析和挖掘相關的工作,現在想學一下文本挖掘,語義分析這一塊。我目前的狀況是,統計學背景,平時寫sql取數,然後用sas做一些分析,跑模型的話用clementine。我想知道:1.學這一塊的話需要涉及哪些知識2.有哪些比較好的書可以參考
3.是不是需要學一門語言,感覺sas好像不是很支持這一塊,R會不會好一些,還是需要JAVA、Python這種,還是悲催的C++由於不是很了解,暫時就問這3點了。希望有人回答~~謝謝啦~~
課程:https://class.coursera.org/nlangp-001/class/index
書:信息檢索導論=Introduction to information retrieval/(美)曼寧(Christopher D. Manning),(美)Prabhakar Raghavan, (德)Hinrich Schutze著;王斌譯.—北京:人民郵電出版社,2010
我用Java這本綜述不錯,很全面http://www.amazon.com/Mining-Text-Data-Charu-Aggarwal/dp/1461432227/ref=sr_1_1?ie=UTF8qid=1435160429sr=8-1keywords=mining+text+data作者的Coursera的課程https://class.coursera.org/textanalytics-001
我們學校用的是SPSS Modler, 專業版自帶text mining。 這個幾乎不需要懂編程語言,教材就是IBM自己的pdf版本user guide。搜索:ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/15.0/en/Users_Guide_For_Text_Analytics.pdf
sas miner (eg)
推薦閱讀:
※構建用於文本聚類的空間向量模型時,應該如何作特徵選擇?
※數據特徵的歸一化,是對整個矩陣還是對每一維特徵?
※中文情感分析 (Sentiment Analysis) 的難點在哪?現在做得比較好的有哪幾家?
※文本情感分析有什麼好資料、網站、工具推薦呢?
※Tagxedo個性化詞雲的繪圖思路是什麼?