情感分析——R語言批量導入網友評論

封面圖片來源:n.sinaimg.cn/translate/

背景介紹

我們拿到了一個關於酒店評論的語料庫,我們希望用這個語料庫進行情緒識別的練習,本文是情緒分析的第一步,要把讀取已經做好標註的網友評論,但是這裡困難的是每個評論單獨是一個txt,那麼我們應該如何做呢?

文件長成這個樣子,一共有3000個,neg表示負面情緒樣本。

我們的思路

單個文件讀取+lapply批量處理。為什麼不用for循環?答案只有一個:太慢了!

下面是操作代碼

library(data.table)n#文件路徑npath<-D:Rtest批量讀取txt文本negn#讀取到路徑ntxts<-dir(path)n#自定義讀取文本函數nget.comment<-function(x){n comment<-readLines(x)n #這裡建議用paste,因為網友評論有的時候會有很多段落,用了paste之後就默認每個評論為一個段落。n return(paste(comment,collapse = ))n}n#用lapply批量讀取,注意lapply返回的是list格式ncomment<-lapply(txts,function(p) get.comment(paste(path,p,sep = )))n#轉data.table格式ncomment=as.data.table(unlist(comment))nclass(comment)n#命名,並生成建模需要的格式ncolnames(comment)=c(comment)ncomment$sent=rep(0,nrow(comment))n

處理完的結果

這裡的sent=0表示負面情緒。

結束語

數據分析就是這樣,學會把大任務拆解成小任務,不積跬步無以至千里。

推薦閱讀:

大數據輿情情感分析,如何提取情感並使用什麼樣的工具?(貼情感標籤)

TAG:R编程语言 | 中文情感分析 | 数据分析 |