僅用四行代碼就可以挖掘你的QQ聊天記錄

作者:王亨 ,R語言中文社區專欄作者,跟著菜鳥一起一步步學習R語言,爭做R語言高手。

個人公眾號:跟著菜鳥一起學R語言(微信ID:learn_R)

出處:僅用四行代碼就可以挖掘你的QQ聊天記錄

QQmining,這是我第一次嘗試寫的R包,由於還存在著一些警告問題,所以還無法從github上面進行安裝,但是可以本地進行安裝。如果要訪問我的github,請點擊hellowangheng/QQmining。對應包下載地址: QQmining:鏈接:

pan.baidu.com/s/1kVyW8P 密碼:yrcq

作用:分析挖掘QQ群聊天記錄,讀入文件為txt格式。

使用方法:下載之後,複製到library文件夾中即可。注意這個包依賴以下幾個包:rJava,Rwordseg,dplyr,wordcloud2,ggplot2

這個包僅供嘗鮮使用,可能還存在許多問題,還望見諒。

不過這個包是我在R 3.3.2版本開發的,盡量在3.3.2版本或更新的版本上面使用。

現在來對這個包進行一個簡單介紹。

首先這個包依賴以下五個包,分別為:

rJavaRwordsegdplyrwordcloud2ggplot2

因此你在使用這個包的時候一定要確保已經裝了這五個包。將QQmining包下載之後直接複製到library文件夾裡面即可直接載入使用。

QQmining這個包有四個函數,作用分別如下:

如果你也可以查看幫助文檔,比如查看topic()函數,既可以輸入指令

?topicn

就可以查看,不過由於時間上的關係,幫助文件寫的比較簡單粗糙,還存在許多問題,用的時候希望大家不要太在意細節(偷笑)。

那麼我們現在就用四行代碼來分析一個QQ群的聊天記錄吧!

qqdata<-dataprocess ("C:/Users/henry wang/Desktop/",n "數據分析師之家.txt")n

topic(qqdata)n

結果如下:

因為我們沒有刪除停用詞,所以說效果不是很好。

timepoint(qqdata)n

結果如下:

speaker(qqdata)n結果如下:speaker(qqdata)n

好了,我們用了4行代碼就輕輕鬆鬆的分析了一份QQ聊天記錄,是不是很簡單。但是這個包對以下情況可能會出現一些錯誤

原因:如果存在語音聊天記錄,在導出的.TXT文件裡面是空白的一行。在刪除NA之後無法合併在一個數據框裡面。如下圖:

原因:speaker()函數分析活躍成員時,用戶名作為一個坐標軸的屬性,ggplot函數無法識別一些特殊字元則報錯。如下圖:

總結

一方面,這個包是我做的第一個包,也許還存在著一些bug,如果遇到了歡迎告訴我;另外一方面,這個包功能還太簡單,每一個函數也只有一到兩個參數,對於輸出結果也太單一。在後期我也會繼續對這個包進行更新和完善,讓每一個函數包含更多的參數,不斷豐富每一個函數的功能。謝謝大家的支持

官方公眾號:R語言中文社區 (ID:R_shequ) 歡迎關注,持續連載。
推薦閱讀:

數據分析利器之dplyr、ggplot2包
Learn R | 字元串處理之stringr包(上)
【譯文】用R語言做網頁爬蟲和文本分析-Part2
R 學習筆記: Par 函數
【R語言基礎】02. 基本數據結構

TAG:R编程语言 | 数据挖掘 |