僅用四行代碼就可以挖掘你的QQ聊天記錄
作者:王亨 ,R語言中文社區專欄作者,跟著菜鳥一起一步步學習R語言,爭做R語言高手。
個人公眾號:跟著菜鳥一起學R語言(微信ID:learn_R) 出處:僅用四行代碼就可以挖掘你的QQ聊天記錄
QQmining,這是我第一次嘗試寫的R包,由於還存在著一些警告問題,所以還無法從github上面進行安裝,但是可以本地進行安裝。如果要訪問我的github,請點擊hellowangheng/QQmining。對應包下載地址: QQmining:鏈接:
http://pan.baidu.com/s/1kVyW8PT 密碼:yrcq作用:分析挖掘QQ群聊天記錄,讀入文件為txt格式。使用方法:下載之後,複製到library文件夾中即可。注意這個包依賴以下幾個包:rJava,Rwordseg,dplyr,wordcloud2,ggplot2這個包僅供嘗鮮使用,可能還存在許多問題,還望見諒。
不過這個包是我在R 3.3.2版本開發的,盡量在3.3.2版本或更新的版本上面使用。
現在來對這個包進行一個簡單介紹。
首先這個包依賴以下五個包,分別為:
rJava,Rwordseg,dplyr,wordcloud2,ggplot2
因此你在使用這個包的時候一定要確保已經裝了這五個包。將QQmining包下載之後直接複製到library文件夾裡面即可直接載入使用。
QQmining這個包有四個函數,作用分別如下:
如果你也可以查看幫助文檔,比如查看topic()函數,既可以輸入指令
?topicn
就可以查看,不過由於時間上的關係,幫助文件寫的比較簡單粗糙,還存在許多問題,用的時候希望大家不要太在意細節(偷笑)。
那麼我們現在就用四行代碼來分析一個QQ群的聊天記錄吧!
qqdata<-dataprocess ("C:/Users/henry wang/Desktop/",n "數據分析師之家.txt")n
topic(qqdata)n
結果如下:
因為我們沒有刪除停用詞,所以說效果不是很好。
timepoint(qqdata)n
結果如下:
speaker(qqdata)n結果如下:speaker(qqdata)n
好了,我們用了4行代碼就輕輕鬆鬆的分析了一份QQ聊天記錄,是不是很簡單。但是這個包對以下情況可能會出現一些錯誤
原因:如果存在語音聊天記錄,在導出的.TXT文件裡面是空白的一行。在刪除NA之後無法合併在一個數據框裡面。如下圖:
原因:speaker()函數分析活躍成員時,用戶名作為一個坐標軸的屬性,ggplot函數無法識別一些特殊字元則報錯。如下圖:總結
一方面,這個包是我做的第一個包,也許還存在著一些bug,如果遇到了歡迎告訴我;另外一方面,這個包功能還太簡單,每一個函數也只有一到兩個參數,對於輸出結果也太單一。在後期我也會繼續對這個包進行更新和完善,讓每一個函數包含更多的參數,不斷豐富每一個函數的功能。謝謝大家的支持。
官方公眾號:R語言中文社區 (ID:R_shequ) 歡迎關注,持續連載。推薦閱讀:
※數據分析利器之dplyr、ggplot2包
※Learn R | 字元串處理之stringr包(上)
※【譯文】用R語言做網頁爬蟲和文本分析-Part2
※R 學習筆記: Par 函數
※【R語言基礎】02. 基本數據結構