衛視實時收視率對比 | R爬蟲&可視化第1季

作者:徐麟,數據分析師,就職於上海唯品會。熱愛數據挖掘和分析,喜歡用R、Python玩點不一樣的數據。個人公眾號:數據森麟(微信ID:shujusenlin)

前言

幾經思考,終於下定決心開設這個公眾號,希望在這裡與大家分享一些關於數據分析&數據挖掘有意思的事情,如果對於內容有任何的意見或建議,都希望大家在評論中不吝賜教。

言歸正傳,在今後的幾期推送中,會與大家分享一些自己用R語言爬蟲+可視化實現的案例,第一期就從本人最喜歡看的電視說起,分析各省級衛視收視率。

相關Package

數據爬取

實時數據可以在歡娛網(csm-huan.com)中獲得,該網站數據的爬取需要藉助RSelenium包獲得動態頁面,網站的界面如下:

地圖數據讀取、融合

地圖數據的處理需要完成兩部分工作,包括地圖shp文件讀取與收視率數據融合

數據讀取:

收視率數據融合:

數據可視化-全國地圖展示數據

完成了前期數據準備,就要進入到了數據可視化的階段,我們選取了ggplot包進行數據的可視化,並且結合ggthemes包提供的一些不錯的配色方案,提高展示的可讀性。

首先繪製的是全國地圖數據,我們用顏色的深淺表示收視率的高低,分別選取了ggthems包中theme_economist,theme_wsj,theme_map三種配色方案作圖進行對比

附作圖代碼:

數據可視化-分省市對比數據

與上一部分相比,加入了facet_wrap函數,實現了將各個省市輪廓進行切分,並且根據收視率的高低進行排序,提高可讀性,以下分別是上午,下午,晚上三個時段的數據。

我們不難發現,不同收視段的排名靠前節目有明顯不同,上午收看電視的觀眾更加關注股市和民生類節目,下午則更加註重養生,晚上則是娛樂節目的天下,我們可以針對於此進行更加深入的分析。

weixin.qq.com/r/Lkyqssv (二維碼自動識別)


推薦閱讀:

機器學習和數據分析中,R和Python的對比
數據挖掘預備役——前期數據處理(譯)
R語言教程
Rattle:數據挖掘的界面化操作

TAG:R编程语言 | 爬虫 | 可视化 |