衛視實時收視率對比 | R爬蟲&可視化第1季

01-29

作者：徐麟，數據分析師，就職於上海唯品會。熱愛數據挖掘和分析，喜歡用R、Python玩點不一樣的數據。個人公眾號：數據森麟（微信ID：shujusenlin）

前言

幾經思考，終於下定決心開設這個公眾號，希望在這裡與大家分享一些關於數據分析&數據挖掘有意思的事情，如果對於內容有任何的意見或建議，都希望大家在評論中不吝賜教。

言歸正傳，在今後的幾期推送中，會與大家分享一些自己用R語言爬蟲+可視化實現的案例，第一期就從本人最喜歡看的電視說起，分析各省級衛視收視率。

相關Package

數據爬取

實時數據可以在歡娛網(http://www.csm-huan.com)中獲得，該網站數據的爬取需要藉助RSelenium包獲得動態頁面，網站的界面如下：

地圖數據讀取、融合

地圖數據的處理需要完成兩部分工作，包括地圖shp文件讀取與收視率數據融合

數據讀取：

收視率數據融合：

數據可視化-全國地圖展示數據

完成了前期數據準備，就要進入到了數據可視化的階段，我們選取了ggplot包進行數據的可視化，並且結合ggthemes包提供的一些不錯的配色方案，提高展示的可讀性。

首先繪製的是全國地圖數據，我們用顏色的深淺表示收視率的高低，分別選取了ggthems包中theme_economist,theme_wsj,theme_map三種配色方案作圖進行對比

附作圖代碼：

數據可視化-分省市對比數據

與上一部分相比，加入了facet_wrap函數，實現了將各個省市輪廓進行切分，並且根據收視率的高低進行排序，提高可讀性，以下分別是上午，下午，晚上三個時段的數據。

我們不難發現，不同收視段的排名靠前節目有明顯不同，上午收看電視的觀眾更加關注股市和民生類節目，下午則更加註重養生，晚上則是娛樂節目的天下，我們可以針對於此進行更加深入的分析。

http://weixin.qq.com/r/LkyqssvE25akrY-R9xk8 (二維碼自動識別)

衛視實時收視率對比 | R爬蟲&amp;可視化第1季