衛視實時收視率對比 | R爬蟲&可視化第1季
作者:徐麟,數據分析師,就職於上海唯品會。熱愛數據挖掘和分析,喜歡用R、Python玩點不一樣的數據。個人公眾號:數據森麟(微信ID:shujusenlin)
前言
幾經思考,終於下定決心開設這個公眾號,希望在這裡與大家分享一些關於數據分析&數據挖掘有意思的事情,如果對於內容有任何的意見或建議,都希望大家在評論中不吝賜教。
言歸正傳,在今後的幾期推送中,會與大家分享一些自己用R語言爬蟲+可視化實現的案例,第一期就從本人最喜歡看的電視說起,分析各省級衛視收視率。
相關Package
數據爬取
實時數據可以在歡娛網(http://www.csm-huan.com)中獲得,該網站數據的爬取需要藉助RSelenium包獲得動態頁面,網站的界面如下:
地圖數據讀取、融合
地圖數據的處理需要完成兩部分工作,包括地圖shp文件讀取與收視率數據融合
數據讀取:
收視率數據融合:
數據可視化-全國地圖展示數據
完成了前期數據準備,就要進入到了數據可視化的階段,我們選取了ggplot包進行數據的可視化,並且結合ggthemes包提供的一些不錯的配色方案,提高展示的可讀性。
首先繪製的是全國地圖數據,我們用顏色的深淺表示收視率的高低,分別選取了ggthems包中theme_economist,theme_wsj,theme_map三種配色方案作圖進行對比
附作圖代碼:
數據可視化-分省市對比數據
與上一部分相比,加入了facet_wrap函數,實現了將各個省市輪廓進行切分,並且根據收視率的高低進行排序,提高可讀性,以下分別是上午,下午,晚上三個時段的數據。
我們不難發現,不同收視段的排名靠前節目有明顯不同,上午收看電視的觀眾更加關注股市和民生類節目,下午則更加註重養生,晚上則是娛樂節目的天下,我們可以針對於此進行更加深入的分析。
http://weixin.qq.com/r/LkyqssvE25akrY-R9xk8 (二維碼自動識別)
推薦閱讀:
※機器學習和數據分析中,R和Python的對比
※數據挖掘預備役——前期數據處理(譯)
※R語言教程
※Rattle:數據挖掘的界面化操作