第四講 實踐部分 基於溫度對自行車租用量影響的分析

目前共享單車遍地開花,不僅早期的單車公司如摩拜單車、ofo投放數量大大增加,而且大批新的單車公司如榮安行、小鳴單車、優拜單車等跟著加入共享單車市場,共享單車數量使得人們觸手可及,方便了人們的出行。本文簡單粗淺地分析大氣溫度因素對自行車租用量的影響。數據來源於kaggle網站的Bike Sharing Demand。

文章分析使用的數據是train.csv,數據中的元素分別有使用日期、季節、工作日還是休息日、天氣情況、溫度、濕度、風速、租用量。

分析步驟如下:

#調用數據讀取包

library(openxlsx)

filepath <- "C:/bikeshare.csv"

#文件為csv格式,一開始錯以為是xlsx,然後查詢csv的讀取格式

bikedata <- read.csv(filepath,sep =",",header = TRUE)

#驗證讀取數據

bikedata

#數據處理部分

#調用數據處理包

library(dplyr)

#選取子集

mybikedata <-select(bikedata,datetime,temp,humidity,count)

#重命名列名

mybikedata <-rename(mybikedata,temperature=temp,total=count)

#刪除缺失數據

mybikedata <-filter(mybikedata,!is.na(temperature),!is.na(humidity),!is.na(total))

#再一次驗證讀取數據

mybikedata

#數學計算部分

#數據分組,一般情況下溫度高時濕度也高,因此對不同濕度進行分組。

mybikedata1 <-group_by(mybikedata,humidity)

#應用函數和組合結果

mybikedata2 <- summarise(mybikedata1,

count=n(),

temp=mean(temperature,na.rm = TRUE),

total=mean(total,na.rm= TRUE))

#移除噪音數據

mybikedata2 <-filter(mybikedata2,count>10)

mybikedata2

#數據顯示部分

#調用數據顯示包

library(ggplot2)

#繪製散點圖

ggplot(data = mybikedata2)+geom_point(mapping= aes(x=temp,y=total))

#繪製散點和平滑曲線圖

ggplot(data =mybikedata2)+geom_point(mapping = aes(x=temp,y=total))+

geom_smooth(mapping = aes(x=temp,y=total))

結果解釋:根據上圖顯示,溫度在17.5~22.5℃之間單車使用數量在150以上,屬於租用自行車最大量使用量的溫度區間,與我們的感受相同,溫度過高和過低都將使得租用自行車數量減少。


推薦閱讀:

信息設計圖表

TAG:R编程语言 | 数据分析 |