第四講 實踐部分 基於溫度對自行車租用量影響的分析
目前共享單車遍地開花,不僅早期的單車公司如摩拜單車、ofo投放數量大大增加,而且大批新的單車公司如榮安行、小鳴單車、優拜單車等跟著加入共享單車市場,共享單車數量使得人們觸手可及,方便了人們的出行。本文簡單粗淺地分析大氣溫度因素對自行車租用量的影響。數據來源於kaggle網站的Bike Sharing Demand。
文章分析使用的數據是train.csv,數據中的元素分別有使用日期、季節、工作日還是休息日、天氣情況、溫度、濕度、風速、租用量。分析步驟如下:
#調用數據讀取包
library(openxlsx)
filepath <- "C:/bikeshare.csv"
#文件為csv格式,一開始錯以為是xlsx,然後查詢csv的讀取格式
bikedata <- read.csv(filepath,sep =",",header = TRUE)
#驗證讀取數據
bikedata
#數據處理部分
#調用數據處理包
library(dplyr)
#選取子集
mybikedata <-select(bikedata,datetime,temp,humidity,count)
#重命名列名
mybikedata <-rename(mybikedata,temperature=temp,total=count)
#刪除缺失數據
mybikedata <-filter(mybikedata,!is.na(temperature),!is.na(humidity),!is.na(total))
#再一次驗證讀取數據
mybikedata
#數學計算部分
#數據分組,一般情況下溫度高時濕度也高,因此對不同濕度進行分組。
mybikedata1 <-group_by(mybikedata,humidity)
#應用函數和組合結果
mybikedata2 <- summarise(mybikedata1,
count=n(),
temp=mean(temperature,na.rm = TRUE),
total=mean(total,na.rm= TRUE))
#移除噪音數據
mybikedata2 <-filter(mybikedata2,count>10)
mybikedata2
#數據顯示部分
#調用數據顯示包
library(ggplot2)
#繪製散點圖
ggplot(data = mybikedata2)+geom_point(mapping= aes(x=temp,y=total))
#繪製散點和平滑曲線圖
ggplot(data =mybikedata2)+geom_point(mapping = aes(x=temp,y=total))+
geom_smooth(mapping = aes(x=temp,y=total))
結果解釋:根據上圖顯示,溫度在17.5~22.5℃之間單車使用數量在150以上,屬於租用自行車最大量使用量的溫度區間,與我們的感受相同,溫度過高和過低都將使得租用自行車數量減少。
推薦閱讀: