第三節:簡單的數據處理和分析(2)
由於平日工作中接觸的數據少,以及接觸的數字都需要保密,所以只能從網上尋找。經過搜尋,最終從國家統計局網站上下載的數據,並經過人為的修改。
課後練習的原表是不同統計時間點上從業人數的狀況
目標值:
一、平均每個單位女性從業人員人數?
二、不同統計時段的女性從業人員合計數(趨勢圖)?
所有代碼:
library(openxlsx)
> readfilepath<-"E:/360data/重要數據/桌面/工作簿1.xlsx"
> data1<-read.xlsx(readfilepath,1)
1.列名重命名> names(data1)<-c("time","unit","single","company","practitioner","female")
2.刪除缺失值
> data1<-data1[!is.na(data1$unit),]
> fix(data1)
3.數據類型轉換
> data1$unit<-as.numeric(data1$unit)
> data1$single<-as.numeric(data1$single)
> data1$company<-as.numeric(data1$company)
> data1$practitioner<-as.numeric(data1$practitioner)
> data1$female<-as.numeric(data1$female)
4.數據排序
> data1<-data1[order(data1$time,decreasing= FALSE),]
> #平均每個單位有多少女性?
> totalunit<-sum(data1$unit,na.rm =TRUE)
> totalunit
[1] 6820597
> totalfemale<-sum(data1$female,na.rm= TRUE)
> totalfemale
[1] 118477400
> average1<-totalfemale%/%totalunit
> average1
[1] 17
> #求趨勢圖
> acc<-tapply(data1$female,data1$time,sum)
> acc<-as.data.frame.table(acc)
> names(acc)<-c("date","female")
> plot(acc$date,acc$female,
+ xlab = "統計時間",
+ ylab="女性從業人數",
+ xaxt="n",
+ main="2015年女性從業人數",
+ col="blue",
+ type="b")
> axis(1,at=acc$date,labels =acc$date,cex.axis=1.5)
推薦閱讀:
※大數據產業即將破萬億之際,浪潮天元數據在全力做一件事
※大數據學習筆記:Hadoop之HDFS(下)
※大數據、沉浸式學習、物聯網……美國教育從業者眼中的2018年七大教育科技趨勢
※為互聯網金融加把鎖?天元數據網用實力說話!
※堆內和堆外
TAG:大數據 |