標籤:

第三節:簡單的數據處理和分析(2)

由於平日工作中接觸的數據少,以及接觸的數字都需要保密,所以只能從網上尋找。經過搜尋,最終從國家統計局網站上下載的數據,並經過人為的修改。

課後練習的原表是不同統計時間點上從業人數的狀況

目標值:

一、平均每個單位女性從業人員人數?

二、不同統計時段的女性從業人員合計數(趨勢圖)?

所有代碼:

library(openxlsx)

> readfilepath<-"E:/360data/重要數據/桌面/工作簿1.xlsx"

> data1<-read.xlsx(readfilepath,1)

1.列名重命名

> names(data1)<-c("time","unit","single","company","practitioner","female")

2.刪除缺失值

> data1<-data1[!is.na(data1$unit),]

> fix(data1)

3.數據類型轉換

> data1$unit<-as.numeric(data1$unit)

> data1$single<-as.numeric(data1$single)

> data1$company<-as.numeric(data1$company)

> data1$practitioner<-as.numeric(data1$practitioner)

> data1$female<-as.numeric(data1$female)

4.數據排序

> data1<-data1[order(data1$time,decreasing= FALSE),]

> #平均每個單位有多少女性?

> totalunit<-sum(data1$unit,na.rm =TRUE)

> totalunit

[1] 6820597

> totalfemale<-sum(data1$female,na.rm= TRUE)

> totalfemale

[1] 118477400

> average1<-totalfemale%/%totalunit

> average1

[1] 17

> #求趨勢圖

> acc<-tapply(data1$female,data1$time,sum)

> acc<-as.data.frame.table(acc)

> names(acc)<-c("date","female")

> plot(acc$date,acc$female,

+ xlab = "統計時間",

+ ylab="女性從業人數",

+ xaxt="n",

+ main="2015年女性從業人數",

+ col="blue",

+ type="b")

> axis(1,at=acc$date,labels =acc$date,cex.axis=1.5)


推薦閱讀:

大數據產業即將破萬億之際,浪潮天元數據在全力做一件事
大數據學習筆記:Hadoop之HDFS(下)
大數據、沉浸式學習、物聯網……美國教育從業者眼中的2018年七大教育科技趨勢
為互聯網金融加把鎖?天元數據網用實力說話!
堆內和堆外

TAG:大數據 |