大數據分析-R 語言入門(一)
語法規範
- 賦值: <- , ->。
- 對於大小寫敏感。
安裝,使用R
提幾個重點。
- 清空當前所有變數
rm(list=ls())
- 使用幫助文檔
help("topic")
- 安裝包和調用包
install.packages("ggplot2") #安裝ggplot2library("gglot2") #使用包中的函數必須先調用,這裡以調用ggplot2為例
創建數據集
數據類型
- 數據類型與轉換函數
- 判斷數據類型
mode() #數據存儲類型class() #給出的是基於面向對象的R的類型劃分
具體區別參照R語言中,mode(模式)和class(類)有何區別?
Vector, Matrix, Array, Factor, List and Data Frame
用幾個例子來說明這些不同數據集的創建和基礎操作。
#創建各個變數id_v<-1:5name_v<-c("June","Echo","Mark","Rick","April")gender_f<-factor(c(0,0,1,1,0))h_wage_v<-c(13,15.3,14.6,16,13.6)working_h_v<-c(40,38,41,30,40)other<-matrix(1:25,5,5,byrow = T)#創建了dataframeeminfo<-data.frame(id_v,name_v,gender_f,h_wage_v,working_h_v,other)str(eminfo)#先看下創建的dataframe的情況,接下來把name_v改為chr,把gender_f中 0 改為M, 1改為F"data.frame": 5 obs. of 10 variables: $ id_v : int 1 2 3 4 5 $ name_v : Factor w/ 5 levels "April","Echo",..: 3 2 4 5 1 $ gender_f : Factor w/ 2 levels "0","1": 1 1 2 2 1 $ h_wage_v : num 13 15.3 14.6 16 13.6 $ working_h_v: num 40 38 41 30 40 $ X1 : int 1 6 11 16 21 $ X2 : int 2 7 12 17 22 $ X3 : int 3 8 13 18 23 $ X4 : int 4 9 14 19 24 $ X5 : int 5 10 15 20 25eminfo$gender_f<-ifelse(eminfo$gender_f==0, "F","M")eminfo$name_v<-as.character(eminfo$name_v)eminfo#初步整理後的數據變為 id_v name_v gender_f h_wage_v working_h_v X1 X2 X3 X4 X51 1 June F 13.0 40 1 2 3 4 52 2 Echo F 15.3 38 6 7 8 9 103 3 Mark M 14.6 41 11 12 13 14 154 4 Rick M 16.0 30 16 17 18 19 205 5 April F 13.6 40 21 22 23 24 25#想把行號改一下,否則和id_v重名了。然後去掉後面X1-X5的內容row.names(eminfo)<-c(paste0("R",1:5))eminfo2<-eminfo[,1:5]#增加一列計算total wageeminfo2$total_wage<-eminfo2$h_wage_v*eminfo2$working_h_veminfo2#最終數據 id_v name_v gender_f h_wage_v working_h_v total_wageR1 1 June F 13.0 40 520.0R2 2 Echo F 15.3 38 581.4R3 3 Mark M 14.6 41 598.6R4 4 Rick M 16.0 30 480.0R5 5 April F 13.6 40 544.0
總結
通過R語言操作基礎,數據類型和創建方法後對如何用R進行數據的處理有了一個最基本的了解。在數據分析的路上還有很多東西需要繼續學習。與大家共同進步。
推薦閱讀:
※R數據處理|基礎篇(二)
※R Markdown 簡介
※【乾貨收藏】Python面試指南大全
※《利用數據改進醫療質量指南》