大數據分析-R 語言入門(一)

學習R語言第一周,了解了R的安裝,語法,包的使用以及多種數據結構。以寫文章的機會重新複習下,並強調下我認為重要的點。新手入門,有錯誤的地方敬請指正。

語法規範

  • 賦值: <- , ->。
  • 對於大小寫敏感。

安裝,使用R

提幾個重點

  • 清空當前所有變數

rm(list=ls())

  • 使用幫助文檔

help("topic")

  • 安裝包和調用包

install.packages("ggplot2") #安裝ggplot2library("gglot2") #使用包中的函數必須先調用,這裡以調用ggplot2為例

創建數據集

數據類型

  • 數據類型與轉換函數

  • 判斷數據類型

mode() #數據存儲類型class() #給出的是基於面向對象的R的類型劃分

具體區別參照R語言中,mode(模式)和class(類)有何區別?

Vector, Matrix, Array, Factor, List and Data Frame

用幾個例子來說明這些不同數據集的創建和基礎操作。

#創建各個變數id_v<-1:5name_v<-c("June","Echo","Mark","Rick","April")gender_f<-factor(c(0,0,1,1,0))h_wage_v<-c(13,15.3,14.6,16,13.6)working_h_v<-c(40,38,41,30,40)other<-matrix(1:25,5,5,byrow = T)#創建了dataframeeminfo<-data.frame(id_v,name_v,gender_f,h_wage_v,working_h_v,other)str(eminfo)#先看下創建的dataframe的情況,接下來把name_v改為chr,把gender_f中 0 改為M, 1改為F"data.frame": 5 obs. of 10 variables: $ id_v : int 1 2 3 4 5 $ name_v : Factor w/ 5 levels "April","Echo",..: 3 2 4 5 1 $ gender_f : Factor w/ 2 levels "0","1": 1 1 2 2 1 $ h_wage_v : num 13 15.3 14.6 16 13.6 $ working_h_v: num 40 38 41 30 40 $ X1 : int 1 6 11 16 21 $ X2 : int 2 7 12 17 22 $ X3 : int 3 8 13 18 23 $ X4 : int 4 9 14 19 24 $ X5 : int 5 10 15 20 25eminfo$gender_f<-ifelse(eminfo$gender_f==0, "F","M")eminfo$name_v<-as.character(eminfo$name_v)eminfo#初步整理後的數據變為 id_v name_v gender_f h_wage_v working_h_v X1 X2 X3 X4 X51 1 June F 13.0 40 1 2 3 4 52 2 Echo F 15.3 38 6 7 8 9 103 3 Mark M 14.6 41 11 12 13 14 154 4 Rick M 16.0 30 16 17 18 19 205 5 April F 13.6 40 21 22 23 24 25#想把行號改一下,否則和id_v重名了。然後去掉後面X1-X5的內容row.names(eminfo)<-c(paste0("R",1:5))eminfo2<-eminfo[,1:5]#增加一列計算total wageeminfo2$total_wage<-eminfo2$h_wage_v*eminfo2$working_h_veminfo2#最終數據 id_v name_v gender_f h_wage_v working_h_v total_wageR1 1 June F 13.0 40 520.0R2 2 Echo F 15.3 38 581.4R3 3 Mark M 14.6 41 598.6R4 4 Rick M 16.0 30 480.0R5 5 April F 13.6 40 544.0

總結

通過R語言操作基礎,數據類型和創建方法後對如何用R進行數據的處理有了一個最基本的了解。在數據分析的路上還有很多東西需要繼續學習。與大家共同進步。
推薦閱讀:

R數據處理|基礎篇(二)
R Markdown 簡介
【乾貨收藏】Python面試指南大全
《利用數據改進醫療質量指南》

TAG:数据分析 | R | 数据 |