全棧 - 13 ggplot2 在 R 中進行可視化

02-02

這是全棧數據工程師養成攻略系列教程的第十三期：13 ggplot2 在R中進行可視化。

我們已經具備了一定的代碼基礎，現在不妨來了解下數據可視化，從生動的圖形中更好地感受數據之美。R是一門統計分析語言，和Python一樣，語法簡單並且有非常豐富的功能包，其中的ggplot2包便可以用簡潔的語法繪製出美觀多樣的圖形。

下載和安裝

如果沒有R的話需要去下載並安裝，在R的官網中找到下載鏈接，選擇最近的鏡像地址下載即可，The R Project for Statistical Computing。安裝完畢後即可運行R，軟體如下圖所示，界面比較簡單，提供的用戶圖形化介面十分有限。

因此可以再安裝一個叫作RStudio的軟體，它基於R的內核提供了更佳豐富的用戶圖形化操作界面，使用起來更方便，用戶體驗更好。可以在RStudio的官網找到下載鏈接，下載並安裝RStudio，Home。安裝完畢後運行RStudio，軟體界面如下圖所示。

左上角的兩個按鈕分別用於新建各種文件和打開已有文件，左邊是一個交互命令行，可以互動式地執行代碼。右邊上半部分是環境窗口（Environment）和歷史窗口（History），分別可以查看當前編程環境中已有的變數，以及查看歷史命令記錄。右邊下半部分包括文件（Files）、繪圖（Plots）、包（Packages）、幫助（Help）等標籤頁，分別用於查看文件目錄、查看繪圖結果、查看引用的包、查看幫助文檔。

例如，在左邊的交互命令行中輸入?plot並回車，即可在右邊的Help中查看plot函數的使用文檔。再輸入a <- 1並回車，即可在右邊的Environment中看到已有的變數，同時在History中也可以看到之前執行的兩條命令記錄。

R基礎

安裝包和載入包

R和Python一樣，功能之所以強大是因為它具備豐富多樣的功能包。在R中使用以下命令即可安裝一個新的包，例如ggplot2，包的名字需要用引號括起來。

install.packages("ggplot2")n

功能包安裝完畢之後，即可載入並使用其提供的數據集、函數和功能，使用以下命令載入一個功能包，包的名字不需要用引號括起來。

library(ggplot2)n

數據結構

R中的數據結構主要有向量、矩陣、數組、數據框、因子和列表。

向量是用於存儲數值型、字元型或邏輯型數據的一維數組，單個向量中的數據必須擁有相同的類型或模式，即要麼都是數值型，要麼都是字元型，要麼都是邏輯型。可以發現，R中的賦值使用箭頭符號<-，而不是其他語言常用的=。

# 數值型na <- c(1, 2, 5, 3, 6, -2, 4)n# 字元型nb <- c("one", "two", "three")n# 邏輯型nc <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE)n

用方括弧可以訪問向量中的元素，例如訪問向量a中的第二個和第四個元素，可以用a[c(2, 4)]。向量也支持支持冒號語法，a[2:6]將返回a的第二至第六個元素。所以向量的用法和Python中list有相似又不同，Python中list的下標從0開始，而且冒號語法只包括開始下標但不包括結束下標。另外Python中負號下標表示從後往前數，而向量中負號表示排除，例如a[-1]返迴向量a中除了第一個以外的其他全部元素。

矩陣是一個二維數組，每個元素都擁有相同的類型，必須都為數值型、字元型或邏輯型，可通過函數matrix創建矩陣。

mymatrix <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns, byrow=FALSE, dimnames=list(rownames, colnames))n

其中vector向量包含了全部矩陣元素，nrow和ncol為行數和列數，byrow默認為FALSE表示按列填充，否則TRUE為按行填充，dimnames為行名和列名。使用時，只有前三個參數是必須的。

y <- matrix(1:20, nrow=5, ncol=4)ncell <- c(1, 26, 24, 68)nrnames <- c("R1", "R2")ncnames <- c("C1", "C2")nmymatrix <- matrix(cell, nrow=2, ncol=2, byrow=TRUE, dimnames=list(rnames, cnames))nmymatrix <- matrix(cell, nrow=2, ncol=2, byrow=FALSE, dimnames=list(rnames, cnames))n

x[i,]表示矩陣x中的第i行，x[,j]表示矩陣x中的第j列，x[i, j]表示矩陣x中的第i行第j個元素，或者使用數值型向量代替i、j以同時選擇多行或多列。

數組和矩陣類似，但是維度可以大於2，通過array函數創建。

myarray <- array(vector, dimensions, dimnames)n

其中vector包含數組中的數據，dimensions是一個數值型向量，給出了各個維度下標的最大值，dimnames可選，以向量形式指定各個維度的名稱。

dim1 <- c("A1", "A2")ndim2 <- c("B1", "B2", "B3")ndim3 <- c("C1", "C2", "C3", "C4")nz <- array(1:24, c(2, 3, 4), dimnames=list(dim1, dim2, dim3))n

數據框可以理解成資料庫中的表，即每一行表示一條記錄，每一列表示一項欄位。不同列可以包含不同類型，例如某一列為數值型而另一列為字元型，但每列所有行的數據類型必須相同。數據框通過data.frame創建，是R中最為重要的一種數據結構。

patientID <- c(1, 2, 3, 4)nage <- c(25, 34, 28, 52)ndiabetes <- c("Type1", "Type2", "Type1", "Type1")nstatus <- c("Poor", "Improved", "Excellent", "Poor")npatientdata <- data.frame(patientID, age, diabetes, status)n

訪問數據框中的數據可以通過以下三種方式：

# 訪問第一列和第二列npatientdata[1:2]n# 按列名訪問，使用方括弧和向量npatientdata[c("diabetes","status")]n# 按列名訪問，使用$npatientdata$agen

無序類別型變數和有序類別型變數在R中都稱為因子。簡單來說，因子就是一種離散值，例如性別只能是male和female，對應兩個字元型因子，或者分別用0和1來表示，對應兩個數值型因子。如果因子的不同水平之間存在排序關係，則稱為有序因子。以下代碼中，diabetes對於不同的人只能取Type1或Type2，因此是一個因子。

diabetes <- factor(c("Type1", "Type2", "Type1", "Type1"))n

以下代碼中，status對於不同的人只能取Poor、Improved或Excellent

，同時三者之間存在排序關係，因此使用orderded=TRUE指定為一個有序因子。

status <- factor(c("Poor", "Improved", "Excellent", "Poor"), ordered=TRUE)n# 或者手動指定排序的順序nstatus <- factor(c("Poor", "Improved", "Excellent", "Poor"), ordered=TRUE, levels=c("Poor", "Improved", "Excellent"))n

列表和向量一樣，同樣是多個元素的排列，但每個元素可以是以上提及的任何數據結構，甚至是其他列表的組合，即嵌套列表。使用list定義一個列表，並可以為各個元素進行命名。

g <- "My First List"nh <- c(25, 26, 18, 39)nj <- matrix(1:10, nrow=5)nk <- c("one", "two", "three")nmylist <- list(title=g, ages=h, j, k)nmylistn

可以看到mylist包括四個元素，使用mylist[[2]]、mylist$age或者mylist[["ages"]]訪問其中的第二個元素。

最後需要注意的是，R中的變數名、行名、列名等名稱，都盡量使用純英文，避免使用中文導致錯誤。

數據集

R中提供了很多數據集，安裝包也會提供一些額外的數據集，這些數據集大多以數據框的形式給出，例如mtcars數據集提供了32款車型的11項參數值，所有參數值都為數值型。

head(mtcars)nnrow(mtcars)nnames(mtcars)nsummary(mtcars)n

另外，也可以從csv、txt等文件中讀取數據為數據框，使用data.table包的fread()函數讀取數據，例如之前提供的douban_movie_clean.txt。讀取之前需要在Files標籤頁中找到數據文件，然後點擊齒輪中的Set As Working Directory，將當前目錄設為工作路徑。

# 沒有包則安裝n# install.packages("data.table")nlibrary(data.table)ndouban_movie_clean <- fread("douban_movie_clean.txt", header=TRUE, sep="^", encoding="UTF-8")n

R腳本

除了在交互命令行中編寫R代碼，一種更方便的選擇是使用R腳本，就如同新建一個.py代碼，在Sublime中編輯完畢後再運行一樣。點擊左上角的新建文件按鈕，選擇R Script，在新建的R腳本中可以自由地編寫多行代碼。編寫完畢後，選中全部或者部分代碼，點擊R腳本右上方的Run按鈕，即可運行選中的代碼。

ggplot2

ggplot2是R中的一個功能包，可以用簡潔統一的語法繪製出美觀多樣的圖形。安裝好ggplot2之後，讓我們通過一個簡單的例子感受下ggplot2的魅力。

# 如果沒有則安裝n# install.packages("ggplot2")n# 載入包nlibrary(ggplot2)nggplot(douban_movie_clean) + geom_histogram(aes(x=length))n

以上代碼對豆瓣電影數據集的片長這一欄位繪製直方圖，橫軸為電影片長，縱軸為每個片長區間的電影數量。繪圖結果將顯示在Plots標籤頁中，可以點擊Zoom按鈕放大圖像，可以發現大多數電影的片長集中在90至120分鐘之間。

R學習筆記

如果對R感興趣、希望進一步了解更多內容，可以訪問我的博客，生命不息 | r，以上鏈接以r為標籤搜索相關文章，搜索結果中會有一個《R學習筆記》系列，共14篇文章，可作為進一步學習R的參考資料。

視頻鏈接：在R中進行可視化