《R語言實戰》第一二章筆記

第一章筆記

通過看書第一章講了R語言的介紹,使用R有很多好處,比如可以免費使用,可以運行宇多個平台Windows系統,蘋果系統等。

R的安裝

R可以在CRAN(ComprehensivenR Archive Network,The Comprehensive R Archive Network)上免費下載。 Linux、Mac OS X和Windows都有相應編譯好的二進位版本。根據你所選擇平台的安裝說明進行安裝即可。稍後我們將討論如何通過安裝稱為包(package)的可選模塊(同樣可從CRAN下載)來增強R的功能。

R相當於運行環境,Rstudio是開發工具,這兩個都是可以敲代碼的

R在windows上的操作界面

Rstudio

可以在R中獲取幫助的函數

擁有管理R工作空間的函數

關於包的概念,安裝,載入,使用方法

包的概念:它是R函數、數據、預編譯代碼以一種定義完善的格式組成的集合。計算機上存儲包的目錄稱為庫(library)。

包的安裝:第一次安裝一個包,使用命令在R中輸入install.packages()即可。比如用install.packages("gclus")來下載和安裝這個「gclus」包。update.packages()可以更新已經安裝的包。

包的載入:要在R會話中運行,還需要使用library()命令載入這個包,例如,要使用gclus包,執行命令library(gclus) 即可。

包的使用方法:載入一個包之後,就可以使用一系列新的函數和數據集了。包中往往提供了演示性的小型數據集和示例代碼,能夠讓我們嘗試這些新功能。

第二章 創建數據集 筆記

1.數據集概念:通常是由數據構成的一個矩形數組,行表示觀測,列表示變數。

R可以處理的數據類型(模式)包括數值型、字元型、邏輯型(TRUE/FALSE)、複數型(虛數)和原生型(位元組)。

R擁有許多用於存儲數據的對象類型,包括標量、向量、矩陣、數組、數據框和列表。它們在存儲數據的類型、創建方式、結構複雜度,以及用於定位和訪問其中個別元素的標記等方面均有所不同。

數據結構示意圖

2.向量概念:用於存儲數值型、字元型或邏輯型數據的一維數組。執行組合功能的函數c()可用來創建向量。

案例:

數值型:a <- c(1, 2,n5, 3, 6, -2, 4)

字元型:b <-nc("one", "two", "three")

nnnn邏輯型:c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE)

注意 標量是只含一個元素的向量,例如fn<- 3、g <-n"US"和h <- TRUE。它們用於保存常量。

3.矩陣概念:是一個二維數組,只是每個元素都擁有相同的模式(數值型、字元型或邏輯型)。可通過函數matrix()創建矩陣。

一般使用格式為:

myymatrix <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns, byrow=logical_value, dimnames=list( char_vector_rownames, char_vector_colnames))

vector包含了矩陣的元素,nrow指定行的維數,ncol指定列的維數,dimnames包含了可選的、以字元型向量表示的行名和列名。選項byrow則表明矩陣應當按行填充(byrow=TRUE)還是按列填充(byrow=FALSE),默認情況下按列填充。

4.數組概念:與矩陣類似,但是維度可以大於2。數組可通過array函數創建

形式如下:

myarrayn<- array(vector, dimensions, dimnames)

vector包含了數組中的數據,dimensions是一個數值型向量,給出了各個維度下標的 大值,而dimnames是可選的、各維度名稱標籤的列表。

5.數據框概念:由於不同的列可以包含不同模式(數值型、字元型等)的數據,數據框的概念較矩陣來說更為一般。

數據框可通過函數data.frame()創建:

mydata <- data.frame(col1, col2, col3,...)

其中的列向量col1col2col3等可為任何類型(如字元型、數值型或邏輯型)。每一列的名稱可由函數names指定。

每一列數據的模式必須唯一,不過你卻可以將多個模式的不同列放到一起組成數據框。

6.因子概念:類別(名義型)變數和序類別(有序型)變數 成為因子。

7.列表概念:一些對象(或成分, component)的有序集合。

可以使用函數list()創建列表:mylist <- list(object1, object2, ...)

可以為列表中的對象命名:mylist <- list(name1=object1,nname2=object2, ...)

列表成為了R中的重要數據結構。首先,列表允許以一種簡單的方式組織和重新調用不相干的信息。其次,許多R函數的運行結果都是以列表的形式返回的。

數據的輸入

R可從鍵盤、文本文件、MicrosoftnExcel和Access、流行的統計軟體、特殊格式的文件、多種關係型資料庫管理系統、專業資料庫、網站和在線服務中導入數據。

向R中導入數據的權威指南參見可在

cran.r-project.org/doc/下載的R Data Import/Export手冊

處理數據對象的實用函數

以上是看《R語言實戰》第一二章做的一些筆記,主要是把概念都整理出來了,個人覺得學一個東西概念是很重要的,如果想了解詳細的概念用法可以參看書籍《R語言實戰》。


推薦閱讀:

TDA 拯救世界?病毒式傳播的拓撲數據分析
大數據學習計劃

TAG:R编程语言 | 大数据 | 读书笔记 |