標籤:

R語言筆記

第一、二章

最近真的很忙,經歷扶貧、學習加上工作業務等等,真的是在擠時間學習。雖然有點累,而且編程不是強項,但是不能錯過大數據的風口,特別是在學習了一些初創企業的發展方向後,更加堅定了堅持的思想。

R語言很簡潔,很容易上手,但是長期扔下編程,也沒有特別好的基礎,所以還是很吃力。學習了第一、二章節後,初步有了概念,加上採用聯想式記憶和學習的方法,應該效果不錯。多了不說,奉上乾貨。

第一章:

1、安裝軟體:不附圖了,就是安裝,沒什麼問題。

2、初步感受:demo圖示看了後,確實感覺R語言具有的強大圖示能力。

3、幫助:help和?的強大,給了我很好的幫助,就是英語不太好,繼續學習中。這裡使用了help()和example()函數,記住了,並且嘗試多次,效果不錯。表1-2中的幫助函數很多,目前只能記住上述2個,不著急,慢慢來,後續長期使用後,就會熟能生巧,也就能夠記住了。

4、工作空間:學會了setwd()和getwd()兩個函數。把路徑搞定,這裡感覺R語言翻譯中的目錄使用不太習慣,還是路徑好一些,或者把路徑和目錄同時講述比較好。

5、代碼清單1-2中鬧了笑話,在R語言中實際操作時,無法連續敲出代碼並最終執行。回頭看了一下,原來可以採用直接執行語言或者複製代碼兩種方式,書中的不能連續執行。看來不實際操作真的不行。

6、實際操作了一下示例。

setwd("C:/R/1")

options()

options(digits=3)

x<-runif(20)

summary(x)

hist(x)

savehistory()

save.image()

q()

感覺沒有C語言好用,堅持應該會習慣。開始沒理解history函數的意義,現在看來很重要,保存文件,犯了錯誤會隨時發現。

7、setwd()、load();sink()、dev.off()配合起來非常好用,記住了。

8、輸入時source(),腳本類型還不懂,後續學習。sink()輸出函數。這裡我將sink()函數想像為一個扇子,扇子面分別畫上()、append=TRUE、split=TRUE。

9、R提供了幾個工具:包、批處理、結果重用、處理大數據集。包想像為戰鬥機的模塊化武器,需要安裝、載入、使用發射。結果重用就是食堂早餐,我只是刷卡,就能吃早飯,完全不管怎麼做的和原料準備。

總結:R語言工作空間浮現腦海,輸入輸出有扇子模型和圖形輸出,戰鬥機模塊化武器、早餐加上容易犯錯。

第二章:

一、數據結構

1、有數值型、字元型和邏輯型的數據類型。

2、向量中把訪問向量元素想像為教室點名,一是只點一個、二是隨機點幾個、三是點從哪到哪一個序列。學生是一樣的,不能學生和大樹一起上課(數據類型一致),c()函數創建。注意字元型要加「」。

3、矩陣函數matrix(),把矩陣界面想像為從中間到外面先後出現的矩陣數值、行列命名、matirx(vector,norw=x,ncol=y,byrow=,dimnames=list()),訪問元素用[],方式與向量比較,則變為全班同學點名,不再是一行。vector可以用1::20,也可以用向量。

4、數組與矩陣類似,不同處在於vector後為c(最大維度)。想像成一層樓幾個班級,這樣形象。

5、數據框感覺很簡單,每一列必須唯一種類,那麼班級中就別都是人類了,加上一些樹人、外星人之類的吧,每一列同樣的種族去參加運動會,點名時候可以參考從矩陣到數組的方式。

6、

(1)這裡學到了列聯表概念,頭一次接觸到,學習了一下,感覺理解還不夠深入,以後繼續加強吧。table()函數用來列聯表,分析不同變數之間的隱含聯繫,$是訪問某個變數。從程序中嘗試了一下,感覺$就是把變數由列變為向量行,不知道後續理解是否正確。需要注意的是定義的時候,行數應該一致,曾經犯了錯,以後再驗證一下,如果是null則應該賦值為0。(這個地方確實需要驗證¥)

(2)這裡attach()和detach(),with(),函數分別用於分析數據框中的屬性。打個比方,承德市和承德縣,attach,detach容易發生把市和縣弄混的情況,with函數專門分析承德縣,劃分不同範圍,用於分析。如果在承德縣創建承德市的戶口,那麼用<<-來解決。

(3)data.frame中增加row.names=添加實例標識符。

7、因子我理解為程序把名義型和有序型變數進行了分析,便於後台利用已有的方法解決,有點類似列聯表的作用。(此處以後驗證¥)

(1)因子用factor函數來明確,注意一下如果是有序型變數定義因子,要用ordered=TRUE來明確。

(2)字元型向量要注意排序問題,levels搞定,回顧一下字元型向量要用「」。

8、列表是能夠將上述所有的數據類型容納,同時還不需要與數據框一樣,行數保持一致。函數是list(),另外可以在函數中命名變數。坑的是我用data.frame驗證了一下,也可以命名(早說啊)。

> rnames<-c(1,2,3)

> cnames<-c("a","b","c")

> example<-data.frame(f=rnames,g=cnames)

> example

f g

1 1 a

2 2 b

3 3 c

>

最後試驗了好幾次,才明白列表的命名是用來方便調用的。不像數據框那樣,直接可以訪問命名的向量,列表需要在函數中對已經命名的向量進行再處理,才能雙框[[]]直接調用。

二、輸入方式

1、鍵盤輸入

把edit想像為鏡子中給衣服畫圖案,如果讓圖案真正印在衣服上,得回歸賦值。

2、帶分隔符的文本文件導入。read.table函數搞定。在一個桌子上(table),放著一張.csv格式的紙,read.table從紙上獲得信息,sep=「,」是判定帶分隔符輸入的基礎(這裡我提前了是因為「,」是視覺化想像中的第二位)。第一行header=TRUE獲得各變數名稱(這裡前提是文件中得是標準數據,否則肯定出錯)。row.names當然用來命名實例標識符。(¥還是分不清「」使用的場景,以後再總結和歸納)

3、excle數據導入最好導出為csv格式,然後用read.table來導入。否則可以用RODBC包來導入,這裡感覺不好用,還是用read讀取xlsx格式文件。安裝xlsx包,用read.xlsx("路徑",n)讀取。

4、xml格式的輸入,沒什麼好說的,大概沒看懂,以後熟悉。

5、網頁抓取,這種方式以後應該用的很多。readlines()下載網頁,grep或者gsub處理,以後應用。

6、spss數據導入。學習了spss概念,原來是統計軟體。foreign包中的read.spss()導入,hmisc包中的spss.get導入,use.value.labels=TRUE表示將帶有值標籤的變數導入R中,強調是水平對應。這裡看書,理解了mydataframe的意思。

7、sas也是統計軟體。read.ssd()和sas.get()導入。

8、stata也是統計軟體,foreign包中的read.dta()導入。

9、netcdf導入用ncdf或ncdf4包,存為數組。

10、hdf5,分層數據格式。用於超大型和結構極端複雜的數據。

11、訪問資料庫管理系統。

(1)ODBC介面。rodbc包,這裡注意需要安裝驅動。總結了一下rodbc包:對應odbc資料庫,具有連接、讀取到表、查詢返回、更改更新、結束5個功能。sqlquery()非常強大,可以插入任意有效的sql語句。

(2)dbi包,看來不是主流。

12、stat/transfer是個輸入工具。以後可以常用。

三、向量標籤和值標籤

值標籤中重點是對數值代表意義的描述。否則程序多了後,肯定不容易查詢和修改。

四、處理數據對象的函數

這些函數可以用來對數據進行分析和觀察。就好像炒菜先得把食材處理一下,才能上火。具體函數以後熟悉。
推薦閱讀:

《學習之道》讀書筆記整理
《病隙碎筆》:真正的英雄主義,是在認清生活的真相後依然熱愛生活
睡眠革命
系統及演化——均勻和穩定
回憶與思考

TAG:讀書筆記 |