數據結構學習與認識
02-01
數據結構是什麼?數據結構是為了幫助我們更好,更快的把演算法實現。前期準備:使用軟體:R,RstudioRstudio :R和Rstudio關係 R是運行環境,Rstudio是開發工具。Rstudio --創建新項目-創建新文件-編寫代碼-執行代碼
推薦閱讀:
學習過程:
1:R可以處理的數據類型:數值型,字元型,邏輯型,負數型(虛數)和原生型(位元組):2:根據不同的要求選擇合適的數據結構存儲數據- 向量--將相同數據類型放在同一個數據空間中,length(向量)長度,name[]
- 矩陣--2維,數據類型相同
- 數組-多維,矩陣的自然推廣,例如 三維,(2,4,3)可理解為3層-- 2行4列矩陣
- 數據框--理解為一個類,包含不同模式的數據
- 列表--存儲函數的返回結果,可包含資料庫,列表等
- 因子--用字元型變數創建因子 (為了輔助我們以文本字元串排序或選擇)
- 如何定義--有序型:factor(向量,ordered=TRUE)------名義型:factor(向量)
- 如何使用--一般應用在數據框,或者列表當中作為變數
-------------------------------------(PS:不想將變數變為因子 加,stringAsFactor=FALSE)--------------
3:選取數據- 使用下標的方式來選取數據
- 使用$
- 使用[,「某變數」]
實踐應用:
1 ,導入數據
讀取EXCEL時出現亂碼用R語言的xlsx包裡面的read.xlsx( )導入含有中文的excel文件時,會因為以下問題出現亂碼:- 沒有插入encoding的正確參數(一般為UTF-8)
- 文件的編碼方式應該與encoding一致(因為Excel一般默認GB2312)
- excel文件含有中文名
- excel文件中含有表格格式
可使用方法mydataFrame<- read.xlsx2(file,sheet)
或者mydataFrame<- read.xlsx(file,sheet,encoding="UTF-8")
- PS(不帶表格第一行的方式,mydata<-read.xlsx(workbook,2,encoding="UTF-8",header=F))
結果如下:
2,觀察是否 是合適的數據結構 存儲數據- 病人編號適合數值向量
- 姓名是字元串向量
- 年齡數值型向量
- 糖尿病類型適合用名義型因子(便於對比)
- 病情適合使用有序型因子
- PS:(病情與病情.1為同一個變數,因子順序卻是不一樣的,病情可用leves來指定程度級別)
結果如下:
完成簡單數據分析
- nrow(mydata) 輸出多少病人使用列聯表,更直觀的看出不同類型糖尿病人治療效果之間的差異
也可看出患1型病人有多少
或者可以使用length函數
以上為自己寫代碼的思路和應用方法以下為案常式序對比分析:不將變數作為因子,可能在此例子當中,並不需要用到排序等,所以進行簡單操作了。獲取1型病人的方法之一
推薦閱讀:
※有了這些數據指標,讓活動「運營」起來!
※李強「數據結構」學習實踐筆記(第二關)
※貝葉斯理論在醫學數據分析中的應用
TAG:数据分析 |