標籤:

數據結構學習與認識

數據結構是什麼?數據結構是為了幫助我們更好,更快的把演算法實現。

前期準備:

使用軟體:R,Rstudio

Rstudio :R和Rstudio關係 R是運行環境,Rstudio是開發工具。

Rstudio --創建新項目-創建新文件-編寫代碼-執行代碼

學習過程:

1:R可以處理的數據類型:數值型,字元型,邏輯型,負數型(虛數)和原生型(位元組):

2:根據不同的要求選擇合適的數據結構存儲數據

    • 向量--將相同數據類型放在同一個數據空間中,length(向量)長度,name[]
    • 矩陣--2維,數據類型相同
    • 數組-多維,矩陣的自然推廣,例如 三維,(2,4,3)可理解為3層-- 2行4列矩陣

    • 數據框--理解為一個類,包含不同模式的數據
    • 列表--存儲函數的返回結果,可包含資料庫,列表等
    • 因子--用字元型變數創建因子 (為了輔助我們以文本字元串排序或選擇)
        1. 如何定義--有序型:factor(向量,ordered=TRUE)------名義型:factor(向量)

        2. 如何使用--一般應用在數據框,或者列表當中作為變數

-------------------------------------(PS:不想將變數變為因子 加,stringAsFactor=FALSE)--------------

3:選取數據

    1. 使用下標的方式來選取數據
    2. 使用$
    3. 使用[,「某變數」]

實踐應用:

1 導入數據

讀取EXCEL時出現亂碼

用R語言的xlsx包裡面的read.xlsx( )導入含有中文的excel文件時,會因為以下問題出現亂碼:

      1. 沒有插入encoding的正確參數(一般為UTF-8)

      2. 文件的編碼方式應該與encoding一致(因為Excel一般默認GB2312)

      3. excel文件含有中文名

      4. excel文件中含有表格格式

可使用方法mydataFrame<- read.xlsx2(file,sheet)

或者mydataFrame<- read.xlsx(file,sheet,encoding="UTF-8")

      • PS(不帶表格第一行的方式,mydata<-read.xlsx(workbook,2,encoding="UTF-8",header=F))

結果如下:

2,
觀察是否 是合適的數據結構 存儲數據

      • 病人編號適合數值向量
      • 姓名是字元串向量
      • 年齡數值型向量
      • 糖尿病類型適合用名義型因子(便於對比)
      • 病情適合使用有序型因子

          • PS:(病情與病情.1為同一個變數,因子順序卻是不一樣的,病情可用leves來指定程度級別)

結果如下:

完成簡單數據分析

  • nrow(mydata) 輸出多少病人

    使用列聯表,更直觀的看出不同類型糖尿病人治療效果之間的差異

也可看出患1型病人有多少

或者可以使用length函數

以上為自己寫代碼的思路和應用方法

以下為案常式序對比分析:

不將變數作為因子,可能在此例子當中,並不需要用到排序等,所以進行簡單操作了。

獲取1型病人的方法之一


推薦閱讀:

有了這些數據指標,讓活動「運營」起來!
李強「數據結構」學習實踐筆記(第二關)
貝葉斯理論在醫學數據分析中的應用

TAG:数据分析 |