R語言實戰第三關筆記和實踐

  進入第三關之後,明顯感到了難度,亦激發了學習的動力。這一時期的學習方式和要求如下:

一、認真看視頻教程,學習Rstudio界面操作、快捷方式,提高輸入效率;

二、每個章節先看兩遍,明白大概的內容之後,再敲代碼;

三、通過查詢及R中的幫助,明白每一個函數的意思和使用;

四、反覆學習其他人的實踐筆記;

五、聽猴子老師的講課

六、反覆敲代碼、完成實踐作業。

第三章 圖形初階

  本章的內容容易理解,需要理解每一個函數,但要記住它們,最主要的還是反覆敲代碼,經過多次的實踐之後,釐清了思想,按照順序敲了15張圖,精選幾張作記錄:

第四章 基本數據管理

  本章的內容,敲文章內的代碼沒有太大的意義,主要是兩方面的內容,一是學習「朝陽醫院2016年銷售數據,二是自選內容實踐。

一學習「朝陽醫院2016年銷售數據

  按照猴子老師的要求,採用openxlsx導入數據,在安裝openxlsx時遇到反覆的報錯,查了許多的資料,關閉了殺毒和自動更新等,好不容易安裝上了,提示部分功能只能在R3.3.3上使用,又去找升級R3.3.2的方法,折騰了近一個星期,最終完成。深感疲憊的同時,也為不做一個「伸手黨「而自豪,從中還容易看懂報錯的內容,以及幫助文件,收穫滿滿。

  案例學習過程中,圖形繪製(消費趨勢)中有幾個問題沒有完全明白,如數據分組,先記錄下來,在以後的學習中在解決。

實踐記錄

  選取一精細化工企業紫膠原材料化驗數據進行分析,從數據導入開始,經過數據標準化、數據分析,最後數據可視化(生成圖表)。實踐過程中,在數據標準化階段,xlsx導入之後,日期變成了數值格式,轉化為日期格式經過反覆的網上查詢、驗證,差不多耗費了一個上午。進入數據分析後,選取水分、熱乙醇不熱物兩個主要指標,要求計算出月平均數據、年平均數據,找函數,再驗證,不知道為什麼aggregate安裝不上,換tapple函數,最終計算出了想要的數據、繪出了圖形,並進行了分析、驗證。二十多行代碼,用了差不多三天時間,最終出圖的時候,成就感油然而生。

    從圖表來看,一年中2至9月份水分底,10、11、12、1四個月份水分較高,這與夏膠(夏種秋收)經歷雨季水分高、冬膠(冬種春收)水分低相符合。

  熱乙醇不熱物主要受原材料產地影響,10年中前9年基本穩定,2017年指標明顯上升,應儘快查明原因,及時解決。


推薦閱讀:

美國現代藝術博物館的軟數據:111件服裝展品的前世今生
大數據時代的愛情是一場精確的匹配遊戲
為什麼說「大數據」可能被人們過度神化了
大數據時代普通人也要懂得,否則錢掉頭上只知道痛而不知道撿
政務大數據的全景圖

TAG:R編程語言 | 大數據 |