簡單數據的處理、分析的學習與實踐筆記
學習筆記
以猴子老師第三講為例:
數據源」朝陽區醫院2016年銷售數據.xlsx」,分析指標:月均消費次數、月均消費金額、客單價、消費趨勢。
1、R安裝「Tools」
安裝「openxlsx」
1、刪除所有含缺失值的行
2、重命名3、日期格式的處理由消費指標「月均消費次數、月均消費金額、客單價、消費趨勢」可知我們並不需要星期幾這樣的日期,而導入的數據的日期格式為:
所以需要去除「星期幾」
用「stingr」包拆分時間單元格,然後去除「星期幾」
得到的結果為:
數據格式的處理:
數據分析的時我們需要對日期進行一些特殊的計算,所以需要把日期數據轉換為日期格式:
由class函數查詢日期的格式為字元串格式轉換為日期格式:Oder()函數給指定的數據排序。decreasing=T,表示升序排序,decreasing=F為降序排序,一定要記住在[]結束之前加一個「,」。
排序以後的結果如下
到此為止數據的預處理已經完成,數據的預處理步驟如下:
三、指標的簡單分析- 月均消費次數
月消費次數=消費的總次數/月數
注意同一天同一個人購買所有消費次數當算作消費一次。
本例子以社保卡號和消費時間為切入點
消費次數:
duplicated()函數表示從數據框中選出相同的數據,而!duplicated()則表示從數據框中選出不同的數據,結果如上。
毫無疑問消費總次數就顯示出來了
月份數的計算:
其中 month=day %/%30,%/%表示相除取整。所以:月均消費次數:
輸出結果為:2、月均消費金額月均消費金額=消費總金額/月數
3、客單價客單價=消費總次數/消費總次數
4、消費趨勢Tappl()函數是將數據框的函數進行分組,如上面所示,就將excelData中的數據分出」周消費總金額與周的組別」 ,%Y-%U是將時間顯示為年-周的形式。
繪製簡單的曲線圖:
1、把上面數據轉換成數據框
2、繪製曲線圖圖形如下:實踐筆記數據源」2016年7月全國房地產開發情況情況.xlsx」,分析指標:「2016年7月全國房地產開發情況情況」,「2016年7月全國房地產開發投資額平均值」
數據的簡單處理(在這我們只做簡單的分析)
1、數據讀取
2、缺失值的處理
3、刪除數據框中的行列
由以上數據可知第一行與最後一列數據我們並不需要即去除:
刪除行:
結果如下:刪除「住宅」列3、重屬名4、數據格式的查驗與轉換與我們要分析要求的數值類型一致,故不需要轉換了5、排序
1、2016年7月房地產開發投資額完成情況。
說實話,這是一個很悲劇色彩的指標分析,本來以為能用barpot()函數或者hist()函數把分析指標展現出來,後來才知道條件不足。這個問題, 以後學習再回頭來解決
2、2016年7月全國房地產開發投資額平均值這個so easy!
平均值為:1785.823(億元)學習心得:本章的學習數據的簡單處理,思路挺簡單,但是其中遇到各種問題都讓我很頭痛,還是感覺自己基礎太差,書面上的東西,很多看過去就忘了,對於R語言的學習,應該採取題海戰術了,要不真的很難掌握!
推薦閱讀:
※胡說江湖 2017 年 03 月 08 日的文章
※解讀《大數據下的數據分析平台架構》
※敲黑板!從零開始,小白如何通過Kaggle競賽提高數據分析能力!
※Titanic 數據分析
※手機報表用處多,這些場景值得收藏!
TAG:數據分析 |