第三講簡單的數據處理和分析實踐筆記及課後實踐
第三講課程需要解決的四個問題
(1)、月均消費次數
(2)、月均消費金額
(3)、客單價
(4)、消費趨勢
帶著問題去思考解決辦法
1、觀察,分析原數據
2、選擇合適的工具將execl數據讀入R中(XLConnect openxlsx)
3、使用Openxlsx讀取excel數據(能夠讀取海量數據)
讀取結果如下
4、對數據進行預處理
4.1、缺失數據處理
刪除所有含有缺失數據的行
最後一行不為空,刪除成功
4.2、列名重命名
使用names函數
names(excelData)<-c("time","cardID","drugID","DrugName","saleNb",
"virtualmoney","actualmoney")
4.3、時間的處理
(用到R語言字元串處理包stringr)把時間列通過空格格式拆分成兩項,保留第一項傳入time
處理後結果
查看數據格式,並把字元串格式轉換成日期格式
數據排序
問題一、月均消費次數=總消費次數除以月數
1、 總消費次數:減去一天中同一個人重複來的,只保留一項
總消費次數
總月數
月均消費次數
問題二、月均消費金額
問題三、 客單價
客單價=總消費金額/總消費次數
問題四、 消費趨勢以每周為單位,計算每周的銷售總價格,然後繪製曲線圖用到分組函數tapply
轉變week的存儲格式並定義新的列屬性,使用plot函數
課後實踐:通過導入國產新能源汽車2016年1月至7月銷量的數據,分析月均銷量排名及月均銷量和7月份銷量數據的比較情況,從而得出哪個型號的國產新能源汽車銷量成上升趨勢。
原數據
導入execl操作
預處理操作計算月均銷量
新建數據框
用plot函數繪圖
圖標呈現
推薦閱讀:
※做好公司各部門數據報表支撐的幾個簡單思維
※沒有比腳更長的路,沒有比人更高的山
※基於Python的信用評分卡模型分析
※人人都是數據科學家?Airbnb數據大學開課了
※Python SimPy 模擬系列 (2)
TAG:數據分析 |