標籤:

第三講簡單的數據處理和分析實踐筆記及課後實踐

第三講課程需要解決的四個問題

(1)、月均消費次數

(2)、月均消費金額

(3)、客單價

(4)、消費趨勢

帶著問題去思考解決辦法

1、觀察,分析原數據

2、選擇合適的工具將execl數據讀入R中(XLConnect openxlsx)

3、使用Openxlsx讀取excel數據(能夠讀取海量數據)

讀取結果如下

4、對數據進行預處理

4.1、缺失數據處理

刪除所有含有缺失數據的行

最後一行不為空,刪除成功

4.2、列名重命名

使用names函數

names(excelData)<-c("time","cardID","drugID","DrugName","saleNb",

"virtualmoney","actualmoney")

4.3、時間的處理

(用到R語言字元串處理包stringr)把時間列通過空格格式拆分成兩項,保留第一項傳入time

處理後結果

查看數據格式,並把字元串格式轉換成日期格式

數據排序

問題一、月均消費次數=總消費次數除以月數

1、 總消費次數:減去一天中同一個人重複來的,只保留一項

總消費次數

總月數

月均消費次數

問題二、月均消費金額

問題三、 客單價

客單價=總消費金額/總消費次數

問題四、 消費趨勢

以每周為單位,計算每周的銷售總價格,然後繪製曲線圖用到分組函數tapply

轉變week的存儲格式並定義新的列屬性,使用plot函數

課後實踐:通過導入國產新能源汽車2016年1月至7月銷量的數據,分析月均銷量排名及月均銷量和7月份銷量數據的比較情況,從而得出哪個型號的國產新能源汽車銷量成上升趨勢。

原數據

導入execl操作

預處理操作

計算月均銷量

新建數據框

用plot函數繪圖

圖標呈現

推薦閱讀:

做好公司各部門數據報表支撐的幾個簡單思維
沒有比腳更長的路,沒有比人更高的山
基於Python的信用評分卡模型分析
人人都是數據科學家?Airbnb數據大學開課了
Python SimPy 模擬系列 (2)

TAG:數據分析 |