第三關:簡單的數據處理
01-28
在這一關中,需處理數據:朝陽醫院2016年銷售數據.xlsx
同時,還需要將金額、數量這幾列轉換為數字格式,方便後面的數據分析需要:(6)對數據進行排序,方便直觀看到數據發展的趨勢。此處,對銷售時間行進排序
所以,總消費次數為:
推薦閱讀:
4個分析指標:
- 月均消費次數 = 總消費次數/月數
- 月均消費金額 = 總消費金額 /月份數
- 客單價 = 總消費金額 /總消費次數
- 消費趨勢:用圖表示
對數據進行分析的步驟如下:
一、數據預處理
(1)了解數據的結構:
(2)在Rstudio中導入Excel文件,此時文件名字被我改成「excelData」:(3)重新命名列名:
(4)因為後續需要對日期進行分析,因此在此處進行日期處理:先安裝stringr包:
再進行日期處理:
使用str_split_fixed函數進行數據抽取分列:str_split_fixed (x, split, n),x:需要處理的欄位/字元,split:用於分割的字元串,n:分隔為多少列。
抽取分列後第一列數據:
得出:(5)進行類型轉換將字元類型轉換為時間類型:
二、數據分析
(1)月均消費次數=總消費次數/月份數
其中,總消費次數是指同一天內,同一個人發生的所有消費都算作是一次消費。所以,我們需要對同一天,同一個人的多次消費記錄進行篩選。
使用duplicated函數去掉同一個人、同一天內的消費記錄,採用醫保卡作為同一個人的標準:
月份數:
因此,月均消費次數為:
月均消費次數為899次。(2)月均消費金額=總消費金額/次數
總消費金額為實收金額,且同時需要取出缺失值,利用sum函數計算金額數:
月均消費金額:
月消費金額為50771.71元。
(3)客單價=總消費金額/總消費次數客單價是56.43元。(4)消費趨勢
首先計算每周的消費金額:
其中,tapply(x,f,g) x為向量,f為因子列,g為操作函數,即x向量根據f的條件來進行g函數的運算。
繪製曲線圖:
至此,簡單的數據分析就結束了。推薦閱讀:
※做個數據分析,都是愛你的形狀
※如何買賣「椰子鞋」最划算?大數據揭秘潮鞋江湖
※從零學數據分析-簡單數據處理與分析
※Excel如何使用數據透視表進行「中國式」排名
TAG:数据分析 |