標籤:

第三關:簡單的數據處理

在這一關中,需處理數據:朝陽醫院2016年銷售數據.xlsx

4個分析指標:

  • 月均消費次數 = 總消費次數/月數
  • 月均消費金額 = 總消費金額 /月份數

  • 客單價 = 總消費金額 /總消費次數

  • 消費趨勢:用圖表示

對數據進行分析的步驟如下:

一、數據預處理

(1)了解數據的結構:

(2)在Rstudio中導入Excel文件,此時文件名字被我改成「excelData」:

(3)重新命名列名:

(4)因為後續需要對日期進行分析,因此在此處進行日期處理:

先安裝stringr包:

再進行日期處理:

使用str_split_fixed函數進行數據抽取分列:

str_split_fixed (x, split, n),x:需要處理的欄位/字元,split:用於分割的字元串,n:分隔為多少列。

抽取分列後第一列數據:

得出:

(5)進行類型轉換

將字元類型轉換為時間類型:

同時,還需要將金額、數量這幾列轉換為數字格式,方便後面的數據分析需要:

(6)對數據進行排序,方便直觀看到數據發展的趨勢。此處,對銷售時間行進排序

二、數據分析

(1)月均消費次數=總消費次數/月份數

其中,總消費次數是指同一天內,同一個人發生的所有消費都算作是一次消費。所以,我們需要對同一天,同一個人的多次消費記錄進行篩選。

使用duplicated函數去掉同一個人、同一天內的消費記錄,採用醫保卡作為同一個人的標準:

所以,總消費次數為:

月份數:

因此,月均消費次數為:

月均消費次數為899次。

(2)月均消費金額=總消費金額/次數

總消費金額為實收金額,且同時需要取出缺失值,利用sum函數計算金額數:

月均消費金額:

月消費金額為50771.71元。

(3)客單價=總消費金額/總消費次數

客單價是56.43元。

(4)消費趨勢

首先計算每周的消費金額:

其中,tapply(x,f,g) x為向量,f為因子列,g為操作函數,即x向量根據f的條件來進行g函數的運算。

繪製曲線圖:

至此,簡單的數據分析就結束了。


推薦閱讀:

做個數據分析,都是愛你的形狀
如何買賣「椰子鞋」最划算?大數據揭秘潮鞋江湖
從零學數據分析-簡單數據處理與分析
Excel如何使用數據透視表進行「中國式」排名

TAG:数据分析 |