R語言-簡單數據分析

一.問題

1.畫圖時

開頭opar<-par(no.readonly=TRUE) #把現有圖形參數存入變數opar中

結尾par(opar) #???

的意義在於?

2.plot的用法還需要進一步明確,可試用的數據類型?不同數據類型時對最後輸出圖表的影響?

3.為何array要as.data.frame.table之後才能畫圖?as.data.frame.table的意思是?

二.筆記部分

1.mydata<-transform(mydata,sumx=x1+x2,meanx=(x1+x2)/2)

等效於:

mydata$sumx<-mydata$x1+mydata$x2

mydata$meanx<-(mydata$x1+mydata$x2)/2

三.實例分析

數據集:朝陽醫院2016年銷售數據

分析指標:月均消費次數、月均消費金額、客單價、消費趨勢、其他指標挖掘

part1:數據預處理部分

1.讀取文件

2.查看NA值

因在summary()中發現銷售量、應收、實收部分有負值的情況,初步懷疑為系統錯誤或者人工錯誤,下一步通過比較「僅銷售量為負」與「銷售量、應收、實收都為負值」兩種情況的數據框,發現ob值相等,故排除負值為錯誤值的可能(可能為客戶退貨)。

3.處理日期值

part2:數據分析部分

1.月均消費次數=總消費次數/月份數=900次

2.月均消費金額=總消費金額/月份數=50771.71元

3.客單價=總消費金額/總消費次數=56.4元

4.病人周就診情況

發現一周內,周二、周五、周六三天為周就診的高峰期,周四就診病人相對較少

5.周消費情況(金額)

周消費情況為周二、周五、周六三天消費金額較高,與就診情況相符

6.TOP10用戶消費情況

通過對TOP10(按應收金額排序)用戶分析發現,其所購藥品皆為抗高血壓類藥物(因用戶數據不完全,無法對高血壓類夠葯人群進行畫像)。

TOP10消費用戶

TOP10消費用戶中所購藥品

皆為輕中度高血壓類相關藥物

四.結論與總結

數據分析部分:通過對朝陽醫院2016年銷售數據集分析得知

- 月均消費次數900次,月均金額50771.71元,客單價56.4元

- 周就診與銷售高峰為,周二,周五,周六(建議這三天適當增加人員配置,以應對人流增長)

- 銷售額主要貢獻為高血壓類藥物(建議提前備貨以增加庫存周轉)

學習方法部分:

- 問題永遠只有在實際操作後才能發現

- 數據結構部分還需加強,畫圖部分還需加強


推薦閱讀:

數據分析學習第2關:Python環境配置和基礎學習
Python學習(一)
Python LEVEL4:數據分析標準步驟
不同需求下可視化圖形選擇(翻譯)
開啟數據分析學習之路

TAG:R編程語言 | 數據分析 |