R語言-簡單數據分析
一.問題
1.畫圖時
開頭opar<-par(no.readonly=TRUE) #把現有圖形參數存入變數opar中
結尾par(opar) #???
的意義在於?
2.plot的用法還需要進一步明確,可試用的數據類型?不同數據類型時對最後輸出圖表的影響?
3.為何array要as.data.frame.table之後才能畫圖?as.data.frame.table的意思是?
二.筆記部分
1.mydata<-transform(mydata,sumx=x1+x2,meanx=(x1+x2)/2)
等效於:
mydata$sumx<-mydata$x1+mydata$x2
mydata$meanx<-(mydata$x1+mydata$x2)/2
三.實例分析
數據集:朝陽醫院2016年銷售數據
分析指標:月均消費次數、月均消費金額、客單價、消費趨勢、其他指標挖掘
part1:數據預處理部分
1.讀取文件
2.查看NA值
因在summary()中發現銷售量、應收、實收部分有負值的情況,初步懷疑為系統錯誤或者人工錯誤,下一步通過比較「僅銷售量為負」與「銷售量、應收、實收都為負值」兩種情況的數據框,發現ob值相等,故排除負值為錯誤值的可能(可能為客戶退貨)。
3.處理日期值
part2:數據分析部分
1.月均消費次數=總消費次數/月份數=900次
2.月均消費金額=總消費金額/月份數=50771.71元
3.客單價=總消費金額/總消費次數=56.4元
4.病人周就診情況
發現一周內,周二、周五、周六三天為周就診的高峰期,周四就診病人相對較少
5.周消費情況(金額)
周消費情況為周二、周五、周六三天消費金額較高,與就診情況相符
6.TOP10用戶消費情況
通過對TOP10(按應收金額排序)用戶分析發現,其所購藥品皆為抗高血壓類藥物(因用戶數據不完全,無法對高血壓類夠葯人群進行畫像)。
TOP10消費用戶
TOP10消費用戶中所購藥品
皆為輕中度高血壓類相關藥物
四.結論與總結
數據分析部分:通過對朝陽醫院2016年銷售數據集分析得知
- 月均消費次數900次,月均金額50771.71元,客單價56.4元
- 周就診與銷售高峰為,周二,周五,周六(建議這三天適當增加人員配置,以應對人流增長)
- 銷售額主要貢獻為高血壓類藥物(建議提前備貨以增加庫存周轉)
學習方法部分:
- 問題永遠只有在實際操作後才能發現
- 數據結構部分還需加強,畫圖部分還需加強
推薦閱讀:
※數據分析學習第2關:Python環境配置和基礎學習
※Python學習(一)
※Python LEVEL4:數據分析標準步驟
※不同需求下可視化圖形選擇(翻譯)
※開啟數據分析學習之路