標籤:

簡單數據的處理、分析的學習與實踐筆記

學習筆記

以猴子老師第三講為例:

數據源」朝陽區醫院2016年銷售數據.xlsx」,分析指標:月均消費次數、月均消費金額、客單價、消費趨勢。

1、R安裝「Tools」

安裝「openxlsx」

2、讀取」朝陽區醫院2016年銷售數據.xlsx」

二、簡單數據的預處理

1、刪除所有含缺失值的行

2、重命名

3、日期格式的處理

由消費指標「月均消費次數、月均消費金額、客單價、消費趨勢」可知我們並不需要星期幾這樣的日期,而導入的數據的日期格式為:

所以需要去除「星期幾」

用「stingr」包拆分時間單元格,然後去除「星期幾」

得到的結果為:

數據格式的處理:

數據分析的時我們需要對日期進行一些特殊的計算,所以需要把日期數據轉換為日期格式:

由class函數查詢日期的格式為字元串格式

轉換為日期格式:

Oder()函數給指定的數據排序。decreasing=T,表示升序排序,decreasing=F為降序排序,一定要記住在[]結束之前加一個「,」。

排序以後的結果如下

到此為止數據的預處理已經完成,數據的預處理步驟如下:

三、指標的簡單分析

  1. 月均消費次數

月消費次數=消費的總次數/月數

注意同一天同一個人購買所有消費次數當算作消費一次。

本例子以社保卡號和消費時間為切入點

消費次數:

duplicated()函數表示從數據框中選出相同的數據,而!duplicated()則表示從數據框中選出不同的數據,結果如上。

毫無疑問消費總次數就顯示出來了

月份數的計算:

其中 month=day %/%30,%/%表示相除取整。

所以:月均消費次數:

輸出結果為:

2、月均消費金額

月均消費金額=消費總金額/月數

3、客單價

客單價=消費總次數/消費總次數

4、消費趨勢

Tappl()函數是將數據框的函數進行分組,如上面所示,就將excelData中的數據分出」周消費總金額與周的組別」 ,%Y-%U是將時間顯示為年-周的形式。

繪製簡單的曲線圖:

1、把上面數據轉換成數據框

2、繪製曲線圖

圖形如下:

實踐筆記

數據源」2016年7月全國房地產開發情況情況.xlsx」,分析指標:「2016年7月全國房地產開發情況情況」,「2016年7月全國房地產開發投資額平均值」

數據的簡單處理(在這我們只做簡單的分析)

1、數據讀取

2、缺失值的處理

3、刪除數據框中的行列

由以上數據可知第一行與最後一列數據我們並不需要即去除:

刪除行:

結果如下:

刪除「住宅」列

3、重屬名

4、數據格式的查驗與轉換

與我們要分析要求的數值類型一致,故不需要轉換了

5、排序

二、指標的簡單分析

1、2016年7月房地產開發投資額完成情況。

說實話,這是一個很悲劇色彩的指標分析,本來以為能用barpot()函數或者hist()函數把分析指標展現出來,後來才知道條件不足。這個問題, 以後學習再回頭來解決

2、2016年7月全國房地產開發投資額平均值

這個so easy!

平均值為:1785.823(億元)

學習心得:本章的學習數據的簡單處理,思路挺簡單,但是其中遇到各種問題都讓我很頭痛,還是感覺自己基礎太差,書面上的東西,很多看過去就忘了,對於R語言的學習,應該採取題海戰術了,要不真的很難掌握!

推薦閱讀:

胡說江湖 2017 年 03 月 08 日的文章
解讀《大數據下的數據分析平台架構》
敲黑板!從零開始,小白如何通過Kaggle競賽提高數據分析能力!
Titanic 數據分析
手機報表用處多,這些場景值得收藏!

TAG:數據分析 |