標籤:

黃小龍第三講:簡單的數據處理筆記

內容:如何將用R語言對數據進行數據處理

1,將要分析excel讀取到R的數據框中,最常用的兩種方法是工具包XLConnect 和openxls. 這是課程主要採用openxlsx(什麼是工具包:包是R函數、數據、預編譯代碼以一種定義完善的格式組成的集合。計算機上存儲包的目錄為庫(library)。函數.libPaths()能夠顯示庫所在的位置, 函數library()則可以顯示庫中哪些包。第一次安裝一個包,使用命令install.packages()即可。用函數readFilePath 讀取excel所在的路徑,找到excel(注意excel所在位置的路徑)

2,數據分析前的數據準備。在進行數據分析前,對數據的準備是必要的, 數據分析師在做數據分析過程中,往往花60%的時間在數據的準備過程中包括:處理缺少的數據,改變列名,處理時間格式等。excel表格的數據一般會有哪些問題:

  • 由於各種原因導致的表格數據的不完整:

    R中,缺失值以符號NA(Not Available)表示;

    not.omit()刪除所有含有缺失數據的行

函數is.na()用於檢測缺失值是否存在。

其中將下標留空(,)表示默認選擇所有行,$表示提取某個變數

知識點補充:

十個邏輯運算符

<小於

<=小於或者等於

>大於

>=大於或者等於

==嚴格等於

!=不等於

!x 非x

x|y x或者y

x&y x和y

is TRUE(x) 測試x是否為TRUE(注意在R中 ,TRUE要全部大寫

  • 對表格列名進行重命名:

敲的過程注意大小寫

  • 對日期格式的處理:用R語言中的字元串處理包stringr,先安裝

代碼如下:>install.packages("stringr")

>library(stringr) 注意安裝包的函數install沒有ed,pakages,有s

2016-01-01星期五 如何拆分我們想要的兩個列(星期五重新為一列):

知識點補充:用:time<-split_fixed(excelData$time," ",n=2, )拆分列;

用class函數查看某一列的數據是什麼格式

類型轉換函數: is numeric()和as.numeric() 其中is用於判斷數據屬於哪種類型,對於處理複雜的業務邏輯,例如銷售金額,判斷是否為數值。as則用於各個類型值的直接轉換如上述代碼as.Data(). 我們使用as.numeric 從銷售數據里的字元串轉為數值類型。

數據排序:使用order()函數

3,分析給出的業務指標

1業務指標:

消費次數=總消費次數/月份數(同一天內,同一個人發生的所有消費算作一次消費)

函數duplicated(): 表示從數據框中選出重複的數據。我們的需求是將重複的數據選出來並刪除掉。所以用邏輯運算符!來去掉多餘的數據。 用nrow獲取多少條數據。

這時需要一個月份數,如何獲取時間範圍:

%%整數除法:如果有餘數,我們就將餘數去掉,保留整數部分。

知識點補充:7個算術運算符:

+ 加 - 減 *乘 / 除 ^或者** 求冪 %%求余 (x mod y) x%/%y 整數除法 如:5%/%2=2

2,業務指標:月均消費金額=總消費金額/月份數

月均消費金額為實收金額(actualmoney)

R中,缺失值以符號NA(Not Available)表示;na.rm表示移除缺失值,rm 即remove 在計算時,只計算有值的數據。

3,業務指標:客單價:總消費金額/總消費次數 (客單價指門店每一個顧客平均購買商品的金額。

4,業務指標:消費趨勢

建立橫坐標為周數,縱坐標為銷售金額的圖表。用分組函數tapply()來計算每周的銷售金額。當數據框需要按照其中的某一列來分組時,在組內對數據需要用指定的函數來運算。

其中代碼1:按銷售時間分組。將屬於一周的銷售時間歸為一組,用函數sum;

代碼2:將數據轉為數據框結構

接著對列名進行重命名:

用函數plot(),繪製曲線圖: # x,y軸的標籤: xlab,ylab; xaxt :禁用x軸; main:確認標題type繪製對應的x,y軸的圖形; axis():繪製坐標軸 代碼如下:

總結:第三講花了好多時間在完成,總是好不容易跨出一步,遇到問題卡住了,又放棄,這樣反反覆復了5次; 今天在參考易成凡的筆記終於完成了它。感覺很容易,又不容易。一會兒看一塊聽聽猴子的筆記,一會兒看易成凡的筆記,一會兒谷歌的。但是在參考了他的筆記,整理效果回比之前兩次自己摸索的好,對整個章節的內容,知識點也會比較清楚。


推薦閱讀:

【手撕版】MXNet應用之線性回歸
用Power BI瀑布圖查看服飾公司財務狀況(以李寧和阿迪達斯為例)
淺談風險指標及常用分析方法
Python數據分析之讓數據說話
泰坦尼克號數據分析報告

TAG:數據分析 |