黃小龍第三講:簡單的數據處理筆記
1,將要分析excel讀取到R的數據框中,最常用的兩種方法是工具包XLConnect 和openxls. 這是課程主要採用openxlsx(什麼是工具包:包是R函數、數據、預編譯代碼以一種定義完善的格式組成的集合。計算機上存儲包的目錄為庫(library)。函數.libPaths()能夠顯示庫所在的位置, 函數library()則可以顯示庫中哪些包。第一次安裝一個包,使用命令install.packages()即可。用函數readFilePath 讀取excel所在的路徑,找到excel(注意excel所在位置的路徑)
2,數據分析前的數據準備。在進行數據分析前,對數據的準備是必要的, 數據分析師在做數據分析過程中,往往花60%的時間在數據的準備過程中包括:處理缺少的數據,改變列名,處理時間格式等。excel表格的數據一般會有哪些問題:
- 由於各種原因導致的表格數據的不完整:
R中,缺失值以符號NA(Not Available)表示;
not.omit()刪除所有含有缺失數據的行
函數is.na()用於檢測缺失值是否存在。
其中將下標留空(,)表示默認選擇所有行,$表示提取某個變數知識點補充:
十個邏輯運算符
<小於
<=小於或者等於
>大於
>=大於或者等於
==嚴格等於
!=不等於
!x 非x
x|y x或者y
x&y x和y
is TRUE(x) 測試x是否為TRUE(注意在R中 ,TRUE要全部大寫
- 對表格列名進行重命名:
- 對日期格式的處理:用R語言中的字元串處理包stringr,先安裝
>library(stringr) 注意安裝包的函數install沒有ed,pakages,有s
2016-01-01星期五 如何拆分我們想要的兩個列(星期五重新為一列):
知識點補充:用:time<-split_fixed(excelData$time," ",n=2, )拆分列;
用class函數查看某一列的數據是什麼格式
類型轉換函數: is numeric()和as.numeric() 其中is用於判斷數據屬於哪種類型,對於處理複雜的業務邏輯,例如銷售金額,判斷是否為數值。as則用於各個類型值的直接轉換如上述代碼as.Data(). 我們使用as.numeric 從銷售數據里的字元串轉為數值類型。數據排序:使用order()函數
3,分析給出的業務指標1業務指標:
消費次數=總消費次數/月份數(同一天內,同一個人發生的所有消費算作一次消費)
函數duplicated(): 表示從數據框中選出重複的數據。我們的需求是將重複的數據選出來並刪除掉。所以用邏輯運算符!來去掉多餘的數據。 用nrow獲取多少條數據。
這時需要一個月份數,如何獲取時間範圍:%%整數除法:如果有餘數,我們就將餘數去掉,保留整數部分。知識點補充:7個算術運算符:
+ 加 - 減 *乘 / 除 ^或者** 求冪 %%求余 (x mod y) x%/%y 整數除法 如:5%/%2=2
2,業務指標:月均消費金額=總消費金額/月份數
月均消費金額為實收金額(actualmoney)
R中,缺失值以符號NA(Not Available)表示;na.rm表示移除缺失值,rm 即remove 在計算時,只計算有值的數據。
3,業務指標:客單價:總消費金額/總消費次數 (客單價指門店每一個顧客平均購買商品的金額。
4,業務指標:消費趨勢建立橫坐標為周數,縱坐標為銷售金額的圖表。用分組函數tapply()來計算每周的銷售金額。當數據框需要按照其中的某一列來分組時,在組內對數據需要用指定的函數來運算。
其中代碼1:按銷售時間分組。將屬於一周的銷售時間歸為一組,用函數sum;
代碼2:將數據轉為數據框結構
接著對列名進行重命名:
用函數plot(),繪製曲線圖: # x,y軸的標籤: xlab,ylab; xaxt :禁用x軸; main:確認標題type繪製對應的x,y軸的圖形; axis():繪製坐標軸 代碼如下:總結:第三講花了好多時間在完成,總是好不容易跨出一步,遇到問題卡住了,又放棄,這樣反反覆復了5次; 今天在參考易成凡的筆記終於完成了它。感覺很容易,又不容易。一會兒看一塊聽聽猴子的筆記,一會兒看易成凡的筆記,一會兒谷歌的。但是在參考了他的筆記,整理效果回比之前兩次自己摸索的好,對整個章節的內容,知識點也會比較清楚。
推薦閱讀:
※【手撕版】MXNet應用之線性回歸
※用Power BI瀑布圖查看服飾公司財務狀況(以李寧和阿迪達斯為例)
※淺談風險指標及常用分析方法
※Python數據分析之讓數據說話
※泰坦尼克號數據分析報告
TAG:數據分析 |