首篇數據分析報告出爐
如果你的目標是:快速從一個小白成長為入門級數據分析師,那麼,編製一份看起來不錯的數據分析報告,絕對是你加入這個行業的敲門磚,也是面試的加分項。帶著這個目標,今天手把手教你如何編製一份數據分析報告。
(一)項目名稱:分析2018年朝陽醫院銷售數據
(二)數據分析步驟
在程序員的是世界裡流行這樣一句話「No more talk,Show me the code"。用數據說話,不要扯淡。數據分析的目標是為了解決實際問題,比如「如何提高銷量」,「消費者偏好分析」等。圍繞實際業務問題,我們可以按照下圖的5個步驟利用數據分析:
本次我們分析2018年朝陽醫院銷售數據,按照上述5個步驟逐一進行
Step 1:提出問題
針對2018年朝陽醫院銷售數據分析這個命題,你的上級、產品經理或僱主等提出3個指標需要你來使用數據進行分析
指標1:月均消費次數
指標2:月均消費金額
指標3:客單價
Step 2:理解數據
「巧婦難為無米之炊」,確定好研究方向後,我們需要採集和理解數據。理解數據的3個步驟依次是:採集數據——導入數據——查看數據信息。
2.1 採集數據:
此次數據的來源是現成的Excel表格(實際問題中,數據來自網頁、API介面、SQL等)
2.2 導入數據:
2.3 查看數據信息:
Step 3:數據清洗(重點)
數據清洗即數據預處理,就是要把採集到的不規範的數據轉換成我們可以用來分析的數據,這個過程往往需要反覆多次,在實際應用中,數據清洗會佔據60%的時間,也是考驗程序員硬功夫的過程。數據清洗包括6個步驟:選擇子集——重命名列名——缺失數值處理——數據類型轉換——數據排序——處理異常值。
3.1 選擇子集:
利用切片loc功能,我們只選擇了從購葯時間到銷售數據這5列的數據,並列印出前5行。
3.2 重新命名列名:
原始表中的「購葯時間」欄位不便於我們理解,在此我們利用rename功能將其改為「銷售時間」,同事保持列中的數據不變。
3.3 刪除缺失值:
為了便於業務分析,利用dropna方法,刪除「銷售時間」和「社保卡號」,兩列中的缺失值,可以看出刪除後行有所變化。
3.4 數據類型轉換:
3.4.1 將「銷售數量」、「應收金額「、「實收金額」三列的數據從字元串(Str)變為浮點類型(Float)。
3.4.2 使用字元串分割,去掉「銷售日期」中的星期欄位
3.4.3 將「銷售時間」列表中的數據從字元串(Str)轉變成日期格式。
3.4:異常值處理
Step 4:構建模型
現在我們才進入指標的分析,如果模型較為複雜,可以使用機器學習。
4.1 指標1:月均消費次數= 總消費次數/月份數
4.2 指標2:月均消費金額
4.3 指標3:客單價
以上呈現了數據分析的前4個步驟,數據可視化我們下次再討論。
推薦閱讀:
※Kaggle 數據清洗挑戰 Day 1 - 手把手教你五步處理缺失值
TAG:數據清洗 |