利用Pandas進行醫院銷售數據分析
本文包括兩個部分,第一部分講解Numpy和Pandas應用基礎,第二部分引入案例。
1.Numpy和Pandas基礎
Numpy與Pandas是Python中數據分析常用的兩個擴展包。Numpy提供數組支持以及相應的高效處理函數,同時很多高級擴展包依賴它,例如:Scipy、Matplotlib、Pandas。Pandas是Python最強大的數據分析和探索工具。
*使用前需要在Anacoda Prompt中安裝Numpy與Pandas包,安裝代碼為conda install numpy,conda install pandas。
1.1. 一維數據結構
Numpy與Pandas包中均有一維數組結構,Numpy中為Array,Pandas中為Series。雖然Pandas中功能更為豐富,但Pandas是以Numpy為基礎的,所以首先從Numpy學起。以下用表格展示在Numpy與Pandas包中一維數組的各項操作,建議電腦端大圖觀看。
1.2. 二維數據結構
二維數據結構是指有行又有列的數據結構。在Numpy中通過Array創建二維數組,在Pandas中通過數據框(DataFrame)創建二維數組。其中Pandas的DataFrame比起Array,有兩個優點:1是每一列的數據類型可以不同,能夠操作類似excel表格的數據;2是有類似Series中的索引。
2.醫院銷售數據分析
一般的數據分析過程分為以下5步:
2.1.提出問題
一切數據分析的目標是為了解決工作和生活中的實際問題,明確的問題為後續分析過程提供了一個目標,是數據分析的第一步。
2.1.1.在本案例中,從銷售數據中分析出以下業務指標:
1)月均消費次數2)月均消費金額3)客單價4)消費趨勢
2.2.理解數據
理解數據包括三個方面,一是採集數據,要根據所分析的問題採集相關數據;二是導入數據,包括從Excel和Web端導入數據;三是查看數據集信息,比如描述統計信息。
2.2.1.採集數據:
本案例已採集數據,關注猴子聊人物公眾號,回復資料獲取朝陽醫院2018年銷售數據.xlsx。
2.2.2.導入數據:
2.2.3.查看數據集信息:
2.3.數據清洗
也叫數據預處理。一次數據分析有大約60%的時間花在數據清洗過程。數據清洗分為以下6個步驟:
2.3.1.選擇子集:
有時候數據集中有很多列,其中只有一部分是我們需要的,此時需要選擇數據集的子集作為研究對象。
本案例不需要選擇子集,下面介紹選擇子集的一般方法:
2.3.2.列名重命名:
如果數據列名不符合使用習慣,或不方便用來數據分析,需要對列名進行重命名。
2.3.3.缺失數據處理:
原始數據由於記錄缺失會有缺失值,一般直接刪除缺失值。如果缺失數據較多,可通過建立模型插值來補充數據。通過前序工作查看工作表信息已知行列數分別為6578行, 7列。
2.3.4.數據類型轉換:
*字元串分割:在"銷售時間"列中提取銷售日期
*數據類型轉換:將字元串轉換為日期
2.3.5.數據排序:
通過數據排序可以快速確定數據範圍。以下按升序排序銷售日期。
2.3.6.異常值處理:
2.4.構建模型
對清洗後的數據進行分析。簡單的分析就是得出一些業務指標,複雜的分析需要運用機器學習的演算法訓練模型。
2.4.1.業務指標1:月均消費次數=總消費次數 / 月份數
2.4.2.指標2:月均消費金額 = 總消費金額 / 月份數
2.4.3.指標3:客單價=總消費金額 / 總消費次數
客單價(per customer transaction)是指商場(超市)每一個顧客平均購買商品的金額,客單價也即是平均交易金額。
2.4.4.指標4:消費趨勢
2.5.數據可視化
與他人交流數據分析結果最好的方式是圖表。
畫圖在可視化章節具體講解。
推薦閱讀:
※一張象棋圖看懂鹿豹座平台的業務內容
※數據分析基本過程
※用數據講故事
※【數據分析】中文筆記翻譯計劃順利結束
※數據團隊建設思考
TAG:數據分析 |