Python分析入門—藥店分析實例探索
1、數據分析的基本過程:
(1)提出問題:肯定是來自於實際問題,並想去解決。
(2)理解數據:根據定義的問題來採集相關的數據,然後導入到python數據結構中
(3)數據清洗:對數據進行預處理
(4)構建模型:對清洗後的數據進行簡單分析,複雜的需要機器模型的演算法
(5)數據可視化:通過圖表的方式展示出來
2、數據分析的數據清洗過程是重中之重,常規由6步構成:
(1)選擇子集:只選取我們數據分析需要的。
(2)列名重命名:方便數據分析理解
(3)缺失數據處理:處理缺失數據或空值
(4)數據類型轉換:轉換成可以分析的數據類型
(5)數據排序:提取有價值的信息
(6)異常值處理:超過定義範圍,對異常值進行處理
3、下面以藥店分析為案例進行介紹:
3.1 首先提出問題,根據朝陽醫院2018年的銷售數據來分析出月均消費次數、月均消費金額、客單價。做法是讀取Excel文件,然後通過.head()命令查看能否正常顯示。
3.2 下一步理解數據,根據.shape以及.dtypes命令查看數據行列數及每列數據類型。
3.3 開始重要的數據清理,首先通過rename命令修改列名稱,刪除指定列的缺失值(通過.dropna命令,subset存放刪除指定列,how如何刪除缺失值,any任何一列有缺失值就刪除),通過.shape命令確認先後修改變化。
3.3.1 進行數據類型轉換,通過.dtypes命令查看數據類型,通過.astype對銷售數量、金額列轉化為數值型。同時通過split分割命令,創建對銷售時間進行一整列分割的函數來進行分割,最後通過.loc讀取銷售時間列是否修改成了自己需要的形式,同時要經常通過.dtypes查看數據類型,如發現異常,要進行空值的刪除。
3.3.2 對數據進行排序,通過sort_values對制定的列名進行排序,通過index重命名行名,修改成從0到N按順序的索引值。
3.3.3 對異常值進行處理,通過.describe()對異常值進行處理,主要通過count數據總數、mean平均值、std標準差等數據進行查看。
3.4 構建本案例中提出的模型,明確計算公式:月均消費次數=總消費次數/消費數,月均消費金額=總金額 / 月份數,客單價:總消費金額/總消費次數。
3.5 將數據結果可視化呈現,在後期將會學習到
4、相關重點備忘:
(1)Numpy一維數組:Array
(2)Pandas一維數組:Series
(3)Numpy一維數組:Array
(4)Pandas二維數組:數據框DataFrame
df.loc[行名稱,列名稱]
(5)切片功能:df.loc[行名稱1:行名稱2,列名稱]
df.loc[:,列名稱],表示所有列名稱
推薦閱讀:
※微博盛傳的914UFO事件,從專業角度講,這視頻的真實性如何?
※mypmmp.com 2018年5月6日更新日誌
※《天工開物》的偉大性(轉載)
※為什麼太陽光能夠變成電?
※看奧特曼時,發現奧特曼穿幫了是什麼感覺?