標籤:

Python分析入門—藥店分析實例探索

1、數據分析的基本過程:

(1)提出問題:肯定是來自於實際問題,並想去解決。

(2)理解數據:根據定義的問題來採集相關的數據,然後導入到python數據結構中

(3)數據清洗:對數據進行預處理

(4)構建模型:對清洗後的數據進行簡單分析,複雜的需要機器模型的演算法

(5)數據可視化:通過圖表的方式展示出來

2、數據分析的數據清洗過程是重中之重,常規由6步構成:

(1)選擇子集:只選取我們數據分析需要的。

(2)列名重命名:方便數據分析理解

(3)缺失數據處理:處理缺失數據或空值

(4)數據類型轉換:轉換成可以分析的數據類型

(5)數據排序:提取有價值的信息

(6)異常值處理:超過定義範圍,對異常值進行處理

3、下面以藥店分析為案例進行介紹:

3.1 首先提出問題,根據朝陽醫院2018年的銷售數據來分析出月均消費次數、月均消費金額、客單價。做法是讀取Excel文件,然後通過.head()命令查看能否正常顯示。

3.2 下一步理解數據,根據.shape以及.dtypes命令查看數據行列數及每列數據類型。

3.3 開始重要的數據清理,首先通過rename命令修改列名稱,刪除指定列的缺失值(通過.dropna命令,subset存放刪除指定列,how如何刪除缺失值,any任何一列有缺失值就刪除),通過.shape命令確認先後修改變化。

3.3.1 進行數據類型轉換,通過.dtypes命令查看數據類型,通過.astype對銷售數量、金額列轉化為數值型。同時通過split分割命令,創建對銷售時間進行一整列分割的函數來進行分割,最後通過.loc讀取銷售時間列是否修改成了自己需要的形式,同時要經常通過.dtypes查看數據類型,如發現異常,要進行空值的刪除。

將修改的值賦到sale_Df中

銷售時間數據類型有問題,需要修改

3.3.2 對數據進行排序,通過sort_values對制定的列名進行排序,通過index重命名行名,修改成從0到N按順序的索引值。

3.3.3 對異常值進行處理,通過.describe()對異常值進行處理,主要通過count數據總數、mean平均值、std標準差等數據進行查看。

發現異常值,進行條件查詢,刪除

3.4 構建本案例中提出的模型,明確計算公式:月均消費次數=總消費次數/消費數,月均消費金額=總金額 / 月份數,客單價:總消費金額/總消費次數。

梳理總次數,保證不重複計算每天購買次數

計算最終結果

3.5 將數據結果可視化呈現,在後期將會學習到

4、相關重點備忘:

(1)Numpy一維數組:Array

(2)Pandas一維數組:Series

(3)Numpy一維數組:Array

(4)Pandas二維數組:數據框DataFrame

df.loc[行名稱,列名稱]

(5)切片功能:df.loc[行名稱1:行名稱2,列名稱]

df.loc[:,列名稱],表示所有列名稱

推薦閱讀:

微博盛傳的914UFO事件,從專業角度講,這視頻的真實性如何?
mypmmp.com 2018年5月6日更新日誌
《天工開物》的偉大性(轉載)
為什麼太陽光能夠變成電?
看奧特曼時,發現奧特曼穿幫了是什麼感覺?

TAG:Python | 科技 |