Python數據分析(一)
一、Numpy&Pandas
一維數組分析1、Numpy一維數據分析:
1、 定義:定義數組用array,參數傳入的是一個列表
eg:a=np.array([2,3,4,5])
2、 查詢:查詢數組中的元素
eg:a[0] 輸出為2
3、 切片訪問:獲取指定序號範圍的元素
eg:a[1:3]獲取到的元素序號是從1到3的元素
4、 查看數據類型:dtype
eg:a.dtype
5、 統計計算:求均值a.mean();
求標準差:a.std()
6、 向量化運行:乘以標量
eg:b=np.array([1,2,3])c=b*4輸出:array([4,8,12])
2、Numpy一維數組與列表的區別:
1、 具有統計功能,比如具有求平均值mean(),標準差std()
2、 可進行向量化計算,比如向量相加
3、 Numpy數組的每個元素都必須是同一種類型,而列表元素可以是不同的類型
3、Pandas一維數據分析
1、用Serises進行創建
Pandas的Series與Numpy的array的區別:Series有索引
2、描述性統計
3、loc和iloc屬性
loc 屬性根據位置獲取值
iloc 屬性根據索引獲取值
4、向量相加
二、Numpy和Pandas二維數組
1、numpy二維數組
1)numpy 創建二維數組
2)查詢數組中的元素
3)numpy數軸參數
2、pandas二維數組
1)創建二維數組
2)訪問數據框元素
三、數據分析的基本過程
1)提出問題;2)理解數據;3)數據清洗;4)構建模型;5)數據可視化
以朝陽醫院銷售數據分析為例:
1、首先提出問題,根據問題進行分析:根據銷售數據求a、月均消費次數;b、月均消費金額;c、客單價;d、消費趨勢
2、接著理解所分析的數據,了解數據的特點
3、數據清洗
數據清洗的步驟:
1)選擇子集
2)對列進行重命名
3)缺失數據處理
4)數據類型轉換
由於在導入數據的時候將所有數據都以字元串的形式導入,因此在分析的過程中應將有些數據轉換為數值型類型進行分析
1))將字元串轉換為日期型數據類型
*字元串分割
*選取所需的字元串
*將銷售時間改為修改後的時間值
*將字元串轉換為日期
5)數據排序
給排序後的數據集重命名行名
6)異常值處理
4、構建模型
1)計算月均消費次數
月均消費次數=總消費次數/月份數
總消費次數的計算:
將銷售時間排序,計算出月份數
求月均消費次數:
2)計算月均消費額
3)計算客單價
4)消費趨勢,畫圖:(未完,待續)
四、總結
這一節主要學習了Python中的numpy和pandas兩個包,通過學習兩個包來創建一維數組和二維數組及其一些功能進行簡單數據分析,案例朝陽醫院銷售數據分析展示了數據分析的基本過程
推薦閱讀:
※為什麼 Basic 能長期盤踞編程語言排行榜第 6 名,佔有率比 PHP、Python 還高?
※極光日報 第 163 期 | 2017 / 4 / 24
※為啥別人能找到工作,而你不能?
※Python爬蟲基礎總結