用Python開始的數據分析——分組groupby（1）

04-24

Dear all，

嘿 ~ 好久不見，感覺快要有半年沒有更新了，看著偶爾冒出來的關注，還是有點不好意思的（……內心狂喜……）。對，我又、又轉行了！所以不能繼續寫 Django 了，但是和Python 就此結下的孽緣還沒有結束。

新的內容，新的坑，以後就請多多指教咯！

本篇內容：基於numpy、pandas 庫，對 groupby 在數據分析中的基礎應用場景，進行演示。

基礎知識：對 numpy、pandas 庫的有初步的接觸

工具： Notebook

適用：初級

一、groupby 能做什麼？

分組！

分組後，組內運算！

想按照「男女」快速分組，然後分別計算男女平均身高這類的問題，簡直就是小case！

按照"每年、每月、每周" 做報表統計，沒問題！

支持自定義分組，自定義函數，隨便你怎麼玩！

二、單類分組

A.groupby("性別")

首先，我們有一個變數A，數據類型是DataFrame

想要按照【性別】進行分組

得到的結果是一個Groupby對象，還沒有進行任何的運算。

describe()

描述組內數據的基本統計量

A.groupby("性別").describe().unstack()

* 只有數字類型的列數據才會計算統計

* 示例裡面數字類型的數據有兩列【班級】和【身高】

但是，我們並不需要統計班級的均值等信息，只需要【身高】，所以做一下小的改動：

A.groupby("性別")["身高"].describe().unstack()

unstack()

索引重排

上面的例子裡面用到了一個小的技巧，讓運算結果更便於對比查看，感興趣的同學可以自行去除unstack，比較一下顯示的效果

三、多類分組

A.groupby( ["班級","性別"])

單獨用groupby，我們得到的還是一個 Groupby 對象。

mean()

組內均值計算

DataFrame的很多函數可以直接運用到Groupby對象上。

上圖截自 pandas 官網 document，這裡就不一一細說。

我們還可以一次運用多個函數計算

A.groupby( ["班級","性別"]).agg([np.sum, np.mean, np.std]) # 一次計算了三個

agg()

分組多個運算

四、時間分組

時間序列可以直接作為index，或者有一列是時間序列，差別不是很大。

這裡僅僅演示，某一列為時間序列。

為A 新增一列【生日】，由於分隔符「/」的問題，我們查看列屬性，【生日】的屬性並不是日期類型

我們想做的是:

1、按照【生日】的【年份】進行分組，看看有多少人是同齡？

A["生日"] = pd.to_datetime(A["生日"],format ="%Y/%m/%d") # 轉化為時間格式A.groupby(A["生日"].apply(lambda x:x.year)).count() # 按照【生日】的【年份】分組

進一步，我們想選拔：

2、同一年作為一個小組，小組內生日靠前的那一位作為小隊長：

A.sort_values("生日", inplace=True) # 按時間排序A.groupby(A["生日"].apply(lambda x:x.year),as_index=False).first()

as_index=False

保持原來的數據索引結果不變

first()

保留第一個數據

Tail(n=1)

保留最後n個數據

再進一步：

3、想要找到哪個月只有一個人過生日

A.groupby(A["生日"].apply(lambda x:x.month),as_index=False) # 到這裡是按月分組A.groupby(A["生日"].apply(lambda x:x.month),as_index=False).filter(lambda x: len(x)==1)

filter()

對分組進行過濾，保留滿足（）條件的分組

以上就是 groupby 最經常用到的功能了。

用 first（），tail（）截取每組前後幾個數據

用 apply（）對每組進行（自定義）函數運算

用 filter（）選取滿足特定條件的分組

今天的內容就到這裡，希望對你有用：）