給妹子講python-S02E15創建Pandas多級索引

05-03

python，不管你懂沒懂，反正妹子是搞懂了

轉載請註明：知乎專欄《給妹子講python》

【要點搶先看】

1.帶多級索引的Series數據類型2.多級索引Series對象和DataFrame對象的相互轉化3.帶多級索引的DataFrame數據類型4.多級索引的創建方法5.多級行索引和多級列索引舉例

之前的幾集里，我們使用了Series數據類型表示一維數據（即僅有一個索引列），用DataFrame類型數據表示二維數據（即包含行索引和列索引這兩維索引數據）。

但是如果是下面這種情況呢？比如我們用Series來表示美國不同的州、不同年份的人口數據，這對Series來說就相當於有了兩個索引值：即（州，人口）二維索引，第一反應我們嘗試使用元組來表示索引信息：

import pandas as pdimport numpy as npindex = [(California, 2008), (California, 2018), (New York, 2008), (New York, 2018), (Texas, 2008), (Texas, 2018)]population = [33870000, 37250000, 18970000, 19370000, 20850000, 25140000]pop = pd.Series(population, index=index)print(pop)(California, 2008) 33870000(California, 2018) 37250000(New York, 2008) 18970000(New York, 2018) 19370000(Texas, 2008) 20850000(Texas, 2018) 25140000dtype: int64

這是我們第一直覺所採取的方法，但是這種形式在數據的操作上很不方便，比如我們要拿出所有2018年的數據，似乎比較繁瑣。

不用著急，Pandas為我們提供了更好、更直觀的解決方法，他提供了一個MultiIndex類型，專門用來處理這種多級索引的問題。

我們嘗試用這種方法做一個示範：

import pandas as pdimport numpy as npindex = [(California, 2008), (California, 2018), (New York, 2008), (New York, 2018), (Texas, 2008), (Texas, 2018)]mul_index = pd.MultiIndex.from_tuples(index)print(mul_index)MultiIndex(levels=[[California, New York, Texas], [2008, 2018]], labels=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])

我們生成了一個MultiIndex類型的對象，其中levels屬性的兩個列表元素表示兩個索引列里的值，labels里則表示每一個索引列每個位置上對應的是levels相應列表裡的第幾個元素。

我們用這種方式，重新來構建一個帶有多維索引的Series類型數據：

import pandas as pdimport numpy as npindex = [(California, 2008), (California, 2018), (New York, 2008), (New York, 2018), (Texas, 2008), (Texas, 2018)]mul_index = pd.MultiIndex.from_tuples(index)population = [33870000, 37250000, 18970000, 19370000, 20850000, 25140000]pop = pd.Series(population, index=mul_index)print(pop)California 2008 33870000 2018 37250000New York 2008 18970000 2018 19370000Texas 2008 20850000 2018 25140000dtype: int64

在結果中，我們可以看到，前面兩列表示Series的多級索引，第三列是我們的數據，那麼回到剛剛的問題，如果此時我們想獲取2018年的所有數據，做法就相當簡單了：

print(pop[:, 2018])California 37250000New York 19370000Texas 25140000dtype: int64

簡簡單單用二維的切片方式就可以處理了。

【妹子說】二維的Series，怎麼感覺和DataFrame其實是一回事兒呢？

沒錯，其實我們把其中的一維索引放到行的位置上，可不就成了一個普通的二維DataFrame對象嘛，而且Pandas里還提供了方法讓這二者互相轉化。我們還是沿用上面的二維Series對象pop來舉個例子：

df_pop = pop.unstack()print(df_pop)print(df_pop.stack()) 2008 2018California 33870000 37250000New York 18970000 19370000Texas 20850000 25140000California 2008 33870000 2018 37250000New York 2008 18970000 2018 19370000Texas 2008 20850000 2018 25140000dtype: int64

unstack( )方法可以使一個帶有多級索引的Series轉化為一個普通的DataFrame對象，而stack( )方法實現的則是相反方向的操作。

【妹子說】既然二維Sereis可以用DataFrame來表示，那幹嘛還要費勁去了解這個多級索引？

很簡單，因為還有更高維的數據，既然我們可以用一維Sereis來表示二維的數據，那麼也可以用Sereis、DataFrame來表示三維甚至是更高維的數據。

比如，我們要表示上述三個州，2008/2018，總人口/18歲以下的人口，我們看到這是三維信息了，怎麼樣，是不是最終還是逃不掉多級索引？

這次我們使用DataFrame來表示三級索引，用我們之前講過的DataFrame構造的方法，用字典列表來進行構造：

import pandas as pdimport numpy as npindex = [(California, 2008), (California, 2018), (New York, 2008), (New York, 2018), (Texas, 2008), (Texas, 2018)]mul_index = pd.MultiIndex.from_tuples(index)population = [33870000, 37250000,18970000, 19370000, 20850000, 25140000]under_18_pop = [9267089, 9284094, 4687374, 4318033, 5906301, 6879014]pop = pd.Series(population, index=mul_index)pop_df = pd.DataFrame({total:pop, under18:under_18_pop})print(pop_df) total under18California 2008 33870000 9267089 2018 37250000 9284094New York 2008 18970000 4687374 2018 19370000 4318033Texas 2008 20850000 5906301 2018 25140000 6879014

這種有多級索引的DataFrame，同樣也是運用類似pop_df[total]這種字典鍵的形式來獲取列信息。

print(pop_df[under18])print(pop_df[under18]/pop_df[total])California 2008 9267089 2018 9284094New York 2008 4687374 2018 4318033Texas 2008 5906301 2018 6879014Name: under18, dtype: int64California 2008 0.273608 2018 0.249237New York 2008 0.247094 2018 0.222924Texas 2008 0.283276 2018 0.273628dtype: float64

我們還可以看出，在含有多級索引的Series和DataFrame數據類型中，除了多級索引之外，其他的包括創建、數據訪問等部分的操作都是一樣的。

因此最核心的就是多級索引的創建，下面我們來總結一下幾種常見的創建的方法：

第一種方式，我們提供一個嵌套列表，其中每一個元素都是一個列表，分別對應一個完整的索引列表。

import pandas as pdimport numpy as npmul_index = pd.MultiIndex.from_arrays([[a, a, b, b],[1,2,1,2]])print(mul_index)MultiIndex(levels=[[a, b], [1, 2]], labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

第二種是我們前面用過的，利用一個元組列表來生成多級索引，其中每一個元組都表示多級索引中一一對應的兩項：

import pandas as pdimport numpy as npmul_index = pd.MultiIndex.from_tuples([(a, 1), (a, 0), (b, 1), (b, 0)])print(mul_index)MultiIndex(levels=[[a, b], [0, 1]], labels=[[0, 0, 1, 1], [1, 0, 1, 0]])

第三種方式是直接傳入levels和labels標籤進行構造：

import pandas as pdimport numpy as npmul_index = pd.MultiIndex(levels=[[a, b], [0, 1]], labels=[[0, 0, 1, 1], [1, 0, 1, 0]])print(mul_index)MultiIndex(levels=[[a, b], [0, 1]], labels=[[0, 0, 1, 1], [1, 0, 1, 0]])

第四種是一種所謂「相乘」的形式，寫法上比較簡單，實現兩兩索引按順序分別組合：

import pandas as pdimport numpy as npmul_index = pd.MultiIndex.from_product([[2008,2018],[1,2]])print(mul_index)MultiIndex(levels=[[2008, 2018], [1, 2]], labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

為了更清晰的表徵每一個索引列，我們可以給每一個索引都加一個名字：

pop = pd.Series(population, index=mul_index)pop.index.names = [state, year]print(pop)state yearCalifornia 2008 33870000 2018 37250000New York 2008 18970000 2018 19370000Texas 2008 20850000 2018 25140000dtype: int64

【妹子說】之前我們舉的幾個例子都是行索引，那列索引應該也可以是多級的吧。

當然，我們可以設置二維列索引，結合之前的二維行索引，我們就可以表示四維數據了。我們看下面的這個例子：

import pandas as pdimport numpy as npindex = pd.MultiIndex.from_product([[2008,2018],[1,2]], names=[year,visit])colomus = pd.MultiIndex.from_product([[Tom,Bill],[22,18]], names=[name,age])data = np.random.randn(4,4)df_data = pd.DataFrame(data,index=index,columns=colomus)print(df_data)name Tom Bill age 22 18 22 18year visit 2008 1 -1.225804 -0.363311 0.098241 -1.318783 2 0.456561 -1.049426 0.407306 -1.0149732018 1 2.178388 -0.491357 1.184801 0.341740 2 -2.536552 -0.351532 -0.233742 -0.164102

【妹子說】這樣一來，在行方向和列方向上，都存在多級索引，那麼如何通過索引實現對DataFrame值的訪問呢？

恩，多級索引的取值問題是一個重點，不過今天的內容已經夠多啦，這個內容我們下一集慢慢再說。