玩轉Pandas，讓數據處理更easy系列4

05-07

系列回顧

玩轉Pandas系列已經連續推送3篇，盡量貼近Pandas的本質原理，結合工作實踐，按照使用Pandas的邏輯步驟，系統地並結合實例推送Pandas的主要常用功能，已經推送的3篇文章：

玩轉Pandas，讓數據處理更easy系列1

玩轉Pandas，讓數據處理更easy系列2

玩轉Pandas，讓數據處理更easy系列3

以上3篇總結了Pandas主要的兩個數據結構：Series(一維)和DataFrame(二維)，系統地介紹了創建，索引，增刪改查Series, DataFrame等常用操作介面，總結了Series如何裝載到DataFrame中，以及一個實際應用多個DataFrame的實戰項目例子。

值得推薦的是，Pandas廣泛應用在金融，統計，社會科學，和許多工程領域。Pandas和R語言直接無縫銜接。Pandas是基於Numpy(Numpy基於Python)基礎開發，因此能和帶有第三方庫的科學計算環境很好地進行集成。

Pandas核心應用場景

按照使用邏輯，盤點Pandas的主要可以做的事情：

能將Python, Numpy的數據結構靈活地轉換為Pandas的DataFrame結構(玩轉Pandas，讓數據處理更easy系列1; 玩轉Pandas，讓數據處理更easy系列2)
DataFrame可以方便地實現增加和刪除行、列 ( 玩轉Pandas，讓數據處理更easy系列2)
智能地帶標籤的切片，好玩的索引提取大數據集的子集(玩轉Pandas，讓數據處理更easy系列2 )
自動數據對齊，完全可以不考慮行、列標籤，直接append list.
靈活地對數據集Reshape和按照不同軸變化數據的Pivot操作。
強大的I/O操作。提供介面： CSV and delimited, Excel files, databases, and saving / loading data from the ultrafast HDF5 format.(玩轉Pandas，讓數據處理更easy系列2)
通俗易懂地在DataFrame結構上實現merge和join操作(merge操作見：玩轉Pandas，讓數據處理更easy系列3)
善於處理missing data，如NaN, non-floating數據。
強大而靈活的分組功能，在數據集上實現分-應用-合的操作，達到整合和改變數據形狀的目的。
時間序列的處理功能，生成 data range，移動的時間窗，時間移動和lagging等。

接下來，按照以上未涉及的思路陸續推送，歡迎補充和指正。

多Index層級結構

Pandas中什麼是有層次的數據呢？簡單來說，就是構造了一個有層次的Index實例，其他沒什麼不同。首先構造一個有層次的Index，如下：

#創建有層次的Index實例
index_name =[first,second]
lay_index = [[bar, bar, baz, baz, foo, foo, qux, qux],
[one, two, one, two, one, two, one, two]]
tuples = list(zip(*lay_index))
two_layers_index = pd.MultiIndex.from_tuples(tuples, names=index_name)
two_layers_index

有了Index實例，充填一個8行2列的數據values就行，如下所示：

res = np.array([list(np.random.randn(8)),list(np.random.randn(8))]).T # 8行2列

pd_h = pd.DataFrame(res, index=two_layers_index, columns = [A,B])
pd_h

得到數據如下，A, B 是列標籤，first, second是Index實例的標籤名稱。

這塊功能在實際使用中，暫時不常用，先不展開總結。

轉化操作

拿到一個數據表後，有時需要改變數據表的形狀，此時就要用到這塊功能: reshaping, pivot, transpose, sort等功能。

4.1 pivot

pivot是指按照指定的Index和columns，values旋轉原來的數據表。

#pivot

df = pd.DataFrame({ foo: [one,one,one,two,two,two],
bar: [A, B, C, A, B, C],
baz: [1, 2, 3, 4, 5, 6]})
df

數據顯示如下，可以看到數據的index是默認的從0開始的整數索引，columns是[bar,baz,foo]，

ok，現在我想作如下轉化，index設置為foo, columns設置為bar, values設置為baz列，

df.pivot(index=foo, columns=bar,values=baz)

轉化後的結果如下顯示：

此時這種轉化，用肉眼觀察，是比較合理的，但是有時候為了觀察多個維度，我們可能需要大量的轉化實驗，比如，這樣設置行、列、值

df.pivot(index=bar, columns=baz, values=foo)

得到的結果如下，看出這種轉化出現比較多的None值，因為這種數據軸的設置導致的，但這是正常操作。

4.2 sort

Pandas的排序操作提供了2個主要的API，分別按照值排序和索引排序。值排序的介面：

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind=quicksort, na_position=last)

例子總結裡面所有可能的排序細節問題，首先構造一個DataFrame實例，如下所示：

df = pd.DataFrame({col1 : [A, A, B, np.nan, D, C], col2 : [2, 1, 9, 7, 7, 4], col3: [0, 1,np.nan,np.nan, 2, 3]})
df

按照col1和col3這兩列的值排序結果如下：

sort_1_3 = df.sort_values(by=[col1, col3])
sort_1_3

排序後的結果如下所示：

默認情況下，排序中等於NaN的值相應地位於後面，如果設置na_position=first，才會將NaN值位於前面；
排序默認不是就地排序，inplace=False；
多列排序中，第一個參數是主排序欄位，第二個參數是次排序欄位，也就是說如果第一個主排序欄位出現重複後，按照第二個欄位排序，依此類推。

以上總結了DataFrame主要能做的事情，初步了解多層 Index是怎麼回事，以及Pivot，Sort等操作介面。歡迎指正。

如想下載以上代碼，請後台回復： pandas