Pandas | 表格整合三大神技之CONCATENATE

01-24

Pandas

pandas是（抄了R）基於（抄了MATLAB的）numpy搭建的、專門用於數據分析的Python工具箱。官網：Python Data Analysis Library

根據個人的一些使用經驗，Pandas相比於傳統的經濟學計算工具（Stata、SAS、R、MATLAB等）的優點有很多：

－相比於R等統計軟體，Pandas借鑒了R的數據結構，因此擁有了R的很多方便的數據操作特性；在語法設計上，Pandas相比於R和Stata更嚴謹並且更簡潔易用；基於Python的自動管理內存的能力，以及在很多細節上的優化（比如在數據操作過程中數據複製和引用），Pandas擁有了更好的管理和計算大數據的能力。Python處理大數據的一個優秀案例：用Python Pandas處理億級數據

－Pandas的底層基於Numpy搭建，因此Pandas擁有了Numpy的全部優點，比如，Pandas定義的數據結構可以支持Numpy已經定義的計算，相當於擁有了MATLAB的矩陣計算能力；Numpy原生的C介面，也給擴展Pandas的計算性能帶來了很大的方便。

Pandas資料分享

－ Pandas提供了大量和其他語言交互的介面（比如基於IO：IO Tools (Text, CSV, HDF5, ...)，可視化：Visualization），再加上Python原生強大的膠水能力，Python+Pandas可以良好地與其他語言交互。

－Pandas官方文檔：pandas: powerful Python data analysis toolkit。沒有比官方文檔更好的學習材料了。Pandas的文檔寫的非常清楚，並且Pandas的更新速度非常快，官方文檔以外的資料都會有很大的滯後。

－《Data Analysis with Python》：這本書是Pandas的作者寫的書，但是主要缺點是非常零散，不適合系統學習Pandas，建議粗略地看一遍用來了解Pandas的主要功能 or 數據處理的主要工作，之後遇到問題以後查閱官方文檔詳細學習。

CONCAT

pd.concat(objs, axis=0, join="outer", join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False,copy=True)

objs : #輸入,可以是pandas Series格式組成的字典,DataFrame格式或list(多個合併).

a sequence or mapping of Series, DataFrame, or Panel objects.

axis: {0, 1, ...}, default 0. #控制連接的方向,0代表列縱向,1代表行橫向

The axis to concatenate along.

join : {『inner』, 『outer』}, default 『outer』. #控制連接的索引,inner表示取表索引之間的交集,outer表示取索引的並集

How to handle indexes on other axis(es). Outer for union and innerfor intersection.

ignore_index: boolean, default False. #是否使用原索引，選捨棄便對新表重新進行索引排序。

If True, do not use the index values on the concatenation axis.

join_axes : list of Index objects. #設定使用的索引,例以df1的索引為標準,join_axes=[df1.index]

Specific indexes to use for the other n - 1 axes instead of performing inner/outer set logic.

keys : sequence, default None. #類似Multiindex,設立另一層索引

Construct hierarchical index using the passed keys as the outermost level. If
multiple levels passed, should contain tuples.

#暴走大事件四名同學的政治,英語,語文得分,索引為0,1,2,4(學號)df1=pd.DataFrame({"名字":["王尼瑪","張全蛋","趙鐵柱","李小花"], "語文":[95,88,23,66], "政治":[96,64,33,66], "英語":[66,100,33,66]} ,index=[0,1,2,4])

#NBA四名球員的失誤,籃板與英語得分,索引為1,2,3,5(球衣號)df2=pd.DataFrame({"名字":["哈登","科比","鄧肯","奧多姆"], "英語":[98,95,94,67], "籃板":[7,10,13,8], "失誤":[10,2,0,8]}, index=[1,2,3,5])

縱向合併兩表所有人與所有科目的得分,保持英語得分在同一列,並且標記暴走大事件與NBA為二層索引,標記缺失值為0.

frame=[df1,df2]df3=pd.concat(frame,keys=["暴走大事件","NBA"],axis=0,join="outer").fillna(0)

橫向合併兩表,僅比較索引相同的人(張全蛋趙鐵柱科比哈登),並且標記暴走大事件與NBA為二層索引

df4=pd.concat(frame,keys=["暴走大事件","NBA"],axis=1,join="inner")

APPEND

我們都知道APPEND常使用於list添加元素的情況中，在表格合併也可使用中APPEND，可以看做CONCAT簡易版，能夠在dataframe與series格式間使用和在縱向上連接。通常在某成熟表格添加額外行的情況下使用。

縱向合併(默認)兩表所有人與所有科目的得分,保持英語得分在同一列,標記缺失值為0,重排列索引.

df3=df1.append(df2,ignore_index=True).fillna(0)

本文同步發於集智（jizhi.im）:[Pandas] 表格整合三大神技之CONCATENATE -，原文代碼可在線調試與訓練，方便各位小夥伴練習~
更多關於python數據分析與挖掘內容請關注我的專欄：數與碼
或者關注我的知乎賬號：知行
希望觀眾老爺們能夠喜歡
求贊求關注,會有敬業福~
thx