Python 與 Excel 不得不說的事
數據處理是 Python 的一大應用場景,而 Excel 則是最流行的數據處理軟體。因此用 Python 進行數據相關的工作時,難免要和 Excel 打交道。
如果僅僅是要以表單形式保存數據,可以藉助 CSV 格式(一種以逗號分隔的表格數據格式)進行處理,Excel 也支持此格式。但標準的 Excel 文件(xls/xlsx)具有較複雜的格式,並不方便像普通文本文件一樣直接進行讀寫,需要藉助第三方庫來實現。
常用的庫是 python-excel 系列:
xlrd、xlwt、xlutilsxlrd - 讀取 Excel 文件
xlwt - 寫入 Excel 文件
xlutils - 操作 Excel 文件的實用工具,如複製、分割、篩選等
儘管這是目前被用得最多的 Excel 庫,我還是很想吐槽為什麼這三個包不能放在一個模塊里……另外它們有個缺陷,就是只能處理 xls 文件。如果你想用新版本的 xlsx,可以考慮 openpyxl 和 xlsxwriter。
不過今天只說說這三個。
(更新:有人提到另外幾個 Python 處理 Excel 的庫,有些的確會比 python-excel 系列好用。之後會再做一篇對比,敬請期待。
另外,關於為什麼不用 VBA、Java、C#……處理 Excel。其實本文的出發點是對於 Python 使用者來說,操作 Excel 的一種基本方式,並非否定其他語言和方法。)
安裝
安裝的方法沒啥特別的,只是得裝三遍。可以下載安裝包、下載代碼壓縮包、或者通過 pip 等。可參考 如何安裝 Python 的第三方模塊 - Crossin的編程教室 - 知乎專欄
如果安裝過之前推薦的 anaconda,那麼就已經有了 xlrd 和 xlwt,但 xlutils 沒有附帶在安裝包中,使用時仍需另行安裝。
讀取
結合一段簡單的代碼來看:
import xlrdn# 打開 xls 文件nbook = xlrd.open_workbook("test.xls")nprint "表單數量:", book.nsheetsnprint "表單名稱:", book.sheet_names()n# 獲取第1個表單nsh = book.sheet_by_index(0)nprint u"表單 %s 共 %d 行 %d 列" % (sh.name, sh.nrows, sh.ncols)nprint "第二行第三列:", sh.cell_value(1, 2)n# 遍歷所有表單nfor s in book.sheets():n for r in range(s.nrows):n # 輸出指定行n print s.row(r)n
測試文件:
輸出結果:
表單數量: 2
表單名稱: [uGroup.A, uGroup.B]
表單 Group.A 共 7 行 3 列
第二行第三列: 15.0
[text:uRank, text:uTeam, text:uPoints]
[number:1.0, text:uBrazil, number:15.0]
[number:2.0, text:uRussia, number:12.0]
...
常用的方法:
open_workbook 打開文件
sheet_by_index 獲取某一個表單
sheets 獲取所有表單
cell_value 獲取指定單元格的數據
寫入
還是看代碼:
import xlwtn# 創建 xls 文件對象nwb = xlwt.Workbook()n# 新增一個表單nsh = wb.add_sheet(A Test Sheet)n# 按位置添加數據nsh.write(0, 0, 1234.56)nsh.write(1, 0, 8888)nsh.write(2, 0, hello)nsh.write(2, 1, world)n# 保存文件nwb.save(example.xls)n
生成文件:
常用的方法:
Workbook 創建文件對象
add_sheet 新增一個表單
write 在指定單元格寫入數據
修改
很遺憾,並沒有直接修改 xls 文件的方法。通常的做法是,讀取出文件,複製一份數據,對其進行修改,再保存。
在複製時,需要用到 xlutils 中的方法。
from xlrd import open_workbooknfrom xlutils.copy import copyn# 打開文件nrb = open_workbook("example.xls")n# 複製nwb = copy(rb)n# 選取表單ns = wb.get_sheet(0)n# 寫入數據ns.write(0, 1, new data)n# 保存nwb.save(example.xls)n
修改後文件:
特別要注意的是,選取讀取表單時,要使用 sheet_by_index,而在選取寫入表單時,則要用 get_sheet。不要問我為什麼,我也很想知道這麼設定的用意何在……
時間轉換
如果表單中有時間格式的數據,通過處理之後,你會發現時間數據出了差錯。
輸出單元格內容:
[number:8888.0, xldate:42613.0]
因為這裡 xldate 有自己的格式定義。如果要使用正確的格式,必須轉換:
new_date = xlrd.xldate.xldate_as_datetime(date, book.datemode)n
date 是對應單元格的數據,book 是打開的文件對象。
另外,在打開文件時,加上參數 formatting_info=True,可以保證在時間數據在 copy 時保持原樣。
寫入時間數據,則可通過此方法創建 excel 的時間對象:
xlrd.xldate.xldate_from_datetime_tuplen
或者通過 xlwt.easyxf 指定時間格式:
style = xlwt.easyxf(num_format_str=D-MMM-YY)nws.write(1, 0, datetime.now(), style)n
具體細節及更多功能這裡不展開說明。
以上便是 Python 操作 Excel 文件的一些基本方法。實際使用過程中遇到問題或者需要了解更多功能,永遠記住兩個詞:
RTFM、STFW
:)
參考資料:
http://www.python-excel.org/https://github.com/python-excelhttps://github.com/python-excel/tutorial/raw/master/python-excel.pdf其他文章及回答:
想用 Python 做數據分析?先玩玩這個再說 - Crossin的文章 - 知乎專欄用 Python 實現你的量化交易策略 - Crossin的文章 - 知乎專欄學習編程的過程中可能會走哪些彎路,有哪些經驗可以參考? - Crossin 的回答你是如何自學 Python 的? - Crossin 的回答編程初學者如何使用搜索引擎 - Crossin的文章 - 知乎專欄如何直觀地理解程序的運行過程?- Crossin的文章 - 知乎專欄如何在 Python 中使用斷點調試 - Crossin的文章 - 知乎專欄
Python 抓取網頁亂碼原因分析 - Crossin的編程教室 - 知乎專欄極簡 Github 上手教程 - Crossin的編程教室 - 知乎專欄Crossin的編程教室
微信ID:crossincode論壇:Crossin的編程教室QQ群:149164011微信群:crossin11推薦閱讀:
※就給大家看看反正也沒法用的隨機地圖生成器
※作為一名學生,是否應該去花較多的精力看linux內核的源碼呢?然後再重新造一個小型的輪子。
※如何利用已有的流行即時通訊軟體實現自定義加密通信?
※php創建的文件夾名里含有「黒」字時,「黒」字較大概率會重複出現,請問是何原因?
※如何評價《AWS S3 雲存儲莫名消失:各大網站和 Docker 紛紛中招!》?
TAG:Python | MicrosoftExcel | 编程 |