標籤:

Python 抽取word文檔中的文本。

引言

一個付費答疑的會員,諮詢我如何將word文檔中的文本用Python抽取。

在一個星期前問我,因為本人沒有處理過這個問題,搜到一些解決方案給他。

1、python-docx

2、windows下的win32com

python-docx 只能處理docx的文件,他的word文件是doc格式。

win32com,他沒有搞定,我沒有windows,也沒有打算用這個庫。

本來答疑沒有幫助寫代碼的服務,但他搞一個星期沒有搞定,黃哥基於職業道德,

來幫助他搞定這個事。

article/Python_word_txt.md at master · pythonpeixun/article · GitHub下面來分享一下是怎麼在10分鐘內搞定他一個星期搞不定的問題。

歸功於google 和獨立思考,既然現有的庫只支持docx文檔,那麼我就思考,linux下有不有工具軟體n處理這個事情,搜索一下,還真找到了這個[antiword](http://www.winfield.demon.nl)n在mac下brew install antiwordn安裝後再在終端antiword 出院記錄.doc 文件,文本輸出了,到這裡就有譜了。n

article/Python_word_txt.md at master · pythonpeixun/article · GitHubPython 代碼就只有幾行。

#!/usr/bin/env pythonn# coding:utf-8n黃哥Pythonnnimport subprocessnword = "出院記錄.doc"noutput = subprocess.check_output(["antiword", word])nprint outputn

總結

程序員要養成獨立解決問題的習慣,快速利用google解決問題的能力。

如何訓練自己的編程思路

部分免費Python免費視頻

感恩!感謝黃哥Python培訓學員的支持和肯定

推薦閱讀:

黃哥Python轉載「Python』s super() considered super!」
python中的模塊、庫、包有什麼區別?
原來你還會python啊?

TAG:Python |