Python 抽取word文檔中的文本。
01-28
引言
一個付費答疑的會員,諮詢我如何將word文檔中的文本用Python抽取。
在一個星期前問我,因為本人沒有處理過這個問題,搜到一些解決方案給他。1、python-docx2、windows下的win32com
python-docx 只能處理docx的文件,他的word文件是doc格式。win32com,他沒有搞定,我沒有windows,也沒有打算用這個庫。本來答疑沒有幫助寫代碼的服務,但他搞一個星期沒有搞定,黃哥基於職業道德,來幫助他搞定這個事。
article/Python_word_txt.md at master · pythonpeixun/article · GitHub下面來分享一下是怎麼在10分鐘內搞定他一個星期搞不定的問題。
歸功於google 和獨立思考,既然現有的庫只支持docx文檔,那麼我就思考,linux下有不有工具軟體n處理這個事情,搜索一下,還真找到了這個[antiword](http://www.winfield.demon.nl)n在mac下brew install antiwordn安裝後再在終端antiword 出院記錄.doc 文件,文本輸出了,到這裡就有譜了。n
article/Python_word_txt.md at master · pythonpeixun/article · GitHubPython 代碼就只有幾行。
#!/usr/bin/env pythonn# coding:utf-8n黃哥Pythonnnimport subprocessnword = "出院記錄.doc"noutput = subprocess.check_output(["antiword", word])nprint outputn
總結
程序員要養成獨立解決問題的習慣,快速利用google解決問題的能力。
如何訓練自己的編程思路
部分免費Python免費視頻
感恩!感謝黃哥Python培訓學員的支持和肯定
推薦閱讀:
※黃哥Python轉載「Python』s super() considered super!」
※python中的模塊、庫、包有什麼區別?
※原來你還會python啊?
TAG:Python |