手把手 | 20行Python代碼教你批量將PDF轉為Word

02-24

大數據文摘作品

投稿作者｜丁彥軍

在日常工作或學習中，經常會遇到這樣的無奈：

「小任，你把這個PDF中的文件碼出來發我」

艹，倒霉，2M的PDF12點也完不了啊！

很多時候在學習時發現許多文檔都是PDF格式，PDF格式卻不利於學習使用，因此需要將PDF轉換為Word文件，但或許你從網上下載了很多軟體，但只能轉換前五頁（如WPS等），要不就是需要收費，那有沒有免費的轉換軟體呢？

so，我們給各位帶來了一個免費簡單快速的方法，手把手教你用Python批量處理PDF格式文件，獲取自己想要的內容，存為word形式。

在實現PDF轉Word功能之前，我們需要一個python的編寫和運行環境，同時安裝好相關的依賴包。對於python環境，我們推薦使用PyCharm。在本地電腦環境，anaconda提供了非常便利的安裝和部署。

PDF轉Word功能所需的依賴包如下：

PDFParser（文檔分析器）
PDFDocument（文檔對象）
PDFResourceManager（資源管理器）
PDFPageInterpreter（解釋器）
PDFPageAggregator（聚合器）
LAParams（參數分析器）

前期準備工作

說明：本文是在Windows7下使用python最新的3.6版本

1.安裝pdfminer3k模塊

安裝anaconda後，直接可以通過pip安裝

2.若安裝不成功，可以試試下面方法

首先下載pdfminer3k：https://pypi.python.org/pypi/pdfminer3k；然後安裝pdfminer，將下載好的pdfminer3k解壓到D:或其他合適的盤符，通過win+r 打開運行窗口，輸入cmd；輸入D:切換到D盤，cd pdfminer3k(pdf解壓的文件夾)，輸入setup.py install安裝軟體。

最終顯示Finished，則代表成功

代碼實操

1.導入相關包

from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.layout import LAParamsfrom pdfminer.converter import PDFPageAggregator

整體思路為：構造文檔對象，解析文檔對象，提取所需內容

2.導入需要解析的PDF文件

將所需解析的文件與執行代碼放到同一個目錄下，如圖：

test.pdf內容

3.具體代碼如下：

from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.layout import LAParamsfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.pdfinterp import PDFTextExtractionNotAlloweddef parse(): #rb以二進位讀模式打開本地pdf文件 fn = open(test.pdf,rb) #創建一個pdf文檔分析器 parser = PDFParser() #創建一個PDF文檔 doc = PDFDocument() #連接分析器與文檔對象 parser.set_document() doc.set_parser() # 提供初始化密碼doc.initialize("lianxipython") # 如果沒有密碼就創建一個空的字元串 doc.initialize("") # 檢測文檔是否提供txt轉換，不提供就忽略 if not doc.is_extractable: raise PDFTextExtractionNotAllowed else: #創建PDf資源管理器 resource = PDFResourceManager() #創建一個PDF參數分析器 laparams = LAParams() #創建聚合器,用於讀取文檔的對象 device = PDFPageAggregator(resource,laparams=laparams) #創建解釋器，對文檔編碼，解釋成Python能夠識別的格式 interpreter = PDFPageInterpreter(resource,device) # 循環遍歷列表，每次處理一頁的內容 # doc.get_pages() 獲取page列表 for page in doc.get_pages(): #利用解釋器的process_page()方法解析讀取單獨頁數 interpreter.process_page(page) #使用聚合器get_result()方法獲取內容 layout = device.get_result() #這裡layout是一個LTPage對象,裡面存放著這個page解析出的各種對象 for out in layout: #判斷是否含有get_text()方法，獲取我們想要的文字 if hasattr(out,"get_text"): print(out.get_text()) with open(test.txt,a) as f: f.write(out.get_text()+ )if __name__ == __main__: parse()

最終得到的test.txt結果如下：

結束

對於Python批量PDF轉Word的操作介紹就到此，本文僅僅作為一種運用庫展示代碼編寫過程，具體技術還需要有興趣的朋友，與我一起討論專研，互相學習進步。

本文為投稿作品，僅代表個人觀點。

作者介紹：

一個痴迷於Python語言的業餘程序猿，經過半年苦練，經歷過從入門到放棄，現在慶幸走到痴迷於Python狀態。未來的理想是能夠與一群痴迷於Python語言的程序猿做有意義的事。知乎專欄鏈接：https://www.zhihu.com/people/cai-niao-fen-xi-64/activities