怎麼把 PDF 版的電子書轉化成 TXT 格式?
我想把這本電子書《人類婚姻史》轉化為 txt 版本。懇請幫助!我請您吃飯!
我試驗了漢王,caj 軟體都失敗了,我笨死算了。
http://ishare.iask.sina.com.cn/f/5619531.html?from=likeretcode=0
不知具體情況,可以試一試以下幾種方法。如果哪個都不work,就不用請飯了!:-)
1.在pc中打開PDF -—&>列印,選擇 Microsoft Office Document Image Writer —&>保存文件.mdi格式,打開文件-&> 工具-&>使用ORC識別文本即可 。
2.(適合大量文本,少量的不如自己打字了)將圖片中的文字轉換為TXT文本。首先保證你的機器上裝有PhotoShop,再從網上下一個清華紫光的OCR識別軟體安裝好。打開PS,從文件-導入-PDF圖像找到你需要的處理的文件全部導入後,將需要處理的頁面 保存為BMP或者TIF文件後。打開OCR識別軟體,將圖片調入後進行識別,識別出來後保存就可以了,程序自動將其保存為TXT文件。有一點需要說明:兩個軟體處理的時候會將每一個頁面保存為每一個文件。如果文檔為英文且字體比較小的話識別時會有些錯誤。比如會將i識別為l之類,在識別後你可以對照修改再保存。
3.現在有很多「PDF」轉換為「TXT」的軟體,不是對中文支持不好,就是共享軟體,需要註冊才可以使用全部功能。其實並不需要第三方軟體,用百度的硬碟搜索,也可以免費將PDF轉換為文本文件。
第一步:首先進入百度硬碟搜索的主界面,在文檔下選擇PDF(免費下載硬碟搜索程序:http://disk.baidu.com/)
第二步:接下來輸入文件所在的目錄,點擊「在結果中查找」按鈕,會在下面顯示出所要尋找的PDF文件
第三步:在要進行轉換的PDF文件右邊點擊「快照」按鈕,就會以純文本的形式將文件內容顯示出來。需要做的就是將文件內容複製,並且粘貼到記事本中保存,這樣就可以將PDF的內容轉換成TXT純文本了。
4. Office2003實現PDF文件轉Word文檔:有人經過嘗試,發現可以利用 Office 2003 中的 Microsoft Office Document Imaging 組件來實現PDF轉Word文檔,也就是說利用Word來完成該任務。方法如下: 用Adobe Reader 打開想轉換的PDF文件 ,接下來 選擇 「文件→列印」菜單,在打開的「列印」窗口中將 「印表機」欄中的名稱設置為 「Microsoft Office Document Image Writer」,確認後將該PDF文 件輸出為 MDI格式的虛擬列印文件。
5.下載PDF2TXT軟體轉換器程序PDF2TXT v3.1 漢化版,下載地址:http://www.newasp.net/soft/dl008198.html。小體積(低於25M)的文件可以試試 Google Docs OCR (直接上傳,出現選項)。
PDF OCR 的轉換處理工具是有的,Adobe 的Acrobat可以轉Word, ABBYY的FineReader,或者Foxit的Phantom都可以轉。不過都是付費的版本。免費的話可以到百度找找一些轉換雲服務,是免費的。
我推薦多看閱讀,打開pdf文件後,可以切邊,可以智能重排,並且可以隨意切換回去。但是對掃瞄版的沒效果。主要用於手機、kindle、ipad設備上的電子書閱讀
@宋燕 的說法基本正確。如果要轉換也得用 OCR 做文字識別。正確率和直接從印刷品上識別是差不多的。
這是那種掃描成圖製作的pdf,沒法轉化成txt
可以試試這款軟體,據說效果非常好:ABBYY FineReader專業版。
http://www.portablesoft.org/abbyy-finereader/
這裡有綠色版本,下載。
pdf轉doc,然後再copy出來成為txt
PDF 文件可以分二種類型:
一種是 文本型PDF,這種PFD很容易轉為TXT文本,而且轉過來的準確率很高
另一種是 圖像PDF,比如掃描過來的PDF,是比較難的,一般都要OCR才可以,而且準確率比較低。當然,如果PDF裡面的內容是數字或英文的話,還是比較高的,但是中文的話,就。。。。
上述軟體我基本都曾經使用過,在OCR方面,ABBYY FineReader 最好且沒有之一的選擇
如果是可選擇文字的pdf,那就smallpdf,市面上就沒見過在這麼好的轉換工具,在線的不要錢,轉出來一點不錯的。
OCR之後直接轉存為txt~
但是OCR的識別和PDF質量關係挺大的。
為什麼不直接用福昕閱讀器然後另存為txt呢......
Mac上可以使用系統自帶的Automator創建工作流解決,很方便。
簡單教程:
如何使用Automator將PDF轉化成文本文件
如何使用Automator將PDF轉化成文本文件-Mac 軟體使用與分享
是快速版的pdf。
我來用ABBYY做雙層的PDF吧,然後給你簡單處理一下word文件。文本質量肯定不理想的,如果要引用,還要做相當多手工校對的。希望明天可以發到iask上去。
用ebookpk電子書製作器可以實現pdf轉txt,azw3轉mobi,pdf轉mobi,txt轉mobi,epub轉mobi,doc轉mobi,chm轉mobi,pdf轉apk,txt轉epub,txt轉pdf,doc轉apk,mobi轉epub,mobi轉apk等等功能;製作出的pdf,epub,mobi,chm等都有目錄的;是kindle漫畫和kindle書籍製作神器
使用方法非常簡單,只要你把要轉換的文件滑鼠拖動至ebookpk軟體裡面,然後按ebookpk的「製作」按鈕,選定所要輸出的格式,一本電子書就搞定了。
教程見:
全能電子書製作器,pdf轉txt,txt轉mobi,epub轉mobi通殺
建議用一下萬能電子書管理工具:Calibre,它支持很多種格式的相互轉換,包括TXT和PDF,不過本人也還沒嘗試過,只能在這給一個在百度上看到的類似的貼文:如何將mobi,pdf轉換為epub格式 僅供參考哈!
有pdf轉換成word的軟體,批量轉也可。上百度搜有。
我用過尚書七號做文字識別,識別率還好,關鍵是識別以後可以對照原文更改,很方便,但提高正確率的同時也加大了工作量。
OCR做文字識別吧,但是準確率取決於pdf的清晰程度。
用adboe acrobat pro 9這個可以。不過轉換過後插入圖片的圖片名稱會顯示出來,別的都好。
Solid Converter PDF 排版還不錯 業界良心
推薦閱讀:
※用 LaTeX 撰寫的學術論文怎麼方便的供老師評註和修改?
※下載了一個 PDF 文檔後,每次打開文檔都會彈出列印對話框,如何解決這個問題?
※如何免費地、完整地把 PDF 轉換為 Word?