標籤:

PDF 能轉成 HTML 嗎?如何轉換?


之前我也以為不能,結果今天發現了這個就搞定了:coolwanglu/pdf2htmlEX 路 GitHub,我嘗試過轉換有表格的PDF,發現非常完美,你可以去試試


PDF轉Html會遇到如下的情況:

1.掃描件PDF轉Html,這類PDF轉html很難,因為掃描件一個頁面就是一張圖。要轉Html需要進行文字識別,和圖文分離。這個是需要OCR引擎有相當的功力的。

2.普通PDF(非掃描件)轉板式的Html,這種直接轉換還是可以做到的,轉換出來的效果還算不出。當然還是會丟失一些信息,畢竟不用Html5是無法表達PDF裡面複雜的渲染和矢量圖的。

3.普通PDF(非掃描件)轉流失的Html,這就對PDF板式結構分析引擎的功力要求很高了,因為PDF丟失了很多流式的文檔信息,想要再還原出來只能靠轉換引擎去猜。這個技術在PDF裡面叫Reflow(版式重排),能夠機器智能重建PDF的流式信息,目前Adobe和Foxit兩家公司具備這個技術。當時就算如此,這個技術也不是萬能的,它智能讓轉換結果無限的趨近真實的效果,永遠無法做到100%。

PDF轉Html5是可行的,很快就能看到這樣的技術出現


雖然題目里沒說,但打上了Linux的標籤,我就說個可以在Linux完成的方法:

可以關注一下PDFTOHTML這個項目:http://pdftohtml.sourceforge.net/

PDF轉成HTML基本上必然會損失很多排版信息,而且這個工具也有不少bug,所以對這個工具期望值不用太高。

電子書管理軟體calibre可以把PDF轉成HTML,後台用的也是PDFTOHTML,calibre的作者正在自己寫PDF轉換插件,但目前還沒有完工。如果用calibre而不是直接用PDFTOHTML的話,可以借用到calibre對電子書轉換工作中做的一些工作,比如自動分分章節、正則式匹配去頁眉啥的。


當然可以,你上傳PDF到Google docs 上就可以轉換PDF為word和html格式的。


從題目的意思來講,應該是指:如何在瀏覽器里原樣打開pdf文件,並且不需要任何插件。

從這個角度來講,有兩種技術已經可以做到了:

(1) pdf.js,參見網址:PDF.js

(2) 對象盒子,參見網址:對象盒子 | 雲文檔


基本不能,會損失很多排版細節


我覺得題主可以嘗試下Calibre,這裡有一個來自百度上的介紹:如何將mobi,pdf轉換為epub格式,可能題主的可以嘗試下。


現在可以用PDF.js在線轉換了


pdf轉換word、excel、ppt等以及直接編輯pdf文件軟體介紹_pdf吧

貌似我看見裡面有個介紹,能轉換html,不過沒用過


推薦閱讀:

PDF 用什麼軟體閱讀效果較好?
Android 平台最好用的 PDF 閱讀器是什麼?
有什麼軟體能在安卓平板上打開PDF,並在該PDF上做筆記?
目前市場上的平板哪一種閱讀PDF文件比較好?
在 Mac 上如何方便地將 Word 轉換為 PDF?

TAG:HTML | Linux | PDF |