PDF 能轉成 HTML 嗎?如何轉換?
01-04
之前我也以為不能,結果今天發現了這個就搞定了:coolwanglu/pdf2htmlEX 路 GitHub,我嘗試過轉換有表格的PDF,發現非常完美,你可以去試試
PDF轉Html會遇到如下的情況:
1.掃描件PDF轉Html,這類PDF轉html很難,因為掃描件一個頁面就是一張圖。要轉Html需要進行文字識別,和圖文分離。這個是需要OCR引擎有相當的功力的。
2.普通PDF(非掃描件)轉板式的Html,這種直接轉換還是可以做到的,轉換出來的效果還算不出。當然還是會丟失一些信息,畢竟不用Html5是無法表達PDF裡面複雜的渲染和矢量圖的。3.普通PDF(非掃描件)轉流失的Html,這就對PDF板式結構分析引擎的功力要求很高了,因為PDF丟失了很多流式的文檔信息,想要再還原出來只能靠轉換引擎去猜。這個技術在PDF裡面叫Reflow(版式重排),能夠機器智能重建PDF的流式信息,目前Adobe和Foxit兩家公司具備這個技術。當時就算如此,這個技術也不是萬能的,它智能讓轉換結果無限的趨近真實的效果,永遠無法做到100%。PDF轉Html5是可行的,很快就能看到這樣的技術出現雖然題目里沒說,但打上了Linux的標籤,我就說個可以在Linux完成的方法:可以關注一下PDFTOHTML這個項目:http://pdftohtml.sourceforge.net/PDF轉成HTML基本上必然會損失很多排版信息,而且這個工具也有不少bug,所以對這個工具期望值不用太高。電子書管理軟體calibre可以把PDF轉成HTML,後台用的也是PDFTOHTML,calibre的作者正在自己寫PDF轉換插件,但目前還沒有完工。如果用calibre而不是直接用PDFTOHTML的話,可以借用到calibre對電子書轉換工作中做的一些工作,比如自動分分章節、正則式匹配去頁眉啥的。
當然可以,你上傳PDF到Google docs 上就可以轉換PDF為word和html格式的。
從題目的意思來講,應該是指:如何在瀏覽器里原樣打開pdf文件,並且不需要任何插件。從這個角度來講,有兩種技術已經可以做到了:(1) pdf.js,參見網址:PDF.js(2) 對象盒子,參見網址:對象盒子 | 雲文檔
基本不能,會損失很多排版細節
我覺得題主可以嘗試下Calibre,這裡有一個來自百度上的介紹:如何將mobi,pdf轉換為epub格式,可能題主的可以嘗試下。
現在可以用PDF.js在線轉換了
pdf轉換word、excel、ppt等以及直接編輯pdf文件軟體介紹_pdf吧貌似我看見裡面有個介紹,能轉換html,不過沒用過
推薦閱讀:
※PDF 用什麼軟體閱讀效果較好?
※Android 平台最好用的 PDF 閱讀器是什麼?
※有什麼軟體能在安卓平板上打開PDF,並在該PDF上做筆記?
※目前市場上的平板哪一種閱讀PDF文件比較好?
※在 Mac 上如何方便地將 Word 轉換為 PDF?