為什麼一些 PDF 文件看起來像是掃描的,但文字可以選擇、複製?


你說的應該是雙層pdf吧。

雙層PDF格式文件是一種具有多層結構的PDF格式文件,是PDF文件衍生的一種文件,其特點是:文件既可以是文本型的(比如由word生成的文件),也可以是圖像型的(比如由掃描生成的文件);雙層PDF格式文件是指文件內容既包含文本層,也包含圖像層,且其位置上下一一相對應。雙層PDF是指將標準資料通過掃描儀快速錄入後,經過去污、糾偏和OCR識別,然後可以直接生成可以檢索的PDF文件,這個PDF文件是雙層的,上層是原始圖像,下層是識別結果,這樣可以100%保留原始版面效果,並且支持選擇/複製/檢索等功能,這樣的PDF文件便於建立索引資料庫,進行科學的管理。

校對雙層PDF中的隱藏文本


請給出具體文件.

根據描述, 有可能下面是一張掃描圖, 上面疊加了 OCR 後的文本, 但是設為透明, 所以看上去是掃描的, 卻可以複製.


應該是兩層啦。一層文字 一層圖片


推薦閱讀:

蘋果不允許 iOS 應用內置購買(IAP)使用第三方支付方式,那麼跨平台的電子書閱讀器怎麼解決這個問題?
為什麼現在還會有人看紙質書(工具書和教材之外)?
原研哉說『設計不是隸屬於媒體,相反,它的作用在於探詢媒體的本質。』請問設計與媒體的關係到底是怎樣?
一本正版電子書的生產流程是怎樣的?成本包含哪些部分,大概是多少?
你會選擇什麼樣的電子書格式?為什麼?

TAG:字體 | 電子書 | PDF | OCR光學字元識別 |