PDF文檔處理為什麼會用到OCR文字識別

07-08

　你曾遇到過PDF難題嗎？比如，無法選擇文本進行複製，或者搜索PDF文檔中已有的單詞時，卻搜索不到任何結果，原因很簡單，只要有正確的工具，問題就能輕鬆解決。

　　為什麼PDF文檔表現有所不同？

　　PDF文檔根據文件創建的方式，可分為三種不同的類型，文件最初的創建方式規定了PDF內容（文本、圖像、表格）能否訪問，或是否「鎖定」在頁面圖像中。

　　想要理解PDF的結構，應該按照圖層來理解。上面一層只是一張圖片，如果你想訪問文本，則需要有第二圖層，即文本層，位於圖片層下面，被隱藏了。

　　「真正」或數字創建的PDF文檔

　　使用軟體Microsoft Word、Excel，或者通過軟體應用程序（虛擬印表機）中的「列印」功能創建，由文本和圖像組成。可搜索，內容可訪問，以便注釋和重複使用。

　　「僅圖像」或掃描的PDF文檔

　　由一體化設備和辦公室掃描儀上的掃描紙質文檔創建，或者轉換jpg或tiff圖像為PDF時創建。

　　僅包含掃描的或者拍攝的頁面圖像，底下不帶有文本層，內容「鎖定」在快照圖像中。不可進行搜索，內容不可訪問。

　　可搜索的掃描PDF文檔

　　文本層被添加到圖像層，通常放在下面，可進行搜索，內容可訪問，可進行注釋和重複使用。可能會出現一些限制，比如圖片元素和圖像。

　　什麼是OCR？它和處理PDF文檔有何關聯？

　　很多掃描儀都可以創建PDF文檔，但也僅限於創建圖像或文檔快照，不過就是一堆黑白或彩色的點，稱為光柵圖像，無其他數據。要想從掃描文檔或「僅圖像」PDF文檔中提取並利用數據，需要OCR文字識別軟體，比如ABBYY FineReader，或者PDF工具，如ABBYY PDF Transformer+。

　　光學字元識別或者文本識別可以解鎖「困」在掃描/拍攝的文檔圖像上的信息，OCR軟體可以通過翻譯字元圖像「讀取」文檔里的內容，讓轉換文檔內容和布局為可搜索和可編輯的格式成為可能。

　　OCR對你處理PDF的日常工作有何影響呢？

　　現在你知道了：每次想要選取PDF文檔里的內容時都會失敗，要麼就是無法搜索文檔里的關鍵詞，幾乎就是在處理掃描的「僅圖像」PDF文檔。

　　有了OCR，使用ABBYY FineReader，就可以將掃描的「僅圖像」PDF文檔轉換為包含可選擇和可搜索文本的PDF文檔，實現輕鬆管理、複製和索引內容，以及全文本搜索。

　　處理PDF文檔變得更加簡單和更有效率，因為：

　　可以處理掃描的紙質文檔和「僅圖像」PDF文檔，就跟處理數字創建的PDF文檔一樣；

　　可以更加快速地從文檔中找到並訪問信息，再也不用在紙堆里翻箱倒海了；

　　可以重複使用文檔里的信息，無需手動重新輸入；

　　和同時協作的時候，可以選擇文本進行強調、評論和添加註釋；

　　可以使用「搜索和編輯」功能編輯文檔中出現的機密信息。

　　本文來源於：http://www.abbyychina.com/zhishiku/fr-ocr-pdf.html　你曾遇到過PDF難題嗎？比如，無法選擇文本進行複製，或者搜索PDF文檔中已有的單詞時，卻搜索不到任何結果，原因很簡單，只要有正確的工具，問題就能輕鬆解決。