PDF文檔處理為什麼會用到OCR文字識別

 你曾遇到過PDF難題嗎?比如,無法選擇文本進行複製,或者搜索PDF文檔中已有的單詞時,卻搜索不到任何結果,原因很簡單,只要有正確的工具,問題就能輕鬆解決。

  為什麼PDF文檔表現有所不同?

  PDF文檔根據文件創建的方式,可分為三種不同的類型,文件最初的創建方式規定了PDF內容(文本、圖像、表格)能否訪問,或是否「鎖定」在頁面圖像中。

  想要理解PDF的結構,應該按照圖層來理解。上面一層只是一張圖片,如果你想訪問文本,則需要有第二圖層,即文本層,位於圖片層下面,被隱藏了。

  「真正」或數字創建的PDF文檔

  

  使用軟體Microsoft Word、Excel,或者通過軟體應用程序(虛擬印表機)中的「列印」功能創建,由文本和圖像組成。可搜索,內容可訪問,以便注釋和重複使用。

  「僅圖像」或掃描的PDF文檔

  

  由一體化設備和辦公室掃描儀上的掃描紙質文檔創建,或者轉換jpg或tiff圖像為PDF時創建。

  僅包含掃描的或者拍攝的頁面圖像,底下不帶有文本層,內容「鎖定」在快照圖像中。不可進行搜索,內容不可訪問。

  可搜索的掃描PDF文檔

  

  文本層被添加到圖像層,通常放在下面,可進行搜索,內容可訪問,可進行注釋和重複使用。可能會出現一些限制,比如圖片元素和圖像。

  什麼是OCR?它和處理PDF文檔有何關聯?

  很多掃描儀都可以創建PDF文檔,但也僅限於創建圖像或文檔快照,不過就是一堆黑白或彩色的點,稱為光柵圖像,無其他數據。要想從掃描文檔或「僅圖像」PDF文檔中提取並利用數據,需要OCR文字識別軟體,比如ABBYY FineReader,或者PDF工具,如ABBYY PDF Transformer+。

  光學字元識別或者文本識別可以解鎖「困」在掃描/拍攝的文檔圖像上的信息,OCR軟體可以通過翻譯字元圖像「讀取」文檔里的內容,讓轉換文檔內容和布局為可搜索和可編輯的格式成為可能。

  

  OCR對你處理PDF的日常工作有何影響呢?

  現在你知道了:每次想要選取PDF文檔里的內容時都會失敗,要麼就是無法搜索文檔里的關鍵詞,幾乎就是在處理掃描的「僅圖像」PDF文檔。

  有了OCR,使用ABBYY FineReader,就可以將掃描的「僅圖像」PDF文檔轉換為包含可選擇和可搜索文本的PDF文檔,實現輕鬆管理、複製和索引內容,以及全文本搜索。

  處理PDF文檔變得更加簡單和更有效率,因為:

  可以處理掃描的紙質文檔和「僅圖像」PDF文檔,就跟處理數字創建的PDF文檔一樣;

  可以更加快速地從文檔中找到並訪問信息,再也不用在紙堆里翻箱倒海了;

  可以重複使用文檔里的信息,無需手動重新輸入;

  和同時協作的時候,可以選擇文本進行強調、評論和添加註釋;

  可以使用「搜索和編輯」功能編輯文檔中出現的機密信息。

  本文來源於:http://www.abbyychina.com/zhishiku/fr-ocr-pdf.html 你曾遇到過PDF難題嗎?比如,無法選擇文本進行複製,或者搜索PDF文檔中已有的單詞時,卻搜索不到任何結果,原因很簡單,只要有正確的工具,問題就能輕鬆解決。

  為什麼PDF文檔表現有所不同?

  PDF文檔根據文件創建的方式,可分為三種不同的類型,文件最初的創建方式規定了PDF內容(文本、圖像、表格)能否訪問,或是否「鎖定」在頁面圖像中。

  想要理解PDF的結構,應該按照圖層來理解。上面一層只是一張圖片,如果你想訪問文本,則需要有第二圖層,即文本層,位於圖片層下面,被隱藏了。

  「真正」或數字創建的PDF文檔

  

  使用軟體Microsoft Word、Excel,或者通過軟體應用程序(虛擬印表機)中的「列印」功能創建,由文本和圖像組成。可搜索,內容可訪問,以便注釋和重複使用。

  「僅圖像」或掃描的PDF文檔

  

  由一體化設備和辦公室掃描儀上的掃描紙質文檔創建,或者轉換jpg或tiff圖像為PDF時創建。

  僅包含掃描的或者拍攝的頁面圖像,底下不帶有文本層,內容「鎖定」在快照圖像中。不可進行搜索,內容不可訪問。

  可搜索的掃描PDF文檔

  

  文本層被添加到圖像層,通常放在下面,可進行搜索,內容可訪問,可進行注釋和重複使用。可能會出現一些限制,比如圖片元素和圖像。

  什麼是OCR?它和處理PDF文檔有何關聯?

  很多掃描儀都可以創建PDF文檔,但也僅限於創建圖像或文檔快照,不過就是一堆黑白或彩色的點,稱為光柵圖像,無其他數據。要想從掃描文檔或「僅圖像」PDF文檔中提取並利用數據,需要OCR文字識別軟體,比如ABBYY FineReader,或者PDF工具,如ABBYY PDF Transformer+。

  光學字元識別或者文本識別可以解鎖「困」在掃描/拍攝的文檔圖像上的信息,OCR軟體可以通過翻譯字元圖像「讀取」文檔里的內容,讓轉換文檔內容和布局為可搜索和可編輯的格式成為可能。

  

  OCR對你處理PDF的日常工作有何影響呢?

  現在你知道了:每次想要選取PDF文檔里的內容時都會失敗,要麼就是無法搜索文檔里的關鍵詞,幾乎就是在處理掃描的「僅圖像」PDF文檔。

  有了OCR,使用ABBYY FineReader,就可以將掃描的「僅圖像」PDF文檔轉換為包含可選擇和可搜索文本的PDF文檔,實現輕鬆管理、複製和索引內容,以及全文本搜索。

  處理PDF文檔變得更加簡單和更有效率,因為:

  可以處理掃描的紙質文檔和「僅圖像」PDF文檔,就跟處理數字創建的PDF文檔一樣;

  可以更加快速地從文檔中找到並訪問信息,再也不用在紙堆里翻箱倒海了;

  可以重複使用文檔里的信息,無需手動重新輸入;

  和同時協作的時候,可以選擇文本進行強調、評論和添加註釋;

  可以使用「搜索和編輯」功能編輯文檔中出現的機密信息。

  本文來源於:http://www.abbyychina.com/zhishiku/fr-ocr-pdf.html


推薦閱讀:

金文字帖:《周毛公鼎銘集聯》
文字,像一件往事
UC頭條:文字情人 | 我最懂得知足, 但還是有點想哭。
世界奇妙文字(華夏篇)

TAG:文檔 | 文字 | 處理 |