PDF文檔處理為什麼會用到OCR文字識別
你曾遇到過PDF難題嗎?比如,無法選擇文本進行複製,或者搜索PDF文檔中已有的單詞時,卻搜索不到任何結果,原因很簡單,只要有正確的工具,問題就能輕鬆解決。
為什麼PDF文檔表現有所不同?
PDF文檔根據文件創建的方式,可分為三種不同的類型,文件最初的創建方式規定了PDF內容(文本、圖像、表格)能否訪問,或是否「鎖定」在頁面圖像中。
想要理解PDF的結構,應該按照圖層來理解。上面一層只是一張圖片,如果你想訪問文本,則需要有第二圖層,即文本層,位於圖片層下面,被隱藏了。
「真正」或數字創建的PDF文檔
使用軟體Microsoft Word、Excel,或者通過軟體應用程序(虛擬印表機)中的「列印」功能創建,由文本和圖像組成。可搜索,內容可訪問,以便注釋和重複使用。
「僅圖像」或掃描的PDF文檔
由一體化設備和辦公室掃描儀上的掃描紙質文檔創建,或者轉換jpg或tiff圖像為PDF時創建。
僅包含掃描的或者拍攝的頁面圖像,底下不帶有文本層,內容「鎖定」在快照圖像中。不可進行搜索,內容不可訪問。
可搜索的掃描PDF文檔
文本層被添加到圖像層,通常放在下面,可進行搜索,內容可訪問,可進行注釋和重複使用。可能會出現一些限制,比如圖片元素和圖像。
什麼是OCR?它和處理PDF文檔有何關聯?
很多掃描儀都可以創建PDF文檔,但也僅限於創建圖像或文檔快照,不過就是一堆黑白或彩色的點,稱為光柵圖像,無其他數據。要想從掃描文檔或「僅圖像」PDF文檔中提取並利用數據,需要OCR文字識別軟體,比如ABBYY FineReader,或者PDF工具,如ABBYY PDF Transformer+。
光學字元識別或者文本識別可以解鎖「困」在掃描/拍攝的文檔圖像上的信息,OCR軟體可以通過翻譯字元圖像「讀取」文檔里的內容,讓轉換文檔內容和布局為可搜索和可編輯的格式成為可能。
OCR對你處理PDF的日常工作有何影響呢?
現在你知道了:每次想要選取PDF文檔里的內容時都會失敗,要麼就是無法搜索文檔里的關鍵詞,幾乎就是在處理掃描的「僅圖像」PDF文檔。
有了OCR,使用ABBYY FineReader,就可以將掃描的「僅圖像」PDF文檔轉換為包含可選擇和可搜索文本的PDF文檔,實現輕鬆管理、複製和索引內容,以及全文本搜索。
處理PDF文檔變得更加簡單和更有效率,因為:
可以處理掃描的紙質文檔和「僅圖像」PDF文檔,就跟處理數字創建的PDF文檔一樣;
可以更加快速地從文檔中找到並訪問信息,再也不用在紙堆里翻箱倒海了;
可以重複使用文檔里的信息,無需手動重新輸入;
和同時協作的時候,可以選擇文本進行強調、評論和添加註釋;
可以使用「搜索和編輯」功能編輯文檔中出現的機密信息。
本文來源於:http://www.abbyychina.com/zhishiku/fr-ocr-pdf.html 你曾遇到過PDF難題嗎?比如,無法選擇文本進行複製,或者搜索PDF文檔中已有的單詞時,卻搜索不到任何結果,原因很簡單,只要有正確的工具,問題就能輕鬆解決。
為什麼PDF文檔表現有所不同?
PDF文檔根據文件創建的方式,可分為三種不同的類型,文件最初的創建方式規定了PDF內容(文本、圖像、表格)能否訪問,或是否「鎖定」在頁面圖像中。
想要理解PDF的結構,應該按照圖層來理解。上面一層只是一張圖片,如果你想訪問文本,則需要有第二圖層,即文本層,位於圖片層下面,被隱藏了。
「真正」或數字創建的PDF文檔
使用軟體Microsoft Word、Excel,或者通過軟體應用程序(虛擬印表機)中的「列印」功能創建,由文本和圖像組成。可搜索,內容可訪問,以便注釋和重複使用。
「僅圖像」或掃描的PDF文檔
由一體化設備和辦公室掃描儀上的掃描紙質文檔創建,或者轉換jpg或tiff圖像為PDF時創建。
僅包含掃描的或者拍攝的頁面圖像,底下不帶有文本層,內容「鎖定」在快照圖像中。不可進行搜索,內容不可訪問。
可搜索的掃描PDF文檔
文本層被添加到圖像層,通常放在下面,可進行搜索,內容可訪問,可進行注釋和重複使用。可能會出現一些限制,比如圖片元素和圖像。
什麼是OCR?它和處理PDF文檔有何關聯?
很多掃描儀都可以創建PDF文檔,但也僅限於創建圖像或文檔快照,不過就是一堆黑白或彩色的點,稱為光柵圖像,無其他數據。要想從掃描文檔或「僅圖像」PDF文檔中提取並利用數據,需要OCR文字識別軟體,比如ABBYY FineReader,或者PDF工具,如ABBYY PDF Transformer+。
光學字元識別或者文本識別可以解鎖「困」在掃描/拍攝的文檔圖像上的信息,OCR軟體可以通過翻譯字元圖像「讀取」文檔里的內容,讓轉換文檔內容和布局為可搜索和可編輯的格式成為可能。
OCR對你處理PDF的日常工作有何影響呢?
現在你知道了:每次想要選取PDF文檔里的內容時都會失敗,要麼就是無法搜索文檔里的關鍵詞,幾乎就是在處理掃描的「僅圖像」PDF文檔。
有了OCR,使用ABBYY FineReader,就可以將掃描的「僅圖像」PDF文檔轉換為包含可選擇和可搜索文本的PDF文檔,實現輕鬆管理、複製和索引內容,以及全文本搜索。
處理PDF文檔變得更加簡單和更有效率,因為:
可以處理掃描的紙質文檔和「僅圖像」PDF文檔,就跟處理數字創建的PDF文檔一樣;
可以更加快速地從文檔中找到並訪問信息,再也不用在紙堆里翻箱倒海了;
可以重複使用文檔里的信息,無需手動重新輸入;
和同時協作的時候,可以選擇文本進行強調、評論和添加註釋;
可以使用「搜索和編輯」功能編輯文檔中出現的機密信息。
本文來源於:http://www.abbyychina.com/zhishiku/fr-ocr-pdf.html
推薦閱讀:
※金文字帖:《周毛公鼎銘集聯》
※文字,像一件往事
※UC頭條:文字情人 | 我最懂得知足, 但還是有點想哭。
※世界奇妙文字(華夏篇)