標籤:

OCR多彩世界

在職場上,人們總會面對堆積如山的各種紙質資料、不同種類pdf文檔和圖片形式的多種資料,對於這樣的資料整理,大家都會選擇怎麼處理呢?一頁一頁的手動錄入?

當然對於這樣問題的答案我們也要大膽的說出NO!那麼接下來小編就來助大家一臂之力吧!帶大家走入識別工具的多彩世界。

在開始之前,小編要給大家普及下可編輯和不可編輯文檔;簡單的說就是PDF文檔中的文字是否可以用滑鼠選中。可以選中的文檔就視為可編輯,不可選中就是不可編輯,例如圖片類的資料、紙質文檔掃描的pdf版本就是不可編輯。(註:可編輯中也會存在一部分「假文檔」,只能跳躍性的選中局部文字,這樣的文檔通常清晰度低,我們就把這類的文檔視為不可編輯)

電腦版OCR:

1. 漢王識別軟體——

軟體介紹:漢王OCR文字識別軟體具有識別正確率較高,識別速度快的特點。支持批量處理功能,避免了單頁處理的麻煩。漢王OCR支持處理灰度、彩色、黑白三種色彩的BMP、TIF、JPG、PDF多種格式的圖像文件;具有簡單易用的表格識別功能;具有TXT、RTF、HTM和XLS多種輸出格式,並有所見即所得的版面還原功能。

使用特點:僅支持簡體、繁體和英文三種語言,同時格式相對比較受限制。對於這款軟體的使用建議識別格式較簡單、字體(全篇純漢字)較清晰的文檔;雖然支持批量處理,但是對於頁數數量比較龐大的不建議使用。剪刀工具可以剪切掃描的一些黑色陰影等。

2. 尚書7號識別軟體——

大家可以看出尚書7號和漢王很像,那是因為尚書7號OCR軟體是MICROTEK中晶科技公司,向漢王科技購買授權的。尚書七號OCR軟體適用於個人、小型圖書館、小型檔案館、小型企業進行大規模文檔輸入、圖書翻印、大量資料電子化的軟體系統。

軟體介紹:尚書7號識別軟體除了簡體漢字外,還可以混識台灣繁體字5400多個以及香港繁體字和GBK漢字。能識別宋體、仿宋、楷、黑、魏碑、隸書、圓體、行楷等一百多種字體,並支持多種字體混排。對於表格識別可以自動判斷、拆分、識別和還原各種通用型印刷體表格。可支持繁體WINDOWS系統。

使用特點:尚書7號是建立在漢王的基礎上,所以很多都很相似。識別的字體種類較多,但是識別的語種還是主要以漢英為主。對於此款軟體建議使用於簡單識別格式較簡單、字體較清晰的文檔。剪刀工具同樣很實用。

3.清華識別軟體——

軟體介紹:清華識別軟體能夠適應超過一百種Windows字體,識別全部簡體國標一二級6763個字元,繁體13000多字元;識別彩色圖象,並轉換成帶有彩色圖片的RTF格式(WORD可編輯)。並且支持多任務,可以在識別一篇文章的同時掃描或編輯其它文檔。對於每個區域可以設定不同的字體。版面分析前根據實際情況選擇「報紙版面」或「雜誌版面」可以提高版面分析正確性。對一般文本識別掃描解析度用300DPI比較合適,別小於5號的字可選400DPI。選擇「簡體全字集」或「繁體全字集」,能夠識別更多的字體和全部字符集,但識別速度較慢。

使用特點:清華軟體首先不支持文檔直接拖拉,格式比較受限制(僅支持tif、bmp、pcx、fax、jpg),語種設置中除了中英還包含日和韓。建議使用於比較清晰格式單一的單頁文檔。尤其是很對繁體的純文檔效果還是很不錯。

4. 賽酷OCR——

軟體介紹:賽酷OCR是首款基於互聯網的OCR識別軟體,賽酷OCR是集文字識別、表格識別、公式識別於一體的辦公軟體,可直接識別掃描儀、數碼相機、一體化機、拍照手機掃描的各類文檔圖像或PDF,並對識別結果進行版面重構;是一款圖片轉WORD,圖片提取文字的識別工具。

使用特點:需要連接互聯網註冊使用,精確的版面自動分析、傾斜的文檔自動校正;支持多種圖像文件格式(BMP、JPG、TIF、多頁TIF、PDF等);可自主設定識別區域,設定豎版、單欄、圖像、表格、公式局部定義;可去除印章,圖像修正(擦除、連線、圖像平衡);持批處理識別;

5. 捷速OCR——

軟體介紹:捷速OCR軟體可以通過電子設備(例如掃描儀或數碼相機)將紙質文檔錄入到電腦中,支持JPG、GIF、PNG、BMP、TIF圖片文件格式拖曳上傳;可以通過系統直接打開,也可以打開文件所在目錄;支持PDF源文件和掃描件:識別前對頁面的分析、識別時對文件的預覽及修改、識別後直接打開即可進行編輯的超強功能。圖片轉換成word,圖片轉換成文字,掃描文件轉換成word等。

使用特點:支持圖片轉換成WORD、圖片轉換成文字等可編輯文字,一鍵轉換!支持多種格式。需要購買註冊才可使用,語種比較受限制。對於簡單的文檔識別率相對來說較好。如果複雜的文檔不建議使用。

6. Leadtools OCR——

LeadTools OCR文字識別引擎是一種光學字元識別軟體開發工具包(SDK),它可以為開發人員、集成商、業務流程外包商(BPO)和原始設備製造商(OEM)提供強大、簡單易用的控制項,從而非常容易的將OCR技術集成到應用和設備中。

使用特點:支持超過40多種語言,針對圖片不可編輯的文檔,識別率都相當高,支持自動矯正功能,將掃描結果保存為 PDF、 PDF/A、 DOC/DOCX、 XPS、 EXCEL、 RTF等,對於報告等複雜的種類可以系統掃描進行編輯存檔。此軟體需要購買後方可使用。

7. Solid Converter Pdf v9——

軟體介紹:SolidConverter PDF是一套專門將pdf文件轉換成word的軟體, SolidConverter PDF除了轉換成word文件外,還可以轉換成RTF以及WordXML文件。Solid Converter PDF號稱是PDF轉為WORD的最好軟體。

使用特點:SolidConverter Pdf v9針對可編輯的pdf文檔,可以處理成和原文的格式一致,並且識別率很高。支持多國語言兵器能夠識別成多種格式(word、ppt、excel等),Solid Converter Pdf v9 也可以支持不可編輯的pdf文檔,但是不可以手動圈選,效果相對較差。

8. ABBYY FineReader 12——

軟體介紹:ABBYYFineReader識別率極高,可以在同一頁面手動劃分不同的區塊,每一個區塊也可以分別設置表格或文字;包含簡體、繁體、英文、數字、多國小語種等。可以保持原有表格格式:省去二次編輯。跨頁識別表格時,選擇「識別為EXCEL」,ABBYY可以將表格連在一起,產出的是一整個excel文件,分析起來就方便多了。歪斜校正之類的許多圖片校正方式,即使掃描得歪了,或者因為書本太厚而導致靠近書脊的部分文字扭曲,都可以校正回來。

使用特點:ABBYY是一款比較強悍的識別軟體,支持 179 種語言(僅9、12版支持俄語),操作簡單,支持批量處理文件,對於複雜的格式也可以一一應對,支持多種保存的格式,同時可以通過文檔布局來調整所需格式,無論是圖片表格文本都可以識別。此款軟體試用於不可編輯的文檔和圖片等。

9. Nitro Pro 10——

軟體介紹:Nitro Pro是由ArtsPDF出品一款多功能PDF製作與管理軟體,支持PDF的全部特性,用戶可以自由進行添加註釋、補充內容和作者、數字簽名、全文編輯等操作,除標準的PDF閱讀功能(閱讀、注釋、導航、表單)外,Nitro Pro 10提供的新建功能還可將Word文檔、HTML檔、文本文檔、圖像檔等轉換到PDF格式,然後利用內置的模塊進行多樣化的編輯。安裝中,Nitro還會自動安裝一個名為NitroPDF Creator的虛擬印表機,讓用戶可以輕鬆製作PDF文件。

使用特點:Nitro Pro支援分頁瀏覽,不需開啟多個窗口就能同時瀏覽、編輯數個 PDF 文件;附加安裝在Word、PowerPoint、Excel中的增益集可讓您快速將 Office 文件轉換成PDF 文件; PDF 虛擬印表機可將任何應用程式的文件轉換成 PDF 文件;整合到文檔總管中的滑鼠右鍵快顯功能表,可讓您方便快速轉換 PDF;可將數個支持的文檔類型合併成一個 PDF 文件。可將 PDF 文件轉成Word、Text,或摘取出PDF 文件中的文字與圖片。完整的編輯功能(書籤、鏈結、浮水印、文字框、圖片、註解、螢游標示、印章、密碼保護…)但是對於不可編輯的文檔不建議使用。

手機版ocr:

1. 塗書筆記——

軟體介紹:塗書筆記,免費的紙質書文字摘錄APP,採用了百度OCR文字識別技術打造。用手機拍下書中文字,選出要摘錄的部分,即可自動轉化為電子文本,供用戶隨時隨地閱讀,隨心編輯和分享。雲儲存,筆記永不丟失;手機、Pad、電腦多端同步。

使用特點:軟體目前只支持橫屏拍照識別,所以我們把手機橫過來,攝像頭對準要拍照的書籍、雜誌甚至PPT也可以。拍照後,用手指在需要文字識別的地方塗抹。本款軟體只支持中英兩種語言,識別率較高,但是只試用於小範圍。在記筆記的同時,可以隨手記下自己的感悟。推薦給那些喜歡讀書的並且隨手記錄的同仁們。

2. ABBYY TextGrabber——

拍照識別翻譯APP(ABBYYTextGrabber)是一款易於使用的應用程序,只需在任何印刷源上對您感興趣的文本進行拍照,然後選擇所需的選項即可。這都歸功於 ABBYY 的Mobile OCR 技術,TextGrabber + Translator 可為您提供高質量的效果並在幾秒鐘內識別超過 60 種語言的任何平文本。此應用程序支持超過 40 種語言的全文本翻譯,並可以與 Lingvo Dictionaries 應用程序集成,讓您訪問最新的綜合詞典,幫助您翻譯不熟悉的詞語。您也可以在應用程序內直接搜索互聯網,以查找有關任何您不熟悉的字詞或條目的附加信息。

使用特點:文本識別和應用程序的執行都不需要互聯網連接;可翻譯 40 多種語言(需要互聯網連接);在應用程序內將識別的文本發布至 Facebook、DropBox,Twitter 和 Evernote;可編輯捕捉的文本或將其複製到剪切板以便粘貼到其他應用程序;可在互聯網上搜索已識別文本或其部分文本的附加信息;所有捕獲的文本都將備份在歷史文件夾中以便在您方便的時候打開和編輯;手機版通常試用於小範圍、格式簡單、純文本,並且不支持批量轉換。

在線版ocr:

Super Tools

網址:http://www.wdku.net/

1. TextConv——

軟體介紹:TextConv是SuperTools中的一款在線識別軟體,可以將圖片和pdf文檔識別成可編輯pdf和word文檔。在免費的範圍內僅支持小於1M文件。免費用戶不支持批量上傳。收費最多可達300份圖片,Pdf總大小200M文件。易於操作,方便使用。

使用特點:TextConv使用比較方便,操作簡單,一鍵識別。僅支持三種格式(png、jpg、pdf),轉換結果支持兩種(可編輯pdf、word);識別結果word和原文格式基本一致,但是內容被分割多塊;不支持小語種;建議針對小文檔來使用。

2. Pdf to word——

軟體介紹:Pdf to word是Super Tools中的一款在線識別軟體,僅支持pdf轉word。在免費的範圍內僅支持小於1M文件,收費可上傳總大小200M的PDF文檔,不支持批量轉換。操作簡單,方便使用。

使用特點:Pdf to word使用比較方便,操作簡單,一鍵識別。僅支持pdf格式,轉換成word(doc、docx;docx響應速度比較快、體積小、支持複雜公式、圖片的編輯等);識別結果word和原文格式基本一致,精確性比較高;識別的內容又多個文本框構成。不支持小語種。

3. OCR image to txt

網址:http://cn.diywz.com/OCR/

軟體介紹:OCR image to txt是一款只支持圖片轉成TXT的在線識別軟體,操作簡單一鍵完成。選擇圖片後直接等待,直接生成壓縮包。

使用特點:OCR image to txt不支持拖拽功能,並且使用受限制;只支持圖片轉txt;轉換時間長,適用於清晰文本圖片。不支持小語種的識別。

4. newocr.com

http://www.newocr.com/

軟體介紹:newocr.com是一個免費的在線OCR(光學字元識別)服務,可以分析文本在任何圖像文件上傳,然後將文字從圖像轉化為文本,你可以很容易地在您的計算機上編輯,支持識別JPEG, PNG, GIF, BMP,TIFF, PDF, DjVu上的文字。

使用特點:newocr.com支持多種語言,同時支持多種格式,使用方便,但是對於格式複雜的效果一般;所以建議主要用于格式簡單字體清晰的版本。

5. Free Oline OCR

網址:://www.free-online-ocr.com/

軟體介紹:

FreeOline OCR是一款在線的免費識別軟體,讓您輕鬆掃描的文檔,PDF文件、發票、截圖和照片成可編輯和可搜索的文本。

使用特點:

精確的圖像轉換為文本;保持布局和格式;支持PDF格式,GIF,BMP,JPEG,TIFF或PNG作為輸入;支持DOC,PDF,TXT或RTF格式輸出;自動旋轉頁面;支持低解析度圖像;保持一個掃描的PDF圖像層;在線使用-無需安裝;針對識別可編輯文檔,識別效果較好。

小編介紹了十多種OCR軟體,包含PC版、手機版、在線版。不知大家消化了多少!大家可以根據自己文檔特點來進行選取。最後小編送給大家一些溫馨提示,對於可編輯的文檔我們建議選擇「Solid Converter Pdf v9」、「NitroPro」,對於不可編輯的文檔建議選擇「ABBYY FineReader」,針對需要編輯的文檔建議使用「Nitro Pro」。手機版建議使用於小範圍內!對於格式簡單的而且容易處理的就建議使用在線版,這樣既省時又省事。

希望這些工具對大家的日常工作能有所幫助!!

推薦閱讀:

如果我特有錢,想新建一個國家,有可能么,應該去哪買地盤兒?
【紀念世界舞蹈日特刊】全國舞蹈愛好者齊綻放!
世界鎮痛日:超九成癌症患者忍受疼痛 六大誤區需注意
【女人世界】離婚女人面面觀
全世界「最美芭蕾」,只有1﹪的人知道它背後的故事

TAG:世界 |