OCR 中文識別用哪種軟體識別率比較高?

問題來自新浪微博 #我愛問知乎# http://t.sina.com.cn/1726740913/wr4mLmnPDx


由於工作需要大量的數據識別,我接觸過世面上可用的幾乎所有文字、數字識別軟體。有一陣子,因為可用表格掃描得太不清晰,我甚至考慮過自學編寫文字識別的程序……還好最後碰到前面已經有很多人提到的ABBYY Finereader(中文叫「泰比」)。

1,識別率極高。我使用過現在的答案總結里提到的所有軟體,但遇到下面這樣的表格,除了ABBYY還能保持95%以上的識別率之外(包括秦皇島三個字),其他所有的軟體全部歇菜,數字認錯也就罷了,中文也認不出。血淚的教訓。

2,自由度高。可以在同一頁面手動劃分不同的區塊,每一個區塊也可以分別設置表格或文字;簡體繁體英文數字。而此時大部分軟體還只能對一個頁面設置一種識別方案,要麼表格,要麼文字。
3,批量操作方便。對於版式雷同的年鑒,將一頁的版式設計好,便可以應用到其他頁,省去大量重複操作。
4,可以保持原有表格格式,省去二次編輯。跨頁識別表格時,選擇「識別為EXCEL」,ABBYY可以將表格連在一起,產出的是一整個excel文件,分析起來就方便多了。
5,包括梯形校正,歪斜校正之類的許多圖片校正方式,即使掃描得歪了,或者因為書本太厚而導致靠近書脊的部分文字扭曲,都可以校正回來。一開始用了一會兒盜版,後來發現這個軟體可能已經幫我省了幾百美元的助研費用(最沒辦法的辦法就是叫兩個學生人肉輸入數據,然後合併在一起,碰到不一樣的再自己檢查),實在不好意思再用盜版了,就花了150美元買了正版。


真正能把中文OCR做得比較專業的,一共也沒幾家,國內2家,國外2家。國內是文通和漢王,國外是ABBYY和IRIS(台灣原來有2家丹青和蒙恬,這兩年沒什麼動靜了)。像大家提到的紫光OCR、CAJViewer、MS Office、清華OCR、包括慧視小靈鼠,這些都是文通的產品或者使用文通的識別引擎,尚書則是漢王的產品,和中晶掃描儀捆綁銷售的。這兩家的中文識別率都是非常不錯的。而國外的2家,主要特點是西方語言的識別率很好,而且支持多種西歐語言,產品化程度也很高,不過中文方面速度和識別率還是有差距的,當然這兩年人家也是在不斷進步。Google的開源項目,至少在中文方面,和這些家相比,各項性能指標水平差距還蠻大的呢。


Google目前主持開發和維護的OCR項目Tesseract
http://code.google.com/p/tesseract-ocr/
3年前用過,當時感覺效果已經不錯。不知現在是否有更大進步。從Activity來看好像很活躍。


需要將掃描的表格直接翻譯過來,試了漢王和尚書七號,這兩款軟體都用的是同一個引擎,所以結果都一樣,但是無法直接輸出xls,而是文本的,還是無法直接使用,需要程序解析想要的列。而abbyy finereader太強大了,直接導出xls。而且準確率還不低。很強


在線不需要註冊的ocr這裡還有一個推薦,http://chongdata.com/ocr 感覺中文識別率挺高的


PC端ABBYY的Finereader,
iOS端ABBYY的Textgrabber+(iTunes 的 App Store 中的「TextGrabber + Translator」),
誰用誰知道。


如果只是中文識別推薦用蘿蔔書摘,他採用了百度的OCR技術,在這基礎上做了些改善,識別率還是可以的,英文識別國內目前還沒有哪款軟體效果很好,國外有兩款但成本都會高。


ABBYY的Finereader, 這個軟體設置好之後 非常牛逼

效果不好就是沒設置好

識別的時候 中文加字母的話 識別設置就要設置成 中文加英文。


01 識別後的word 裡面的截圖

02 原pdf 裡面的圖表 截圖


引用:http://zh.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E5%AD%97%E7%AC%A6%E8%AF%86%E5%88%AB
清華紫光OCR
尚書七號
ABBYY FineReader OCR
Leadtools Ocr
漢王
賽酷OCR
Expervision,Inc OCR
丹青
關於印刷方面的專業討論,推薦cpc中文印刷社區 http://www.cnprint.org/bbs/


Microsoft Office Document Imaging
掃描清晰的話正確率可以達到99%


CAJ viewer也可以OCR,效果也不錯。主要是挺方便,看圖片pdf的時候,框選一塊,就可以識別了。


其實One note就有這功能,都不用找其他的了,想要識別效果好的話,可以每次選取一個小塊區域,這樣做出來的效果非常好,即使是解析度不高的文件


咳咳 作為一個前貼吧的小說更新組專門把起點的小說圖片轉成文字發到貼吧的人來說 還是漢王最好 特別是組裡有人會專門做字型檔以及腳本進行自動識別和和諧 現在的水平基本上是 漢字和數字可以99以上識別成功 英文的話前段時間他們在研究 貌似應該差不多了吧 速度的話 從起點的作者公布新章節 到發送文字版到貼吧 最快可以30秒(退滅保平安了 這是我記憶中 的數據)


用過數款OCR還是這個識別率最高:Readiris.Corporate.Asian.v12.0.5702-RBS verycd上有,下載亞洲版
掃描的解析度、是否擺正、內容複雜度對識別率的高低有決定性影響


Chongdata的OCR 感覺還可以


剛才試了:

  1. 紫光http://newocr.com,註冊屢次失敗,放棄;
  2. 國外http://netocr.net,識別不好。。僅文字,編排也沒特別的地方
  3. abbyy,最好!個別錯誤。

ABBYY Finereader是個瘋子 我真不知道作者的思維是進了麵包還是西瓜 600多買這一玩意?
具體情況
專業版,識別圖片均類同,2值圖像,非黑既白.
17版 自定義庫很弱同一個字元祗有一種圖像.6還是變成8,訓練模式里明明寫6還是出現8

18版 自定義庫能支持一個字元多種圖像了,但錯得更離譜,訓練模式容差不可理解(作為專業軟體,對容差等重要設置卻沒有,簡直不可理解),庫里沒有的字明明差別很大卻能認為是完全不一樣的字,庫里明明有卻還讓你確認,6還是變成8.一些圖片直接提示無文字.(識別內容全是這種幾乎一樣的內容)


ABBYY Finereader


樓主的問題是關於OCR中文識別軟體,想必是已經用過的軟體比較多了,張少針對OCR這塊並不是很熟悉,但為打造專屬自己的「知乎達人」,本人也得去熟悉下相關的知識點。

以下是小編挑選的幾個OCR中文識別軟體

一、蘿蔔書摘

採用了百度的OCR識別技術,並在它的基礎上做了些改善,識別率還可以。

二、捷速ocr文字識別軟體

採用了先進的ocr文字識別技術,識別圖片、pdf文件都是沒有問題的,識別率很高!

三、One note

想要識別效果好的話,可以每次選取一個小塊區域,這樣識別效果比較好,但是比較麻煩。

張少此處選擇了第二個:捷速OCR文字識別軟體為大家演示一下:(只因它操作比較簡單

具體操作方法如下:

【一】在下載並安裝好軟體工具之後將其打開,選擇識別文件的格式——圖片、pdf、或掃 描文件。

【二】將要識別的文件添加到識別工具內,單擊直面解析按鈕,軟體會自動對識別內容進行解析;

【三】紙面解析完成之後只要單擊識別按鈕,軟體就會自動識別圖片中的文字內容了。

【四】最後將識別的結果保存為word文檔整個過程就完成了,下面是保存後的效果。

好了,演示到此為止。還有兩個OCR中文識別軟體,張少就不一一演示了!

應題之要求,張少的解答也到此為止。希望大家在瀏覽之餘不要忘記給張少點贊!助張少打造專屬自己的「知乎達人」一臂之力!非常感謝!


Camscanner


識別率真的高啊,而且最重要的是,手機上能用,解決了我一個大難題。

它就是能直接把實體文檔拍照轉成PDF格式,然後再ocr識別。基本只要拍得清,字體正,識別率還是挺高的,99%以上吧。


但這個軟體也有個問題,不支持圖表、符號的識別,看他們現在發展還不錯,希望後續會支持吧。


推薦閱讀:

TAG:軟體推薦 | OCR(光學字元識別) |