想做一個簡單的掃描筆,沒有核心的OCR技術怎麼辦?
在網上找了些資料看了,開源的OCR識別率不是太好,想做個產品,精度要求比較高。在網上查,核心技術這塊就是以色列的Wizcom公司的最牛B了,漢王跟他們也是合作關係。
沒做過這塊,不知道該怎麼下手。是和Wizcom公司發個郵件問問怎麼合作?我這塊還不知道市場成不成,想先做個東西出來試用下,也不好跟他們說啊。求指導。
1、找一堆兼職,打字員月薪1萬,然後搞台伺服器,做個客戶端,每次掃描,把圖像發送到伺服器,分配給在線客戶端,讓他們打碼打出來,這叫做雲計算哇2、安裝office,調用Micorsoft Office Document Imaging (MODI)試試,應該可以很快出成品,參考老馬這篇文章 http://www.comicer.com/stronghorse/water/software/officeocr.htm
在簡體中文Office 2003下
OCR繁體中文、日文、韓文作者:馬健郵箱:stronghorse@tom.com主頁:http://stronghorse.yeah.net發布:2007.12.08目錄一、引子二、系統配置1、原理
2、實戰 繁體中文配置 日文配置 韓文配置 簡體中文配置三、其他討論一、引子在簡體中文Office 2003下用Micorsoft Office Document Imaging (MODI)做OCR的步驟為:
-
先確保MODI已經正常安裝。Office 2003的預設安裝是第一次使用MODI時安裝,Office 2007的預設安裝是不裝,都需要改過來。
-
在資源管理器里選中某個多頁TIFF文件,從右鍵菜單選擇用Micorsoft Office Document Imaging打開。
-
打開後,先選擇「工具-&>選項」,對OCR選項進行設置。常規設置是去掉「自動拉伸」、「自動旋轉」選項,再選擇合適的語言。
-
選擇「工具-&>將文本發送到Word」,在彈出的對話框中選擇「所有頁面」,「在輸出時保持圖片版式不變」,然後選擇默認文件夾,點「確定」,即可開始OCR。
-
OCR結束後,文本自動發送到Word。預設格式是HTML,當然也可以另存為txt、doc。
與其他商業OCR軟體相比,MODI具有下列特點:
-
支持多頁TIFF。某些OCR只支持單頁TIFF,OCR以後還需要對結果進行合併。當然MODI支持的TIFF頁數也不是無限的,我個人的經驗是不要超過300頁。單頁TIFF文件可以用免費的TiffToy合併成多頁TIFF,然後再用MODI進行OCR。TiffToy合併時可以選擇每合併多少個文件生成一個新文件。
-
中文標點、文本段落保持得比較好,後期校對省了很多事。
-
支持的語言比較多,Office支持的語言基本都支持。但是這一點對大多數用戶來說無法體會,因為正常情況下,MODI只支持英文和當前Office語言(如簡體中文)的OCR,要想支持更多的語言,需要進行一些設置,這就是本文所要討論的內容。當然我並非語言天才,對於亞洲主要語言(中、日、韓)還算有所了解,其他語言一概無知,所以本文的討論也僅限於這三國語言。
-
提供開放的編程介面。對於軟體開發人員來說,到微軟網站下載一份MODI編程手冊,即可開發出基於MODI的、具有多國語言OCR功能的軟體。
在正式開始討論系統設置前,先透露一點技術背景:
-
MODI所使用的中、日、韓OCR引擎,均為清華文通的OCR引擎。
-
由於簡體中文平台的GBK字符集完全覆蓋繁體中文、日文,因此繁體中文、日文的OCR結果在簡體中文Office環境下均為GBK編碼,可以在支持GBK編碼的中文平台下正常顯示、編輯。當然如果覺得繁體中文看起來比較麻煩,也可以用Word的繁簡轉換功能,或TextForever的編碼轉換功能,將GBK繁體轉換成GB編碼的簡體。但是對於韓文來說就沒有這麼美好了,因為目前GBK還不兼容韓文,所以韓文的OCR結果如果想在簡體Office下編輯,大概只能存為HTML或doc文件,然後用Word編輯。
-
MODI編程手冊可以到這裡下載:
http://www.microsoft.com/downloads/details.aspx?FamilyId=8F93E445-B1CF-4477-A373-E17417D616BCdisplaylang=en
二、系統配置
1、原理
要想讓簡體中文Office 2003能夠OCR繁體、日文、韓文,需要做的工作包括兩個方面:
-
安裝相關語言的OCR模塊。MODI本身可以看作一個外殼,真正的OCR功能需要靠不同語言的模塊實現。每個語言模塊包括相關DLL文件和數據文件,需要複製到MODI的安裝文件夾下。
-
告訴MODI,目前有哪些語言的OCR模塊可以使用。這個需要更改註冊表,更改後在MODI的OCR選項里即可選擇對應的語言。
2、實戰
繁體中文配置
找一台安裝了繁體中文Office 2003的機器,進入MODI的安裝文件夾,預設為:C:Program FilesCommon FilesMicrosoft SharedMODI11.0將下面的文件複製到安裝了簡體中文Office 2003的相同文件夾下:TCCODE.UNITCPRINT.DATTCPRINT2.DATTCSERHT.DATTCTREE.DATTW_BU.DATTW_UB.DAT
TWBIG532.DLL複製完成後,用記事本創建一個reg文件,把下面內容粘貼後存檔:Windows Registry Editor Version 5.00[HKEY_CURRENT_USERSoftwareMicrosoftInstallerComponents61BA386016BD0C340BBEAC273D84FD5F]"1028"=hex(7):28,00,26,00,48,00,42,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a,00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,5f,00,31,00,30,00,32,00,38,00,3e,00,7d,00,60,00,45,00,4d,00,61,00,65,00,2c,00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,3d,00,00,00,00,00
雙擊此reg文件導入註冊表後,在MODI的OCR選項卡里,「OCR語言」即可看到「中文(繁體)」。注意導入註冊表時必須先關閉所有MODI窗口,導入後再打開。在簡體中文環境下,按照上述步驟設置後,用MODI識別出來的繁體中文是GBK編碼的繁體字,可以用Word的繁簡轉換,或TextForever的編碼轉換功能 (支持批量)轉換成GB編碼的簡體字。日文配置需要從日文MODI複製到簡體MODI文件夾下的文件為:JPCODE.UNIJPPRINT.DATJPPRINT2.DATJPSERHT.DATJPTREE.DATTW_SU.DAT
TW_US.DATTWRECJ.DLLTWSJIS32.DLL需要導入的reg內容為:Windows Registry Editor Version 5.00[HKEY_CURRENT_USERSoftwareMicrosoftInstallerComponents61BA386016BD0C340BBEAC273D84FD5F]"1041"=hex(7):30,00,5d,00,67,00,41,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a,00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,5f,00,31,00,30,00,34,00,31,00,3e,00,2e,00,61,00,45,00,4d,00,61,00,65,00,2c,
00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,3d,00,00,00,00,00配置成功後,在MODI的OCR選項卡里,「OCR語言」即可看到「日語」。在簡體中文環境下,按照上述步驟設置後,用MODI識別出來的日文是GBK編碼,可以在支持GBK字符集的簡體中文環境下正常顯示、編輯。韓文配置需要從韓文MODI複製到簡體MODI文件夾下的文件為:DATASIM.DATHANGULLB.DATKRCODE.UNIKRDIST.DAT
KRPRINT.DATKRSERHT.DATKRTREE.DATTW_KU.DATTW_UK.DATTWCUTCKR.DLLTWCUTLKR.DLLTWKSC32.DLLTWLAYKR.DLLTWRECK.DLL
需要導入的reg內容為:Windows Registry Editor Version 5.00[HKEY_CURRENT_USERSoftwareMicrosoftInstallerComponents61BA386016BD0C340BBEAC273D84FD5F]"1042"=hex(7):31,00,5d,00,67,00,41,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a,00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,5f,00,31,00,30,00,34,00,32,00,3e,00,30,00,61,00,45,00,4d,00,61,00,65,00,2c,00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,3d,00,00,00,00,00配置成功後,在MODI的OCR選項卡里,「OCR語言」即可看到「朝鮮語」。在簡體中文環境下,按照上述步驟設置後,用MODI識別出來的韓文是韓文編碼(charset:129),可以存為HTML、doc,並能在Word里正常顯示、編輯。如果存為TXT,則不能在簡體中文環境下顯示、編輯。簡體中文配置如果需要在繁體中文環境下OCR簡體中文,最正宗的方法是下載、安裝一個簡體MODI:http://www.microsoft.com/downloads/details.aspx?familyid=dd172063-9517-41d8-82af-29c38f7437b6displaylang=zh-tw當然如果想省事,也可以複製下列文件:SCCODE.UNISCPRINT.DATSCPRINT2.DATSCSERHT.DATSCTREE.DATTW_GU.DATTW_UG.DATTWGB32.DLL需要導入的reg內容為:Windows Registry Editor Version 5.00[HKEY_CURRENT_USERSoftwareMicrosoftInstallerComponents61BA386016BD0C340BBEAC273D84FD5F]"2052"=hex(7):4d,00,6a,00,33,00,47,00,51,00,66,00,5e,00,62,00,54,00,3f,00,42,00,3f,00,56,00,50,00,24,00,5e,00,62,00,53,00,6c,00,6c,00,3e,00,25,00,6d,00,45,00,4d,00,61,00,65,00,2c,00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,3d,00,00,00,00,00
?(′???)?哪裡簡單了
推薦閱讀: