書刊掃描儀中的OCR文字識別技術
OCR文字識別是現在普遍使用的一種將圖片識別轉換成可編輯的WORD文檔的技術,最常見在掃描儀上,今天我們就來研究研究就OCR文字識別技術。
OCR技術是光學字元識別的縮寫,是通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其他印刷的文字轉化為圖像信息,再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入技術。常應用於銀行票據、大量文字資料、檔案卷宗、文案的錄入和處理領域。
它是人工智慧技術之一,它讓計算機和人一樣,可以看圖識字。它是一種快捷、省力、高效的文字輸入方法。
【OCR文字識別技術的特點】
1.自動判斷、拆分、識別和還原各種通用型印刷體表格
2.自動分析文稿的版面布局,自動分欄、自動判斷標題、橫欄、圖像、表格等相應屬性,並判定識別順序,可自動識別特定表格的印刷或列印漢子、字母、數字,可識別手寫體漢字、手寫體字母、數字及多種手寫符號,並按表格格式輸出,提高了表格錄入效率,節省了大量人力。
3.可以將表格識別直接還原成PDF、TIFF不壓縮、JPEG等格式的文檔
4.可以對圖像嵌入橫排文本和豎排文本,對表格文本進行自動排版分析
【OCR技術的工作原理】
OCR軟體主要是由圖像處理模塊、版面劃分模塊、文字識別模塊和文字編輯模塊等4部分組成。
1.圖像處理模塊:主要具有文稿掃描、圖像縮放、圖像旋轉等功能。通過掃描儀輸入後,文稿形成圖像文件,圖像處理模塊可對圖像進行放大,去除污點和劃痕,如果圖像放置不正,可以手工或者自動旋轉圖像,目的是為文字識別創造更好的條件,使識別率更高。
2.版面劃分模塊:主要包括版面劃分、更改劃分,即對版面的理解、字切分、歸一化等,可自動或手動兩種版面處理方式。目的是告訴ODR軟體將同一版面的文章、表格等分開,以便於分別處理,並按照怎樣的順序進行識別。
3.文字識別模塊:是OCR軟體的核心部分,文字識別模塊主要對輸入的漢子進行「閱讀」,但不能一目多行,必須逐行切割,對於漢子通常也是一個字一個字地辨認,即單字識別,在進行歸一化。文字識別模塊通過對不同樣本漢子的特徵進行提取,完成識別,自動查找可疑字,具有前後聯想等功能。
4.文字編輯模塊:主要對OCR識別後的文字進行修改、編輯,如系統識別認為有誤,則文字會以醒目的紅色或者別的顏色顯示,並提供相似的文字供選擇供編輯器輸出等。
【OCR文字識別的步驟】
1.文稿掃描後,剛開始出現在視窗中的要識別的文字畫面很小,首先選擇「放大」工具,對畫面進行適當放大,使畫面看的更加清楚,必要時還可以選擇「縮小」工具,將畫面適當縮小。
2.如果畫面需旋轉90°、180°或270°,可使用「旋轉圖像」工具旋轉圖像。如果文字畫面傾斜,可選擇「傾斜校正」工具,將畫面調正。
3.識別時選擇「設定識別區域」工具,在文字畫面上框出要識別的區域,這是也可根據畫面情況框出多個區域,如果所框區域有誤,則可使用「刪除識別區域」工具,刪除所選識別區域。
4.為了提高識別率,如果所選識別區有雜點或有不能識別的圖像,則可選擇「擦除圖像雜點」工具,將雜點一點一點地擦除。如果需要成片地擦除,則可選擇「擦拭圖像塊」工具。
5.點擊「識別」圖像,則OCR顯示正在進行文字切分,然後轉入「正在識別」畫面,將識別的文字逐步顯示出來「文稿校對」窗口。
6.將識別後的文件存儲成文本(TXT)文件或Word的PTF文件。
【OCR技術的應用】
目前OCR軟體與掃描儀的搭配已經應用到信息化時代的多個領域,如數字化圖書館,各種報表的識別、以及銀行、稅務系統票據的識別等。
在掃描儀市場上,許多類型的掃描儀均配有OCR軟體,如賽數掃描儀就用這款軟體,幫助圖書館【圖書數字化】、檔案館【成冊檔案無需拆卷】以及檢察院【案卷】完成日常的文稿存檔識別工作,將客戶相關書刊、檔案、案卷通過專業的掃描儀進行掃描,隨後進行OCR識別或存儲成圖像文件將圖像文件轉換成文本文件或WORD文件進行存儲。
推薦閱讀:
TAG:掃描儀 |