書刊掃描儀中的OCR文字識別技術

03-03

OCR文字識別是現在普遍使用的一種將圖片識別轉換成可編輯的WORD文檔的技術，最常見在掃描儀上，今天我們就來研究研究就OCR文字識別技術。

　　OCR技術是光學字元識別的縮寫，是通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其他印刷的文字轉化為圖像信息，再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入技術。常應用於銀行票據、大量文字資料、檔案卷宗、文案的錄入和處理領域。

　　它是人工智慧技術之一，它讓計算機和人一樣，可以看圖識字。它是一種快捷、省力、高效的文字輸入方法。

　　【OCR文字識別技術的特點】

　　1.自動判斷、拆分、識別和還原各種通用型印刷體表格

　　2.自動分析文稿的版面布局，自動分欄、自動判斷標題、橫欄、圖像、表格等相應屬性，並判定識別順序，可自動識別特定表格的印刷或列印漢子、字母、數字，可識別手寫體漢字、手寫體字母、數字及多種手寫符號，並按表格格式輸出，提高了表格錄入效率，節省了大量人力。

　　3.可以將表格識別直接還原成PDF、TIFF不壓縮、JPEG等格式的文檔

　　4.可以對圖像嵌入橫排文本和豎排文本，對表格文本進行自動排版分析

　　【OCR技術的工作原理】

　　OCR軟體主要是由圖像處理模塊、版面劃分模塊、文字識別模塊和文字編輯模塊等4部分組成。

　　1.圖像處理模塊：主要具有文稿掃描、圖像縮放、圖像旋轉等功能。通過掃描儀輸入後，文稿形成圖像文件，圖像處理模塊可對圖像進行放大，去除污點和劃痕，如果圖像放置不正，可以手工或者自動旋轉圖像，目的是為文字識別創造更好的條件，使識別率更高。

　　2.版面劃分模塊：主要包括版面劃分、更改劃分，即對版面的理解、字切分、歸一化等，可自動或手動兩種版面處理方式。目的是告訴ODR軟體將同一版面的文章、表格等分開，以便於分別處理，並按照怎樣的順序進行識別。

　　3.文字識別模塊：是OCR軟體的核心部分，文字識別模塊主要對輸入的漢子進行「閱讀」，但不能一目多行，必須逐行切割，對於漢子通常也是一個字一個字地辨認，即單字識別，在進行歸一化。文字識別模塊通過對不同樣本漢子的特徵進行提取，完成識別，自動查找可疑字，具有前後聯想等功能。

　　4.文字編輯模塊：主要對OCR識別後的文字進行修改、編輯，如系統識別認為有誤，則文字會以醒目的紅色或者別的顏色顯示，並提供相似的文字供選擇供編輯器輸出等。

　　【OCR文字識別的步驟】

　　1.文稿掃描後，剛開始出現在視窗中的要識別的文字畫面很小，首先選擇「放大」工具，對畫面進行適當放大，使畫面看的更加清楚，必要時還可以選擇「縮小」工具，將畫面適當縮小。

　　2.如果畫面需旋轉90°、180°或270°，可使用「旋轉圖像」工具旋轉圖像。如果文字畫面傾斜，可選擇「傾斜校正」工具，將畫面調正。

　　3.識別時選擇「設定識別區域」工具，在文字畫面上框出要識別的區域，這是也可根據畫面情況框出多個區域，如果所框區域有誤，則可使用「刪除識別區域」工具，刪除所選識別區域。

　　4.為了提高識別率，如果所選識別區有雜點或有不能識別的圖像，則可選擇「擦除圖像雜點」工具，將雜點一點一點地擦除。如果需要成片地擦除，則可選擇「擦拭圖像塊」工具。

　　5.點擊「識別」圖像，則OCR顯示正在進行文字切分，然後轉入「正在識別」畫面，將識別的文字逐步顯示出來「文稿校對」窗口。

　　6.將識別後的文件存儲成文本(TXT)文件或Word的PTF文件。

　　【OCR技術的應用】

　　目前OCR軟體與掃描儀的搭配已經應用到信息化時代的多個領域，如數字化圖書館，各種報表的識別、以及銀行、稅務系統票據的識別等。

　　在掃描儀市場上，許多類型的掃描儀均配有OCR軟體，如賽數掃描儀就用這款軟體，幫助圖書館【圖書數字化】、檔案館【成冊檔案無需拆卷】以及檢察院【案卷】完成日常的文稿存檔識別工作，將客戶相關書刊、檔案、案卷通過專業的掃描儀進行掃描，隨後進行OCR識別或存儲成圖像文件將圖像文件轉換成文本文件或WORD文件進行存儲。