OCR文字識別技術使用教程

06-17

　　圖片文字識別軟體ABBYY FineReader是現在辦公室的必備軟體，它可以識別JPG、GIF、PNG、BMP、TIF和PDF源文件、PDF掃描件，也就是說我們在日常工作中能夠遇到的不能編輯的文字都可以通過ABBYY FineReader圖片文字識別軟體來識別，識別得到的文字可以自由的進行編輯。有很多人有這樣的疑問，圖片文字識別軟體的技術原理是什麼呢?

　　1、圖文輸入：是指通過輸入設備將文檔輸入到計算機中，也就是實現原稿的數字化。現在用得比較普遍的設備是掃描儀。文檔圖像的掃描質量是OCR軟體正確識別的前提條件。恰當地選擇掃描解析度及相關參數，是保證文字清楚、特徵不丟失的關鍵。此外，文檔儘可能地放置端正，以保證預處理檢測的傾斜角小，在進行傾斜校正後，文字圖像的變形就小。這些簡單的操作，會使系統的識別正確率有所提高。反之，由於掃描設置不當，文字的斷筆過多可能會分檢出半個文字的圖像。文字斷筆和筆畫粘連會造成有些特徵丟失，在將其特徵與特徵庫比較時，會使其特徵距離加大，識別錯誤率上升。

　　2、預處理：掃描一幅簡單的印刷文檔的圖像，將每一個文字圖像分檢出來交給識別模塊識別，這一過程稱為圖像預處理。預處理是指在進行文字識別之前的一些準備工作，包括圖像凈化處理，去掉原始圖像中的顯見雜訊(干擾)。主要任務是測量文檔放置的傾斜角，對文檔進行版面分析，對選出的文字域進行排版確認，對橫、豎排版的文字行進行切分，每一行的文字圖像的分離，標點符號的判別等。這一階段的工作非常重要，處理的效果直接影響到文字識別的準確率。版面分析是對文本圖像的總體分析，是將文檔中的所有文字塊分檢出來，區分出文本段落及排版順序，以及圖像、表格的區域。將各文字塊的域界(域在圖像中的始點、終點坐標)，域內的屬性(橫、豎排版方式)以及各文字塊的連接關係作為一種數據結構，提供給識別模塊自動識別。對於文本區域直接進行識別處理，對於表格區域進行專用的表格分析及識別處理，對於圖像區域進行壓縮或簡單存儲。行字切分是將大幅的圖像先切割為行，再從圖像行中分離出單個字元的過程。

　　3、單字識別：單字識別是體現OCR文字識別軟體的核心技術。從掃描文本中分檢出的文字圖像，由計算機將其圖形、圖像轉變成文字的標準代碼，是讓計算機「認字」的關鍵，也就是所謂的識別技術。就像人腦認識文字是因為在人腦中已經保存了文字的各種特徵，如文字的結構、文字的筆畫等。要想讓計算機來識別文字，也需要先將文字的特徵等信息儲存到計算機里，但要儲存什麼樣的信息及怎樣來獲取這些信息是一個很複雜的過程，而且要達到非常高的識別率才能符合要求。通常採用的做法是根據文字的筆畫、特徵點、投影信息、點的區域分布等進行分析。

　　上述這三個是圖片文字識別軟體ABBYY Finereader識別過程中的技術原理，一些技術不成熟的軟體每一個步驟都需要用戶手動進項操作，所以沒有一定的專業知識完成不了整個過程。而ABBYY FineReader圖片文字識別軟體因為技術成熟、智能化程度高，這些都是程序都是軟體自動完成，一鍵完成識別工作。

　　本文來源於：http://www.abbyychina.com/FRshiyongjiqiao/fr-tuwenshibieruanjian.html