Python--文字識別--Tesseract

04-19

1.介紹

Tesseract 是一個 OCR 庫,目前由 Google 贊助(Google 也是一家以 OCR 和機器學習技術聞名於世的公司)。Tesseract 是目前公認最優秀、最精確的開源 OCR 系統。除了極高的精確度,Tesseract 也具有很高的靈活性。它可以通過訓練識別出任何字體，也可以識別出任何 Unicode 字元。

2.安裝

以下所有都是在mac上安裝實現的

//安裝tesseract的同時安裝訓練工具brew install --with-training-tools tesseract//安裝tesseract的同時安裝所有語言，語言包比較大，如果安裝的話時間較長，建議不安裝，按需選擇brew install --all-languages tesseract//安裝tesseract，並安裝訓練工具和語言brew install --all-languages --with-training-tools tesseract //只安裝tesseract，不安裝訓練工具brew install tesseract

3.下載語言庫

下載地址:tesseract-ocr/tessdata

默認自帶的是英語

根據自己的需求選擇所要的語言庫，在這裡我們選擇的是簡體中文所以選擇的庫是：chi_sim.traineddata

將文件拷貝到到：/usr/local/Cellar/tesseract/(你下載的版本號)/share/tessdata目錄下。

4.Tesseract的命令行使用

一般使用:

//默認使用eng文字型檔， imgName是圖片的地址，result識別結果tesseract imgName result

指定語言:

//指定使用簡體中文tesseract -l chi_sim imgName result//查看本地存在的語言庫tesseract --list-langs

指定多語言:

//指定多語言，用+號相連tesseract -l chi_sim+eng imgName result

5.Tesseract在Python中使用

通過 pip 安裝支持Python 版本的 Tesseract庫

pip install pytesseract

通過Python代碼的簡單實現

import pytesseractfrom PIL import Imageimage = Image.open(/Users/admin/Desktop/test.jpg)text = pytesseract.image_to_string(image)print text

是爬蟲中的驗證碼的識別,可以通過更換別人訓練好的語言包來識別.如果想自己通過訓練來獲得語言包也是可以的.

6.Tesseract訓練

這裡放個官方文檔,等我練好了再分享

[tesseract-ocr/tesseract](tesseract-ocr/tesseract)

[更多內容](ztfDeveloper的博客 - CSDN博客)