1.3.內容延伸:Python的OCR和Tenserflow

說明:本文是《Python數據分析與數據化運營》中的「1.3.內容延伸:Python的OCR和Tenserflow」。

-----------------------------下面是正文內容--------------------------

1. OCR工具:Tesseract-ocr

OCR(Optical Character Recognition,光學字元識別)是一個非常「古老」的話題,原因是這項工作在上世紀90年代就已經普遍流行。但在大數據的背景下,我們要做的不是識別普通的光學字元(光學掃描文字),而是把範圍擴大到識別更多領域的文字信息,例如手寫識別、工業銘牌文字識別等非標準化、非印刷體、非傳統資料錄入的文字信息識別。

tesseract-ocr是一個Google支持的開源OCR圖文識別項目,支持超過200種語言(包括中文),並支持自定義訓練字符集,支持跨Windows、Linux、Mac OSX 多平台使用。

不同的平台安裝tesseract-ocr和配置差異較大,下面以Windows為例說明其安裝過程。

第一步 進入sourceforge.net/project下載名為「tesseract-ocr-setup-3.02.02.exe」的安裝包。

第二步 安裝下載的tesseract-ocr-setup-3.02.02.exe

安裝成功之後,在系統終端命令行窗口輸入 tesseract,可直接調用ocr命令。

C:UsersAdministrator>tesseract

Usage:tesseract imagename outputbase [-l

lang] [-psm pagesegmode] [configfile...

]

pagesegmode values are:

0 = Orientation and script detection (OSD)

only.

1 = Automatic page segmentation with OSD.

2 = Automatic page segmentation, but no

OSD, or OCR

3 = Fully automatic page segmentation, but

no OSD. (Default)

4 = Assume a single column of text of

variable sizes.

5 = Assume a single uniform block of

vertically aligned text.

6 = Assume a single uniform block of text.

7 = Treat the image as a single text line.

8 = Treat the image as a single word.

9 = Treat the image as a single word in a

circle.

10 = Treat the image as a single character.

-l lang and/or -psm pagesegmode must occur

before anyconfigfile.

Single options:

-v

--version: version info

--list-langs: list available languages for tesseract engine

有關tesseract-ocr的更多信息,具體查閱github.com/tesseract-oc

2. 機器學習框架:TensorFlow

TensorFlow是谷歌基於DistBelief進行研發的第二代人工智慧學習系統,它使用圖模型將複雜的數據結構傳輸至人工智慧神經網中進行分析和處理的框架。它可以被廣泛於語音識別或圖像識別等多項機器深度學習領域。

在TensorFlow出現之前,我們之前介紹的scikit-learn幾乎是Python機器學習最流行的工具(或者至少是最流行的工具之一),藉助谷歌的強大號召力以及在人工智慧領域的技術實力,TensorFlow正在慢慢凸顯優勢,逐步成為Python領域最具有發展潛力的機器學習框架。

TensorFlow支持跨平台的應用,最新版本已經支持Windows。但遺憾的是Tensorflow只支持X64架構的Windows,這種架構更多的集中在伺服器上應用,而個人電腦通常是X86架構(包括32位和64位),所以在個人Windows電腦上通常是無法直接安裝和使用TensorFlow(可以在虛擬機上安裝學習)。(作者註:到1.4.0開始的版本,已經支持X86架構的個人PC,但只是PY3.*版本以上。)

有關TensorFlow的更多信息,具體查閱tensorflow.org


推薦閱讀:

「爸爸都嫌土」的海瀾之家變身「潮流炸子雞」,除了林更新還靠什麼?
《Python數據分析與數據化運營》電子版
互聯網金融行業,如何將數據、用研、產品做到融會貫通?
爬取拉勾網,深入了解互聯網數據運營

TAG:數據分析 | 數據化運營 | Python數據分析書籍 |