識別漢字圖像的數據集

下載地址:cnftl-20171119.rar

要做這個數據集的直接原因是正在寫OCR框架,OCR的第三步是用TensorFlow識別漢字。這個數據集包括以下部分。

  1. ASCII碼,[0x21--0x7e]。
  2. 漢字標點符號,14個。
  3. 常用的3500個字漢字。取自《義務教育語文課程標準(2011版)》
  4. GB2312收錄的3755個一級漢字,但不在上面3500中的部分。注意會存在這麼種漢字,它在3500中,但不在此處的3755,因而這裡加的部分會超過255個。

圖1 數據集中字元(微軟雅黑),可放大查看

一、下載

下載cnftl-20171119.rar、解壓縮,以下是當中內容。

  • train(目錄)。訓練集,各個字元的png圖像。當前只有訓練集,沒有驗證、測試集。
  • labels.txt(文件)。存儲著集合中各字元對應的UNICODE碼。app可用它做標註。
  • fonts(目錄)。用於生成數據集的UNICODE字型檔。這些字型檔可直接來自Win10系統目錄下的「Fonts」。目錄中除了字型檔文件,還有個叫fonts.cfg的文件,Studio在生成數據集時需要這文件。
  • train-xxx-wall.png。各字型檔對應的字元牆,示例見上面的圖1,在生成train目錄時會同時生成這些png圖像。
  • rgb_2_gray.py。Studio生成train目錄中圖像是一個像素佔3個位元組的rgb格式。訓練集中都是黑白圖像,為減少尺寸可轉成灰度格式,這個py文件的作用就把rgb轉成gray。
  • chinese-3500.txt。《義務教育語文課程標準(2011版)》中寫的3500個常用漢字,Studio用它來生成labels.txt。

二、用Studio生成數據集

Rose Studio支持生成識別漢字圖像的數據集。

圖2 Studio生成數據集

要生成數據集,需要準備的文件。1)labels.txt,Studio通過它知道要生成哪些字元。2)fonts目錄下文件,包括字型檔和fonts.cfg。Studio會逐個解析字型檔,然後提取出labels.txt寫著的字元,然後生成train目錄下文件和train-xxx-wall.png。


推薦閱讀:

想做一個簡單的掃描筆,沒有核心的OCR技術怎麼辦?
怎樣用 MATLAB 識別圖片上的文字?
如何快速檢測兩張截圖中文字的相似度?

TAG:TensorFlow | OCR光学字符识别 |