識別漢字圖像的數據集

02-11

下載地址：cnftl-20171119.rar

要做這個數據集的直接原因是正在寫OCR框架，OCR的第三步是用TensorFlow識別漢字。這個數據集包括以下部分。

圖1 數據集中字元(微軟雅黑)，可放大查看

一、下載

下載cnftl-20171119.rar、解壓縮，以下是當中內容。

train(目錄)。訓練集，各個字元的png圖像。當前只有訓練集，沒有驗證、測試集。
labels.txt(文件)。存儲著集合中各字元對應的UNICODE碼。app可用它做標註。
fonts(目錄)。用於生成數據集的UNICODE字型檔。這些字型檔可直接來自Win10系統目錄下的「Fonts」。目錄中除了字型檔文件，還有個叫fonts.cfg的文件，Studio在生成數據集時需要這文件。
train-xxx-wall.png。各字型檔對應的字元牆，示例見上面的圖1，在生成train目錄時會同時生成這些png圖像。
rgb_2_gray.py。Studio生成train目錄中圖像是一個像素佔3個位元組的rgb格式。訓練集中都是黑白圖像，為減少尺寸可轉成灰度格式，這個py文件的作用就把rgb轉成gray。
chinese-3500.txt。《義務教育語文課程標準（2011版）》中寫的3500個常用漢字，Studio用它來生成labels.txt。

二、用Studio生成數據集

Rose Studio支持生成識別漢字圖像的數據集。

圖2 Studio生成數據集

要生成數據集，需要準備的文件。1）labels.txt，Studio通過它知道要生成哪些字元。2）fonts目錄下文件，包括字型檔和fonts.cfg。Studio會逐個解析字型檔，然後提取出labels.txt寫著的字元，然後生成train目錄下文件和train-xxx-wall.png。