百萬級中文人名語料庫

05-25

百萬級中文人名語料庫

中文人名語料庫（Chinese-Names-Corpus）

包含120萬常見中文人名；25萬古代中文人名；1萬日本常見人名；2萬英文常見姓或名；1千個中文姓氏；5千稱呼詞根，18萬中文稱呼；48萬翻譯人名。

可以用作分詞字典，或人名識別訓練語料。

GitHub地址：wainshine/Chinese-Names-Corpus

再給大家推薦一下：由美國哈佛大學費正清中國研究中心、台灣中央研究院歷史語言研究所、和北京大學中國古代史研究中心三方合建的中國歷代人物傳記資料庫（CBDB）中國歷代人物傳記資料庫（CBDB）。

CBDB資料庫收錄了約37萬中國古代人物的資料，有人物生卒年月、官職、人物關係網等，甚至還有地理位置信息。可以用來做數據可視化、或社交網路分析。

該資料庫的資料庫可以在官網下載到。

如果大家有日本人名識別或其他的需求，也可以去名前辭典這個網站看看，お名前辭典 - 赤ちゃん?子供の名前約18萬件から検索できる名前辭書。該網站收錄了約18萬日本人名，其中男性人名10萬，女性人名12萬。

以上。