百萬級中文人名語料庫

百萬級中文人名語料庫

中文人名語料庫(Chinese-Names-Corpus)

包含120萬常見中文人名;25萬古代中文人名;1萬日本常見人名;2萬英文常見姓或名;1千個中文姓氏;5千稱呼詞根,18萬中文稱呼;48萬翻譯人名。

可以用作分詞字典,或人名識別訓練語料。

GitHub地址:wainshine/Chinese-Names-Corpus


再給大家推薦一下:由美國哈佛大學費正清中國研究中心、台灣中央研究院歷史語言研究所、和北京大學中國古代史研究中心三方合建的 中國歷代人物傳記資料庫(CBDB) 中國歷代人物傳記資料庫(CBDB) 。

CBDB資料庫收錄了約37萬中國古代人物的資料,有人物生卒年月、官職、人物關係網等,甚至還有地理位置信息。可以用來做數據可視化、或社交網路分析。

該資料庫的資料庫可以在官網下載到。


如果大家有日本人名識別或其他的需求,也可以去 名前辭典 這個網站看看,お名前辭典 - 赤ちゃん?子供の名前 約18萬件から検索できる名前辭書 。該網站收錄了約18萬日本人名,其中男性人名10萬,女性人名12萬。

以上。


推薦閱讀:

jieba源碼解析(一)——中文分詞
數學之美第四章談談分詞
中文分詞演算法簡介
分詞 | jiebaR 常用函數

TAG:語料庫 | 中文分詞 | 姓名 |