百萬級中文人名語料庫
05-25
百萬級中文人名語料庫
推薦閱讀:
中文人名語料庫(Chinese-Names-Corpus)
包含120萬常見中文人名;25萬古代中文人名;1萬日本常見人名;2萬英文常見姓或名;1千個中文姓氏;5千稱呼詞根,18萬中文稱呼;48萬翻譯人名。
可以用作分詞字典,或人名識別訓練語料。
GitHub地址:wainshine/Chinese-Names-Corpus
再給大家推薦一下:由美國哈佛大學費正清中國研究中心、台灣中央研究院歷史語言研究所、和北京大學中國古代史研究中心三方合建的 中國歷代人物傳記資料庫(CBDB) 中國歷代人物傳記資料庫(CBDB) 。
CBDB資料庫收錄了約37萬中國古代人物的資料,有人物生卒年月、官職、人物關係網等,甚至還有地理位置信息。可以用來做數據可視化、或社交網路分析。
該資料庫的資料庫可以在官網下載到。
如果大家有日本人名識別或其他的需求,也可以去 名前辭典 這個網站看看,お名前辭典 - 赤ちゃん?子供の名前 約18萬件から検索できる名前辭書 。該網站收錄了約18萬日本人名,其中男性人名10萬,女性人名12萬。
以上。
推薦閱讀: