關於中英文語料的獲取途徑介紹

關於中英文語料的獲取途徑介紹

來自專欄深度學習與自然語言處理

中文:

1. github.com/candlewill/D 這個是一個集合,包括不少的語料庫!

包含的語料包括了

1)小黃雞 xiaohuangji50w_nofenci.conv.zip

2)dgk_shooter_min.conv.zip 中文電影對白語料,噪音比較大,許多對白問答關係沒有對應好

3)smsCorpus_zh_xml_2015.03.09.zip 包含中文和英文簡訊息語料,據說是世界最大公開的短消息語料

4)ChatterBot中文基本聊天語料 ChatterBot聊天引擎提供的一點基本中文聊天語料,量很少,但質量比較高

5)Datasets for Natural Language Processing 這是他人收集的自然語言處理相關數據集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,都是英文文本。可以使用機器翻譯為中文,供中文對話使用

6)白鷺時代中文問答語料 由白鷺時代官方論壇問答板塊10,000+ 問題中,選擇被標註了「最佳答案」的紀錄匯總而成。人工review raw data,給每一個問題,一個可以接受的答案。目前,語料庫只包含2907個問答。

7)Chat corpus repository 包括:開放字幕、英文電影字幕、中文歌詞、英文推文

8)保險行業QA語料庫 通過翻譯 insuranceQA產生的數據集。train_data含有問題12,889條,數據 141779條,正例:負例 = 1:10; test_data含有問題2,000條,數據 22000條,正例:負例 = 1:10;valid_data含有問題2,000條,數據 22000條,正例:負例 = 1:10

9)github.com/MarkWuNLP/Mu 來自豆瓣的多輪對話

10)jddc.jd.com/ 京東比賽

11)shareditor.com/blogshow 自己動手做的數據

12) 貼吧對話數據 文件名:tieba.dialogues 保存在網盤中

13)jianshu.com/p/c1865d2b9 高質量閑聊(聊天、對話)語料(數據)

14)SMP2017中文人機對話評測數據 github.com/HITlilingzhi

15) 新浪微博數據集,評論回復短句,下載地址:lwc.daanvanesch.nl/open

16)data.noahlab.com.hk/con 華為諾亞方舟實驗室中文對話語料庫

17http://www.mlln.cn/2018/06/02/[%E8%BD%AC]%E5%90%8A%E7%82%B8%E5%A4%A9%E7%9A%84%E4%B8%AD%E6%96%87%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%B7%A5%E5%85%B7%E5%92%8C%E8%AF%AD%E6%96%99%E5%BA%93%E4%BB%8B%E7%BB%8D/#Corpus-%E4%B8%AD%E6%96%87%E8%AF%AD%E6%96%99

corpus中文語料集

18)ubuntu對話系統數據集 保存在百度網盤中 ubuntu_dataset.zip

英文:

1)nlp.stanford.edu/projec 斯坦福數據集

2)Cornell Movie Dialogs:電影對話數據集,下載地址:cs.cornell.edu/~cristia

3) Ubuntu Dialogue Corpus:Ubuntu日誌對話數據,下載地址:arxiv.org/abs/1506.0890

4) OpenSubtitles:電影字幕,下載地址:opus.lingfil.uu.se/Open

5) Twitter:twitter數據集,下載地址:github.com/Marsan-Ma/tw

6) Papaya Conversational Data Set:基於Cornell、Reddit等數據集重新整理之後,好像挺乾淨的,下載鏈接:github.com/bshao001/Cha

7)github.com/niderhoff/nl 自然語言處理的免費/公開數據集(zhuanlan.zhihu.com/p/35 資源比較多,可以看看)

相關數據集的處理代碼或者處理好的數據可以參見下面兩個github項目:

  • DeepQA
  • chat_corpus

others:

電影字幕網站:zimuku.cn/


推薦閱讀:

基於多譯本平行語料庫的翻譯語言特徵研究——對契訶夫小說三譯本的對比分析
第七節 大語料庫中語音單元序列的自動挑選
美國當代英語語料庫COCA介紹(一)

TAG:中英文 | 語料庫 | 自然語言處理 |