自然語言處理(NLP)數據集整理

編者按:近日,國外幾名網友整理了一份自然語言處理的免費/公開數據集(包含文本數據)清單,為防止大家錯過這個消息,論智暫且把清單內容搬運如下。有需要的讀者可直接收藏本文,或去github點個星星以示感謝。

Github:github.com/niderhoff/nlp-datasets/blob/master/README.md

註:原文中有一些疑似失效/錯誤的鏈接,本文已做刪除處理。如發現鏈接錯誤,歡迎留言指出。

數據集

Apache Software Foundation公共郵件存檔:截至2011年7月11日所有公開可用的Apache Software Foundation郵件存檔(200 GB)

博客作者身份語料庫:由2004年8月從blogger.com收集的19,320位博主的文章組成,共計681,288篇,字數超過1.4億——平均每人35篇、7250字(298 MB)

亞馬遜食品評論[Kaggle] :數據跨越10年以上,包括截至2012年10月的568,454條評論。內容包括產品、用戶信息、評分以及純文本評論(240 MB)。附:斯坦福大學論文

亞馬遜評論:斯坦福收集了3500萬條亞馬遜評論,跨度18年(11 GB)

arXiv:所有歸檔的論文全文(270 GB)+源文件(190 GB)

ASAP自動短文評分[Kaggle]:共八個作文集,每一集作文都圍繞一個主題展開。短文的平均長度為150到550個字。一些文章依賴於主題信息,另一些則是自由發揮。所有文章都是由7年級到10年級的學生撰寫的,並經相關人員手工評分,有些還進行了雙重評分(100 MB)

ASAP自動簡答題評分:共十個數據集,每個數據集都是由單個提示生成的。平均長度為50個字。一些回答依賴於問題信息,另一些則是自由發揮。所有答案都是由10年級的學生撰寫的,並經相關人員手動分級並進行雙重評分(35 MB)

美國政客的社交媒體消息分類:收集了來自美國參議員和其他美國政客的數千條社交媒體消息,可按內容分類為目標群眾(國家或選民)、政治主張(中立/兩黨或偏見/黨派)和實際內容(如攻擊政敵等)(4 MB)註:該網站還有其他大量CV、NLP和語音方面的小型數據集

CSI語料庫:荷蘭語,該語料庫包含兩種類型的學生文本:作文和評論。涉及作者(性別、年齡、性取向、來源地區、性格概況)和文檔(時間、流派、真實性、情緒、等級)等大量元數據。由安特衛普大學CLiPS研究中心提供,主要用於計量文體學分析。

ClueWeb09 FACC:帶有Freebase注釋的ClueWeb09和ClueWeb12語料庫(72 GB)

ClueWeb11 FACC:帶有Freebase標識符注釋的ClueWeb11(92 GB)

AWS爬蟲數據:收集了從2008以來抓取的50億個網頁的數據。其中自2013年開始,所有爬蟲只持續一個月,數據以WARC文件格式存儲。從2012年開始,抓取的數據還包含元數據(WAT)和文本數據(WET)提取,大大簡化了數據處理(541 TB)

康奈爾電影對話語料庫(Cornell Movie Dialog Corpus):包含從原始電影腳本中提取的虛構對話集:10,292對電影角色之間的220,579次會話交流、涉及617部電影中的9,035個字元,共304,713個句子。元數據極其豐富,包含流派、發布年份、IMDB評級、IMDB票數、性別、在電影積分榜上的位置。

crosswikis:英語短語相關的維基百科文章資料庫、論文(11 GB)

DBpedia:包含從維基百科中提取出的結構化信息,包括312,000個人、413,000個地點、94,000張音樂專輯、49,000部電影、15,000種電子遊戲、140,000個組織、146,000個物種和4600種疾病。共計10億多條信息,其中2.57億條來自維基百科英文版,7.66億條來自其他語言版本(17 GB)

Death Row:包含美國德州自1984年以來每個執行死刑罪犯的遺言(HTML表格)

Del.icio.us:包含delicious.com上的125萬個書籤(170 MB)

社交媒體上有關災難的消息:包含10,000條和災難事故相關的帶注釋推特(2 MB)

經濟新聞報道的基調和相關性:包含從1951年到2014年的經濟新聞,可根據新聞報道判斷該文章是否與美國經濟情況相關,如果是,報道的基調是什麼(12 MB)

Enron電子郵件集:包含1,227,255封電子郵件,其中493,384份附件覆蓋了151名託管人。該電子郵件的格式為Microsoft PST、IETF MIME和EDRM XML(210 GB)

Event Registry:可以實時訪問全球100,000個新聞源的新聞文章,有API(免費查詢工具)

垃圾郵件/標題黨新聞數據集[Kaggle]:新聞網站The Examiner上的新聞彙編,包含超過6年的21000多位作者撰寫的300萬篇文章的標題(200 MB)

聯邦採購數據中心的聯邦合同:來自管理聯邦採購數據系統(FPDS-NG)的聯邦採購數據中心(FPDC)的轉儲,真實性和準確性已受承諾(180 GB)

Flickr Personal Taxonomies:社交媒體上用戶按個人喜好分類內容的樹形數據集,包含7,121位Flickr的樹(40 MB)

Freebase數據轉儲:是一個開放的世界信息資料庫,包含電影、音樂、人物、地域在內的數百個類別的數百萬個主題(26GB)

Freebase簡單主題轉儲:關於Freebase中每個主題的基本識別事實的數據轉儲(5 GB)

Freebase Quad Dump:Freebase中所有當前事實和主張的數據轉儲(35 GB)

GigaOM WordPress Challenge [Kaggle]:預測有人會喜歡哪些博客文章。包含博客文章、元數據、用戶喜歡情況等信息(1.5 GB)

Google Books Ngrams:包含在整個語料庫中出現超過40次的n-gram,優化了快速查詢小組短語的用法(2.2 TB)

Google Web 5gram:包含n-gram及其觀察到的頻率計數。n-gram的長度從unigrams(單個單詞)到5-gram,主要用於統計語言建模(24 GB)

Gutenberg EBooks:電子書基本信息的注釋列表(2 MB)

哈佛圖書館:哈佛圖書館藏書記錄已超過1,200萬冊,包括書籍、期刊、電子資料、手稿、檔案資料、樂譜、音頻、視頻和其他資料(4GB)

仇恨言語識別:ICWSM 2017論文「自動仇恨語音檢測和無禮語言問題」的作者貢獻。包含3類短文本:a)包含仇恨言論;b)是冒犯性的,但沒有仇恨言論;c)根本沒有冒犯性。由15,000行文本構成,每個字元串都經過3人判斷(3 MB)

希拉里柯林頓的電子郵件[Kaggle]:美國國務院發布的近7,000頁的希拉里·柯林頓精心編輯的電子郵件(12 MB)

Home Depot產品搜索相關性[Kaggle]:包含Home Depot網站上的許多產品和真實客戶的搜索關鍵詞。每對詞都經3名評估人員評估,並給出1—3的相關性評分,可用來預測相關性(65 MB)

識別文本中的關鍵短語:Question / Answer pairs + context;如果與問題/答案有關,則判斷上下文關係(8 MB)

Jeopardy:包含216,930個危險問題(53 MB)

20萬英語笑話文本:來源於各個地方的208,000個純文本笑話

歐洲語言機器翻譯:(612 MB)

材料安全數據表:230,000份材料安全數據表,包含化學成分、急救措施、儲存和處理等信息(3 GB)

澳大利亞新聞標題[Kaggle]:包含15年內(2003年初至2017年)澳大利亞廣播公司發布的130萬條新聞的標題,深入研究關鍵詞,可以看到所有塑造了過去十年的重要事件,以及它們隨著時間的演變歷程(56 MB)

MCTest:免費提供一組660個故事和相關問題,用於研究機器對文本的理解、回答問題(1 MB)

NEGRA:德語報刊文本的句法注釋語料庫,適用於所有大學和非營利組織,需要簽署並發送表格才能獲得

印度新聞標題[Kaggle]:彙編了2001年至2017年印度「泰晤士報」發表的270萬條新聞的標題(185 MB)

新聞文章/維基百科頁面配對:閱讀一篇簡短文章,並選出它和兩篇維基百科文章中的哪一篇最接近(6 MB)

NIPS2015論文(第2版)[Kaggle]:所有NIPS2015論文全文(335 MB)

NYTimes Facebook數據:所有《紐約時報》的Facebook帖子(5 MB)

一周全球新聞饋送[Kaggle]:一周內(2017年8月24日至2017年8月30日)全球在線發布的大多新聞內容的快照,包括大約140萬篇文章、20,000個新聞來源和20多種語言(115 MB)

句子/概念對的真實含義:用兩個概念來讀一個句子,例如「一隻狗是一種動物」或「船長可以與主人具有相同的含義」,判斷這句話是否屬實,然後將結果排列為1-5五個等級(700 KB)

Open Library數據轉儲:包含Open Library中所有記錄的最新版本的轉儲(16 GB)

Personae語料庫:收集用於作者信息和個性預測的實驗,由145名不同學生編寫的145篇荷蘭語文章組成,每個學生還參加了在線MBTI性格測試

Reddit評論:截至2015年7月的每個公開可用的書籤評論,共計17億條評論(250 GB)

Reddit評論(15年5月)[Kaggle]:上個數據集的子集(8 GB)

Reddit推薦帖語料庫:從2006年1月至2015年8月31日所有公開可用的Reddit推薦帖(42 GB)

路透社語料庫:包含大量路透社新聞報道,主要用於研究和開發自然語言處理、信息檢索和機器學習系統。在2004年秋季,NIST接管了RCV1,所以現在需要向NIST發送請求並簽署協議來獲取這些數據集(2.5 GB)

SaudiNewsNet:包含從各種在線沙特報紙中摘錄的31,030份阿拉伯文報紙文章及其元數據(2 MB)

簡訊垃圾郵件收集:是一個包含5,574英文單詞,真實的、未附帶附件的簡訊內容集,已合法進行標記(200 KB)

SouthparkData:帶有腳本信息的.csv文件,包含《南方公園》季數、劇集、角色等信息(3.6 MB)

Stackoverflow:730萬個stackoverflow問題+其他stackexchanges(查詢工具)

Twitter Cheng-Caverlee-Lee Scrape:包含2009年9月至2010年1月twitter收集的基於內容的用戶地理定位信息,包含115,886位Twitter用戶和3,844,612個位置更新:經度、緯度(400 MB)

Twitter上關於新英格蘭愛國者隊泄氣門(Deflategate)事件的情緒:新英格蘭愛國者隊在美國橄欖球聯合會(AFC)決賽中擊敗印第安納波利斯小馬隊,將在2月1號的超級碗大賽中迎戰西雅圖海鷹隊。但是愛國者隊被發現在這次比賽中使用的12個橄欖球有11個充氣不足。這個數據集可用於觀察醜聞爆發Twitter用戶的情緒,以衡量公眾對整個事件的看法(2 MB)

Twitter上激進分子情緒分析:關於諸如墮胎合法化、女權主義、希拉里·柯林頓等各種左傾問題的推文,如果所述推文對該問題贊成、反對或保持中立,則將其分類(600 KB)

Twitter Sentiment140:與品牌/關鍵字相關的推文,網站上包括論文和研究想思路(77 MB)

Twitter的情緒分析:自駕車:閱讀推文,將其分為非常積極的、輕微積極的、中性的、輕微消極的或非常消極的,並標記其是否與自駕車相關(1 MB)

Twitter東京地理定位推文:來自東京的20萬條推文(47 MB)

Twitter UK Geolocated Tweets:來自英國的17萬條推文。(47 MB)

Twitter美國地理定位推文:來自美國的20萬條推文(45 MB)

Twitter美國航空公司情緒[Kaggle]:收集了twitter用戶對於一些美國主要航空公司的評價情況。數據始於從2015年2月,評論者需選擇正面、負面和中性中的一類,如有負面評價,再進行原因分類(如「晚班」或「粗魯服務」)(2.5 MB)

基於新聞文章判斷美國經濟表現:新聞文章的標題和摘要與美國經濟相關程度的排名(5 MB)

Urban Dictionary辭彙和定義[Kaggle]:截至2016年5月,包含全部260萬個Urban Dictionary的辭彙定義、提交者和點贊數量的CSV語料庫(238 MB)

WestburyLab USENET語料庫:2005—2010年47,860篇英語新聞的匿名匯總,文章長度在500字和500,000字之間,英文單詞佔比高達90%(40 GB)

WestburyLab維基百科語料庫(2010):包含2010年4月以前維基百科英文部分中的所有文章的快照,已經去除了所有鏈接和不相關的材料(導航文本等),但未經標記,是原始文本(1.8 GB)

WEX:英文維基百科的處理轉儲(66 GB)

維基百科XML數據:維基媒體基金會提供的完整副本,以wikitext源代碼和嵌入XML的元數據形式提供(500 GB)

Yahoo! Answers Comprehensive Questions and Answers:2017年10月25日創建,包含4,483,032個問題及其答案(3.6 GB)

Yahoo! Answers consisting of questions asked in French:Yahoo! Answers corpus from 2006 to 2015的子集,包含170萬個法語問題以及相應的答案(3.8 GB)

Yahoo! Answers Manner Questions:Yahoo! Answers corpus的子集,並根據語言屬性進行選擇,包含142,627個問題及其答案。(104 MB)

Yahoo!從公開可用網頁中提取的HTML表單:包含一小部分含有複雜HTML表單的頁面,共計267萬個複雜表單(50+ GB)

Yahoo!從公開可用網頁中提取元數據:RDF數據(2 GB)

Yahoo! N-Gram Representations:包含n-gram表示形式,這些數據可以作為查詢重寫任務的測試平台,這是IR研究中的一個常見問題,也是NLP研究中常見的單詞和句子相似性任務(2.6 GB)

Yahoo! N-Grams 2.0:n-gram(n = 1至5),從1260多個面向新聞的站點中檢索到的1460萬個文檔(1.26億條獨特語句,34億個運行詞)(12 GB)

Yahoo!搜索日誌與相關性判斷:匿名化的Yahoo!搜索日誌與相關性判斷(1.3 GB)

Yahoo!英語維基百科的語義注釋快照:英文維基百科從2006年11月4日開始使用一些公開的NLP工具進行處理,共1,490,688個條目(6 GB)

Yelp:包括餐廳排名和220萬條評論

YouTube:170萬個YouTube視頻的簡介

主要來源

  • awesome-public-datasets/ NLP(包含更多列表)
  • AWS公開數據集
  • CrowdFlower: Data for Everyone(包含大量小型調查以及為特定任務眾包獲得的數據)
  • Kaggle 1, 2(需要確保該比賽數據可用於其他非競賽場合)
  • Open Library
  • Quora(主要注釋的語料庫)
  • /r/datasets(無盡的數據集列表,大部分是由業餘愛好者提供的,但沒有正確記錄或許可)
  • rs.io(另一張大列表)
  • Stackexchange:Opendata
  • 斯坦福大學NLP小組(主要注釋語料庫和TreeBanks,或提供實際的NLP工具)
  • Yahoo! Webscope(包含使用他們數據集的論文)

推薦閱讀:

關於顏色:如何構建測試圖像

TAG:自然語言處理 | 數據集 | 機器學習 |