自然語言處理（NLP）數據集整理

04-23

編者按：近日，國外幾名網友整理了一份自然語言處理的免費/公開數據集（包含文本數據）清單，為防止大家錯過這個消息，論智暫且把清單內容搬運如下。有需要的讀者可直接收藏本文，或去github點個星星以示感謝。

Github：github.com/niderhoff/nlp-datasets/blob/master/README.md

註：原文中有一些疑似失效/錯誤的鏈接，本文已做刪除處理。如發現鏈接錯誤，歡迎留言指出。

數據集

Apache Software Foundation公共郵件存檔：截至2011年7月11日所有公開可用的Apache Software Foundation郵件存檔（200 GB）

博客作者身份語料庫：由2004年8月從blogger.com收集的19,320位博主的文章組成，共計681,288篇，字數超過1.4億——平均每人35篇、7250字（298 MB）

亞馬遜食品評論[Kaggle] ：數據跨越10年以上，包括截至2012年10月的568,454條評論。內容包括產品、用戶信息、評分以及純文本評論（240 MB）。附：斯坦福大學論文

亞馬遜評論：斯坦福收集了3500萬條亞馬遜評論，跨度18年（11 GB）

arXiv：所有歸檔的論文全文（270 GB）+源文件（190 GB）

ASAP自動短文評分[Kaggle]：共八個作文集，每一集作文都圍繞一個主題展開。短文的平均長度為150到550個字。一些文章依賴於主題信息，另一些則是自由發揮。所有文章都是由7年級到10年級的學生撰寫的，並經相關人員手工評分，有些還進行了雙重評分（100 MB）

ASAP自動簡答題評分：共十個數據集，每個數據集都是由單個提示生成的。平均長度為50個字。一些回答依賴於問題信息，另一些則是自由發揮。所有答案都是由10年級的學生撰寫的，並經相關人員手動分級並進行雙重評分（35 MB）

美國政客的社交媒體消息分類：收集了來自美國參議員和其他美國政客的數千條社交媒體消息，可按內容分類為目標群眾（國家或選民）、政治主張（中立/兩黨或偏見/黨派）和實際內容（如攻擊政敵等）（4 MB）註：該網站還有其他大量CV、NLP和語音方面的小型數據集

CSI語料庫：荷蘭語，該語料庫包含兩種類型的學生文本：作文和評論。涉及作者（性別、年齡、性取向、來源地區、性格概況）和文檔（時間、流派、真實性、情緒、等級）等大量元數據。由安特衛普大學CLiPS研究中心提供，主要用於計量文體學分析。

ClueWeb09 FACC：帶有Freebase注釋的ClueWeb09和ClueWeb12語料庫（72 GB）

ClueWeb11 FACC：帶有Freebase標識符注釋的ClueWeb11（92 GB）

AWS爬蟲數據：收集了從2008以來抓取的50億個網頁的數據。其中自2013年開始，所有爬蟲只持續一個月，數據以WARC文件格式存儲。從2012年開始，抓取的數據還包含元數據（WAT）和文本數據（WET）提取，大大簡化了數據處理（541 TB）

康奈爾電影對話語料庫（Cornell Movie Dialog Corpus）：包含從原始電影腳本中提取的虛構對話集：10,292對電影角色之間的220,579次會話交流、涉及617部電影中的9,035個字元，共304,713個句子。元數據極其豐富，包含流派、發布年份、IMDB評級、IMDB票數、性別、在電影積分榜上的位置。

crosswikis：英語短語相關的維基百科文章資料庫、論文（11 GB）

DBpedia：包含從維基百科中提取出的結構化信息，包括312,000個人、413,000個地點、94,000張音樂專輯、49,000部電影、15,000種電子遊戲、140,000個組織、146,000個物種和4600種疾病。共計10億多條信息，其中2.57億條來自維基百科英文版，7.66億條來自其他語言版本（17 GB）

Death Row：包含美國德州自1984年以來每個執行死刑罪犯的遺言（HTML表格）

Del.icio.us：包含delicious.com上的125萬個書籤（170 MB）

社交媒體上有關災難的消息：包含10,000條和災難事故相關的帶注釋推特（2 MB）

經濟新聞報道的基調和相關性：包含從1951年到2014年的經濟新聞，可根據新聞報道判斷該文章是否與美國經濟情況相關，如果是，報道的基調是什麼（12 MB）

Enron電子郵件集：包含1,227,255封電子郵件，其中493,384份附件覆蓋了151名託管人。該電子郵件的格式為Microsoft PST、IETF MIME和EDRM XML（210 GB）

Event Registry：可以實時訪問全球100,000個新聞源的新聞文章，有API（免費查詢工具）

垃圾郵件/標題黨新聞數據集[Kaggle]：新聞網站The Examiner上的新聞彙編，包含超過6年的21000多位作者撰寫的300萬篇文章的標題（200 MB）

聯邦採購數據中心的聯邦合同：來自管理聯邦採購數據系統（FPDS-NG）的聯邦採購數據中心（FPDC）的轉儲，真實性和準確性已受承諾（180 GB）

Flickr Personal Taxonomies：社交媒體上用戶按個人喜好分類內容的樹形數據集，包含7,121位Flickr的樹（40 MB）

Freebase數據轉儲：是一個開放的世界信息資料庫，包含電影、音樂、人物、地域在內的數百個類別的數百萬個主題（26GB）

Freebase簡單主題轉儲：關於Freebase中每個主題的基本識別事實的數據轉儲（5 GB）

Freebase Quad Dump：Freebase中所有當前事實和主張的數據轉儲（35 GB）

GigaOM WordPress Challenge [Kaggle]：預測有人會喜歡哪些博客文章。包含博客文章、元數據、用戶喜歡情況等信息（1.5 GB）

Google Books Ngrams：包含在整個語料庫中出現超過40次的n-gram，優化了快速查詢小組短語的用法（2.2 TB）

Google Web 5gram：包含n-gram及其觀察到的頻率計數。n-gram的長度從unigrams（單個單詞）到5-gram，主要用於統計語言建模（24 GB）

Gutenberg EBooks：電子書基本信息的注釋列表（2 MB）

哈佛圖書館：哈佛圖書館藏書記錄已超過1,200萬冊，包括書籍、期刊、電子資料、手稿、檔案資料、樂譜、音頻、視頻和其他資料（4GB）

仇恨言語識別：ICWSM 2017論文「自動仇恨語音檢測和無禮語言問題」的作者貢獻。包含3類短文本：a）包含仇恨言論；b）是冒犯性的，但沒有仇恨言論；c）根本沒有冒犯性。由15,000行文本構成，每個字元串都經過3人判斷（3 MB）

希拉里柯林頓的電子郵件[Kaggle]：美國國務院發布的近7,000頁的希拉里·柯林頓精心編輯的電子郵件（12 MB）

Home Depot產品搜索相關性[Kaggle]：包含Home Depot網站上的許多產品和真實客戶的搜索關鍵詞。每對詞都經3名評估人員評估，並給出1—3的相關性評分，可用來預測相關性（65 MB）

識別文本中的關鍵短語：Question / Answer pairs + context；如果與問題/答案有關，則判斷上下文關係（8 MB）

Jeopardy：包含216,930個危險問題（53 MB）

20萬英語笑話文本：來源於各個地方的208,000個純文本笑話

歐洲語言機器翻譯：（612 MB）

材料安全數據表：230,000份材料安全數據表，包含化學成分、急救措施、儲存和處理等信息（3 GB）

澳大利亞新聞標題[Kaggle]：包含15年內（2003年初至2017年）澳大利亞廣播公司發布的130萬條新聞的標題，深入研究關鍵詞，可以看到所有塑造了過去十年的重要事件，以及它們隨著時間的演變歷程（56 MB）

MCTest：免費提供一組660個故事和相關問題，用於研究機器對文本的理解、回答問題（1 MB）

NEGRA：德語報刊文本的句法注釋語料庫，適用於所有大學和非營利組織，需要簽署並發送表格才能獲得

印度新聞標題[Kaggle]：彙編了2001年至2017年印度「泰晤士報」發表的270萬條新聞的標題（185 MB）

新聞文章/維基百科頁面配對：閱讀一篇簡短文章，並選出它和兩篇維基百科文章中的哪一篇最接近（6 MB）

NIPS2015論文（第2版）[Kaggle]：所有NIPS2015論文全文（335 MB）

NYTimes Facebook數據：所有《紐約時報》的Facebook帖子（5 MB）

一周全球新聞饋送[Kaggle]：一周內（2017年8月24日至2017年8月30日）全球在線發布的大多新聞內容的快照，包括大約140萬篇文章、20,000個新聞來源和20多種語言（115 MB）

句子/概念對的真實含義：用兩個概念來讀一個句子，例如「一隻狗是一種動物」或「船長可以與主人具有相同的含義」，判斷這句話是否屬實，然後將結果排列為1-5五個等級（700 KB）

Open Library數據轉儲：包含Open Library中所有記錄的最新版本的轉儲（16 GB）

Personae語料庫：收集用於作者信息和個性預測的實驗，由145名不同學生編寫的145篇荷蘭語文章組成，每個學生還參加了在線MBTI性格測試

Reddit評論：截至2015年7月的每個公開可用的書籤評論，共計17億條評論（250 GB）

Reddit評論（15年5月）[Kaggle]：上個數據集的子集（8 GB）

Reddit推薦帖語料庫：從2006年1月至2015年8月31日所有公開可用的Reddit推薦帖（42 GB）

路透社語料庫：包含大量路透社新聞報道，主要用於研究和開發自然語言處理、信息檢索和機器學習系統。在2004年秋季，NIST接管了RCV1，所以現在需要向NIST發送請求並簽署協議來獲取這些數據集（2.5 GB）

SaudiNewsNet：包含從各種在線沙特報紙中摘錄的31,030份阿拉伯文報紙文章及其元數據（2 MB）

簡訊垃圾郵件收集：是一個包含5,574英文單詞，真實的、未附帶附件的簡訊內容集，已合法進行標記（200 KB）

SouthparkData：帶有腳本信息的.csv文件，包含《南方公園》季數、劇集、角色等信息（3.6 MB）

Stackoverflow：730萬個stackoverflow問題+其他stackexchanges（查詢工具）

Twitter Cheng-Caverlee-Lee Scrape：包含2009年9月至2010年1月twitter收集的基於內容的用戶地理定位信息，包含115,886位Twitter用戶和3,844,612個位置更新：經度、緯度（400 MB）

Twitter上關於新英格蘭愛國者隊泄氣門（Deflategate）事件的情緒：新英格蘭愛國者隊在美國橄欖球聯合會（AFC）決賽中擊敗印第安納波利斯小馬隊，將在2月1號的超級碗大賽中迎戰西雅圖海鷹隊。但是愛國者隊被發現在這次比賽中使用的12個橄欖球有11個充氣不足。這個數據集可用於觀察醜聞爆發Twitter用戶的情緒，以衡量公眾對整個事件的看法（2 MB）

Twitter上激進分子情緒分析：關於諸如墮胎合法化、女權主義、希拉里·柯林頓等各種左傾問題的推文，如果所述推文對該問題贊成、反對或保持中立，則將其分類（600 KB）

Twitter Sentiment140：與品牌/關鍵字相關的推文，網站上包括論文和研究想思路（77 MB）

Twitter的情緒分析：自駕車：閱讀推文，將其分為非常積極的、輕微積極的、中性的、輕微消極的或非常消極的，並標記其是否與自駕車相關（1 MB）

Twitter東京地理定位推文：來自東京的20萬條推文（47 MB）

Twitter UK Geolocated Tweets：來自英國的17萬條推文。（47 MB）

Twitter美國地理定位推文：來自美國的20萬條推文（45 MB）

Twitter美國航空公司情緒[Kaggle]：收集了twitter用戶對於一些美國主要航空公司的評價情況。數據始於從2015年2月，評論者需選擇正面、負面和中性中的一類，如有負面評價，再進行原因分類（如「晚班」或「粗魯服務」）（2.5 MB）

基於新聞文章判斷美國經濟表現：新聞文章的標題和摘要與美國經濟相關程度的排名（5 MB）

Urban Dictionary辭彙和定義[Kaggle]：截至2016年5月，包含全部260萬個Urban Dictionary的辭彙定義、提交者和點贊數量的CSV語料庫（238 MB）

WestburyLab USENET語料庫：2005—2010年47,860篇英語新聞的匿名匯總，文章長度在500字和500,000字之間，英文單詞佔比高達90%（40 GB）

WestburyLab維基百科語料庫（2010）：包含2010年4月以前維基百科英文部分中的所有文章的快照，已經去除了所有鏈接和不相關的材料（導航文本等），但未經標記，是原始文本（1.8 GB）

WEX：英文維基百科的處理轉儲（66 GB）

維基百科XML數據：維基媒體基金會提供的完整副本，以wikitext源代碼和嵌入XML的元數據形式提供（500 GB）

Yahoo! Answers Comprehensive Questions and Answers：2017年10月25日創建，包含4,483,032個問題及其答案（3.6 GB）

Yahoo! Answers consisting of questions asked in French：Yahoo! Answers corpus from 2006 to 2015的子集，包含170萬個法語問題以及相應的答案（3.8 GB）

Yahoo! Answers Manner Questions：Yahoo! Answers corpus的子集，並根據語言屬性進行選擇，包含142,627個問題及其答案。（104 MB）

Yahoo!從公開可用網頁中提取的HTML表單：包含一小部分含有複雜HTML表單的頁面，共計267萬個複雜表單（50+ GB）

Yahoo!從公開可用網頁中提取元數據：RDF數據（2 GB）

Yahoo! N-Gram Representations：包含n-gram表示形式，這些數據可以作為查詢重寫任務的測試平台，這是IR研究中的一個常見問題，也是NLP研究中常見的單詞和句子相似性任務（2.6 GB）

Yahoo! N-Grams 2.0：n-gram（n = 1至5），從1260多個面向新聞的站點中檢索到的1460萬個文檔（1.26億條獨特語句，34億個運行詞）（12 GB）

Yahoo!搜索日誌與相關性判斷：匿名化的Yahoo!搜索日誌與相關性判斷（1.3 GB）

Yahoo!英語維基百科的語義注釋快照：英文維基百科從2006年11月4日開始使用一些公開的NLP工具進行處理，共1,490,688個條目（6 GB）

Yelp：包括餐廳排名和220萬條評論

YouTube：170萬個YouTube視頻的簡介

主要來源

awesome-public-datasets/ NLP（包含更多列表）
AWS公開數據集
CrowdFlower: Data for Everyone（包含大量小型調查以及為特定任務眾包獲得的數據）
Kaggle 1, 2（需要確保該比賽數據可用於其他非競賽場合）
Open Library
Quora（主要注釋的語料庫）
/r/datasets（無盡的數據集列表，大部分是由業餘愛好者提供的，但沒有正確記錄或許可）
rs.io（另一張大列表）
Stackexchange：Opendata
斯坦福大學NLP小組（主要注釋語料庫和TreeBanks，或提供實際的NLP工具）
Yahoo! Webscope（包含使用他們數據集的論文）